















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Un análisis detallado sobre el uso de modelos de regresión con variable dependiente cualitativa para estudiar el fenómeno de la criminalidad. Se explica el modelo lineal de probabilidad (mlp), el modelo logit y el modelo probit, y se muestra cómo aplicarlos para extraer conclusiones sobre la relación entre la criminalidad y variables como la edad y la educación. El documento incluye la formulación matemática de los modelos, la interpretación de los resultados y la representación gráfica de los factores de escala y las funciones de distribución acumulativa. Este análisis puede ser de gran utilidad para estudiantes y profesionales interesados en comprender cómo los modelos de probabilidad pueden aplicarse al estudio de fenómenos sociales y económicos.
Tipo: Apuntes
1 / 23
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
En este informe estaremos trabajando con los siguientes datos de la tabla 10.15 del libro Gujarati :
la tasa de criminalidad (R), número de hombres entre 14 y 24 años (AGE), Tasa de fuerza de trabajo
(ED), de 1960 , en 47 estados de Estados Unidos.
OBS R AGE ED
1
79.1 151 91
2 163.5 143 113
3 57.8 142 89
4 196.9 136 121
5
123.4 141 121
6
68.2 121 110
7 96.3 127 111
8 155.5 131 109
9 85.6 157 90
10
70.5 140 118
11 167.4 124 105
12 84.9 134 108
13 51.1 128 113
14 66.4 135 117
15 79.8 152 87
16 94.6 142 88
17
53.9 143 110
18 92.9 135 104
19 75 130 116
20 122.5 125 108
21
74.2 126 108
22 43.9 157 89
23 121.6 132 96
24 96.8 131 116
25
52.3 130 116
26 199.3 131 121
27 34.2 135 109
28 121.6 152 112
29
104.3 119 107
30 69.6 166 89
31 37.3 140 93
Información proporcionada: El cuadro 10 .15 de la criminalidad en los 47 estados de Estados Unidos
en el año 1960. Se busca determinar si la función de producción Cobb-Douglas se ajusta a los datos
dados en la tabla. Por lo tanto, se extrae la variable dependiente que es la criminalidad (output), y
dos variables independientes que influyen en la criminalidad que es el AGE Y ED.ps
La aplicación del modelo de regresión lineal, considera únicamente a la variable dependiente como
cuantitativa. Si bien incorporamos variables dicotómicas al modelo, estas tienen un rol explicativo.
Sin embargo, también es posible que la variable explicada sea binaria o dicotómica. Considere lo
siguiente: en la segunda vuelta de las elecciones presidenciales del Perú, los ciudadanos deben votar
por uno de los dos candidatos que llegaron a esta etapa (para este ejemplo teórico no consideremos
los votos en blanco y nulos). La variable dependiente en este caso es la elección de voto entre los
candidatos. Suponga que Y = 1 es el voto para el candidato A y Y = 0 es el voto para el candidato B.
Para elegir su voto, las personas tomaran en cuenta factores como la reputación previa del candidato,
las propuestas de gobierno, afiliación política, si el candidato se va a reelegir, etc. Entonces, podemos
observar como la regresada es una variable cualitativa o binaria. Antes de continuar con la
formulación del modelo, es necesario hacer hincapié en lo que implica pasar de una variable
dependiente cuantitativa a una cualitativa. Recordemos que en un modelo con Y cuantitativa, el
objetivo consistía en estimar su valor esperado, o media esperada, dados los valores de las regresores
X,
𝐸(𝑌
𝑖
| 𝑋
𝑙𝑖 ,
𝑋
2 𝑖
,.... , 𝑋
𝑘𝑖)
Por otro lado , en los modelos donde Y es cualitativa, el objetivo es encontrar la probabilidad de que
un acontecimiento suceda. Por lo que, a este tipo de modelos se les conoce también como modelos
de probabilidad, y su planteamiento se realiza a través del modelo lineal de probabilidad (MLP). Este
tiene como propósito determinar la probabilidad de un evento, dado un conjunto determinado de
atributos.
modelo simple:
Y
i
= 𝛽
1
2
X
1
i
Así,
Y
i
= [
1 , 𝑠𝑖 𝑜𝑐𝑢𝑟𝑟𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜
0 𝑠𝑖𝑛𝑜 𝑜𝑐𝑢𝑟𝑟𝑒 𝑒𝑙 𝑒𝑣𝑒𝑛𝑡𝑜
]
𝜇 = perturbaciones
La distribución de la muestra en este tipo de modelos se caracteriza por mostrar una nube de puntos
de tal forma que las observaciones muestrales se dividen en dos subgrupos. Uno de los cuales es el
formado por las observaciones en las que ocurrió el hecho objetivo de estudio, es decir cuando Y
i
=
1, y el otro, por los puntos muestrales en los que no ocurrió, es decir, Y i
= 0.
E(Y
i)=
0 ( 1 − P
i
) + 1 (P
i
) = P
i
así,
E
( Y
i
| X
i
) = 0 ∗ Pr
( Y
i
= 0
| X
i
)
( Y
i
= 1
| X
i
)
E
( Y
i
| X
i
) = 1 ∗ 𝑃𝑟
( Y
i
= 1
| X
i
)
𝐸
( Y
i
| X
i
) = P
i
Se manifiesta de la siguiente manera,
𝐸
( Y
i
| X
i
) = 𝛽
1
2
X
i
= P
i
Lo que nos da a conocer que la esperanza condicional del modelo puede interpretarse como la
probabilidad condicional de Y i.
En esta sección crearemos las variables cualitativas a utilizar en el análisis del modelo de nuestros
datos. Para la creación de la variable dicotómica dependiente, partiremos de las cifras de la
criminalidad (R), y evaluaremos su crecimiento en los 47 estados. Además, para la variable
independiente cualitativa, agregaremos una columna de datos adicionales que nos proporcionaran a
la variable dummy para nuestro modelo.
Esta variable la crearemos a partir del education rate (tasa de educación de los Estados Unidos) para
el año de nuestros datos. Decidimos vincular este indicador puesto que la tasa de educación está
vinculada al crecimiento de la criminalidad. Así, una tasa de educación alta tiende a tener un efecto
de disminucion en la criminalidad, ya que la educación aumenta las oportunidades de acceder a
trabajos legales e incrementa sus salarios, lo cual reduce el atractivo de criminalidad. El efecto la tasa
educativa sobre la criminalidad va más hallar de una variable, es por ello, la forma en que la
analizaremos en este ejercicio teórico corresponde a una versión simplificada. Ahora, sabemos que la
tasa educativa es una variable cuantitativa, pues corresponde a valores nominales. Por esta razón,
vamos a transformarla, asignando valores dicotómicos que correspondan a la variable independiente
cualitativa que deseamos para el modelo. Para ello realizaremos esta conversión de acuerdo con,
OBS U
(educacion)
Valor
Dicotómico
1
108
1
2
96
0
3
94
0
4
102
1
5
91
0
6
84
0
7
97
1
8
79
0
9
81
0
10
100
1
11
77
0
12
83
0
13
77
0
14
77
0
15
93
0
16
116
1
17
114
1
18
89
0
19
78
0
20
130
1
21
102
1
22
97
1
23
83
0
24
142
1
25
70
0
26
80
0
27
103
1
nominales. Por ello, antes de continuar, debemos convertirla en cualitativa. El procedimiento que utilizaremos para determinar un crecimiento de la criminalidad será la variación porcentual del OBS R Cambio % V.
19
28
255.556 1
29 104.
30 69.
31 37.
32
102.145 1
33 107.
42.175 1
34 92.
35 65.
36 127.
94.793 1
37 83.
38 56.
39
45.936 1
40 115.
39.346 1
41 88
42 54.
43
51.845 1
44 103
25.152 1
45 45.
46 50.
11.648 0
47
67.126 1
Así, reemplazando Y i
por su valor cualitativo (VC
i
), expresamos el modelo de la siguiente manera:
VC
i
= 𝛽
1
2
D
2i
Donde,
Y
i
= Crecimiento de la criminalidad en función de la tasa de educación
VC i
=
[
1 si R > 24 )
0 caso contrario
]
Y
i
esta representada cualitativamente como VC
i
, representando la variable dependiente cualitativa
del modelo que será explicada por D 2i
, la variable independiente dicotómica, que representa la tasa
educativa
38 56.6 - 31.889 0 133 104 87
0
39 82.6 45.936 1 149 88 76
0
40 115.1 39.346 1 145 104 99
1
41 88 - 23.545 0 148 122 86
0
42 54.2 - 38.409 0 141 109 88
0
43 82.3 51.845 1 162 99 85
0
44 103 25.152 1 136 121 107
1
45 45.5 - 55.825 0 139 88 73
0
46 50.8 11.648 0 126 104 111
1
47 84.9 67.126 1 130 121 135
1
La interpretación de los modelos probabilísticos lineales expone una serie de problemas que llevaron
a la búsqueda de otros modelos alternativos que permitan estimaciones más confiables de las variables
dicotómicas. Para evitar que la variable endógena estimada pueda encontrarse fuera del rango [0, 1],
las alternativas disponibles son utilizar modelos de probabilidad no lineales, donde la función de
especificación utilizada garantice un resultado en la estimación comprendido en el rango deseado.
Las funciones de distribución cumplen este requisito, ya que son funciones continuas que toman
valores comprendidos entre 0 y 1. Por ende , siendo las más habituales la función de distribución
logística, que ha dado lugar al modelo Logit, y la función de distribución de la normal tipificada, que
ha dado lugar al modelo Probit. Tanto los modelos Logit como los Probit relacionan, por tanto, la
variable endógena 𝑌
𝑖
con las variables explicativas X
ki
a través de una función de distribución.
El Modelo Logit se puede interpretar en términos probabilísticos, esto es , para medir la probabilidad
de que ocurra el acontecimiento objeto de estudio (Yi = 1). Y al suponer una relación no lineal entre
las variables explicativas y la probabilidad de ocurrencia del acontecimiento, cuando aumenta en una
unidad la variable explicativa los incrementos en la probabilidad no son siempre iguales ya que
dependen del nivel original de la misma. Una interpretación más sencilla del parámetro estimado es
la que se obtiene a través de la linealización del modelo. Para ello, partiendo de la ecuación general
del Modelo Logit, con P i
como la probabilidad de que suceda el evento, se tiene:
E
( Y
i
) = Prob
( Y
i
= 1
) = P
i
=
e
𝛽
1
+𝛽
2
X
2i
1 + e
𝛽
1
+𝛽
2
X
2i
así,
P
i
i
(𝑒
𝛽
1
+𝛽
2
X
2i
) = e
𝛽
1
+𝛽
2
X
2i
P
i
1 − P
i
= e
𝛽 1
+𝛽 2
X 2i
Al cociente entre la probabilidad de que ocurra un hecho frente a la probabilidad de que no suceda,
se le denomina “odds ratio”.
Linealizamos,
L
i
= ln(
P
i
1 − P
i
) = 𝛽
1
2
X
2i
Esta ecuación nos permitirá estimar los valores de la regresada. Observemos los resultados del modelo
Logit en Eviews. Y para determinar los valores de los coeficientes en un modelo Logit se generará
una ecuación de estimación en la que se establece el modelo binario logit en el programa Eviews
usando el código:
VCR C AGE ED D2U
valores estad´ısticos estimados en el cual relacionamos las variables dicotómicas, tanto la dependiente
como la independiente.
VCR C AGE ED D2U
Nos muestra Modelo binario Probit en Eviews
Después, para obtener las estimaciones de los valores Z, podemos sustituir las medias de las variables
explicativas. Extraemos estos valores a partir de Eviews, para determinar los promedios de las
variables, nos vamos a opción Views/Categorial Regressor Stats
A partir de estos promedios, podemos formar la función del factor de escala total, que es el promedio
de todos los años sea la tasa educativa es alta o baja. Realizamos el procedimiento en Eviews usando
el código:
fe=c(1)+c(2)138.5745+c(3)105.6383+c(4)0. 446809*
Se presenta el Factor de escala fe y z calculada donde el valor de z es - 0.193882. Ahora, llevamos
este valor a la distribución acumulativa de probabilidad, y calculamos el valor de probabilidad en
Mathcad usando
Pnorm(- 0 ,193882 , 0,1)= 0.
Se nos muestra la FDA del factor de escala promedio.
Se nos muestra, FDA del factor de escala fe1, en otras palabras, cuando la tasa educativa es alta, hay
un 42,2% de probabilidad que la criminalidad haya experimentado un crecimiento. A continuación,
generamos el otro caso, cuando la tasa educativa baja (. Un nuevo factor de escala que se genera
multiplicando el valor del último coeficiente por 0:
Fe0=c(1)+c(2)138.5745+c(3)105.6383+c(4)* 0**
Se muestra, Factor de escala fe0 y z calculada, El valor de z es - 0. 191422. Ahora, llevamos este valor
a la distribución acumulativa de probabilidad, y calculamos el valor de probabilidad en Mathcad,
pnorm(-0.191422, 0,1)=0. 822
Nos muestra, FDA del factor de escala fe
Es decir, cuando la tasa educativa es baja, hay un 82,2% de probabilidad que la criminalidad haya
tenido un crecimiento. Ahora, de manera conjunta, podemos ver gráficamente ambos factores,
Se nos muestra FDA del factor de escala fe0 y fe
Se puede evidenciar entonces que la tasa educativa baja representa un incremento de probabilidad en
la criminalidad (0. 422 a 0. 822 ). En otras palabras, una tasa educativa baja hace que crecimiento de la
criminalidad se vea en aumento, en una notoria proporción.
Para seguir con el análisis, trabajaremos con la función en forma de variable. Para ello, utilizaremos
la variable AGE. Entonces, utilizaremos la variable directamente, la formulación seria la siguiente,
cuando la tasa de educación es baja (D2U = 0)
fe0v=c(1)+c(2)age+c(3)105.6383+c(4)***