Herramientas Personales
Usted está aquí: Inicio Ciencias Sociales y Jurídicas Econometría (2008) econometria practicas ficticias Variables ficticias

Variables ficticias

Acciones de Documento
  • Enviar esto
  • Imprimir esto
  • Content View
  • Bookmarks

Practicas



VARIABLES EXPLICATIVAS CUALITATIVAS

Objetivo

Ilustrar el empleo de variables explicativas cualitativas en el análisis de regresión.

Ejercicio: Salarios y características de empleados (Ramanathan 2002)

El siguiente cuadro contiene datos de sección cruzada sobre salarios y otras características personales de los empleados de una determinada compañia:

wage educ exper age gender race cler maint crafts
1345 6 2 38 0 1 1 0 0
2435 4 18 52 1 1 0 0 1
1715 6 4 45 1 1 0 1 0
1461 6 4 58 1 1 1 0 0
1639 9 3 30 1 0 0 0 1
1345 5 8 43 0 1 1 0 0
1602 7 6 30 0 1 1 0 0
1144 4 3 33 0 0 0 1 0
1566 6 23 51 1 0 0 1 0
1496 4 15 37 1 1 0 1 0
1234 4 9 45 0 0 1 0 0
1345 6 3 55 0 1 1 0 0
1345 5 14 57 0 1 1 0 0
3389 9 16 36 1 1 0 0 0
1839 4 20 60 1 1 0 1 0
981 4 5 35 1 0 0 1 0
1345 9 10 34 0 1 1 0 0
1566 5 4 28 0 0 1 0 0
1187 6 1 25 0 1 1 0 0
1345 7 10 43 0 1 1 0 0
1345 9 2 42 0 1 1 0 0
2167 4 17 47 1 0 0 1 0
1402 11 2 46 1 1 1 0 0
2115 4 15 52 1 0 0 0 1
2218 8 11 64 1 1 0 0 1
3575 11 1 39 1 1 0 0 0
1972 4 1 39 1 1 0 0 1
1234 4 2 40 0 1 1 0 0
1926 5 9 53 1 0 0 1 0
2165 6 15 59 0 1 0 0 0
2365 6 12 35 0 0 0 0 0
1345 9 5 45 0 1 1 0 0
1839 4 14 37 0 0 0 0 0
2613 5 14 37 1 1 0 0 1
2533 11 3 43 1 1 0 0 0
1602 8 5 32 0 1 1 0 0
1839 9 18 40 0 1 0 0 1
2218 7 1 49 1 1 0 0 0
1529 4 10 43 0 0 1 0 0
1461 1 10 31 1 0 0 0 1
3307 9 22 45 1 1 0 0 1
3833 11 3 31 1 1 0 0 0
1839 4 14 55 1 0 0 1 0
1461 6 5 30 0 1 1 0 0
1433 9 3 28 1 0 0 0 1
2115 6 15 60 0 0 0 0 0
1839 4 13 32 1 0 0 1 0
1288 4 9 58 1 0 0 1 0
1288 6 4 29 0 0 0 0 1

donde

  • wage es el salario mensual
  • educ son los años de educación
  • exper es el número de años en la compañía
  • age es la edad del empleado
  • gender es una variable binaria: 1 hombre, 0 mujer
  • race es una variable binaria: 1 blanco, 0 no blanco
  • cler es una variable binaria:1 oficinista, 0 no oficinista
  • maint es una variable binaria: 1 técnico de mantenimiento, 0 otro caso
  • crats es una variable binaria: 1 artesano, 0 en otro caso

Se pide:

  1. Calcule los estadísticos descriptivos para las variables wage, educ, exper y age en la muestra completa.
  2. Calcule los anteriores estadísticos descriptivos en las submuestras de hombres y mujeres.
  3. Calcule los anteriores estadísticos descriptivos en las submuestras de mujeres blancas y mujeres no blancas.
  4. Estime la regresión de la variable wage sobre las variables dummy gender y 1-gender.
  5. Estime la regresión de la variable wage sobre un término constante y la variable gender, y la regresión de wage sobre un término constante y la variable 1-gender.
  6. Contraste en las tres últimas regresiones estimadas la hipótesis de que el salario medio es independiente del sexo del empleado.
  7. Estime la regresión de la variable wage sobre las variables educ, exper y age, incluyendo un término constante. Contraste la significación individual de las estimaciones y la significación global de la regresión. Compruebe que las estiamciones estadísticamente significativas tienen el signo esperado. Valore la bondad del ajuste.

Preliminares

1. Copiar la tabla de datos en el portapapeles

Selecciona el contenido de la tabla de arriba, pulsa el botón derecho del ratón, y elige la opción Copiar en el menú emergente.

2. Pegar el contenido del portapapeles en Empiricus

Abre un vista de edición en Empiricus, sitúa el cursor en el editor, pulsa el botón derecho y elige la opción Edición > Pegado especial (Edit > Paste special) en el menú emergente. Los datos mostrados en el editor no pueden utilizarse aún para realizar cálculos, es necesario pasarlos a la base de datos de Empiricus.

3. Cargar los datos a la base de datos de Empiricus.

Pulsa el botón derecho del ratón en cualquier punto de la ventana de edición, y selecciona la opción Leer > Tabla de datos > Datos en columna (Read > Data table > Data in columns) en el menú emergente . Observarás en la mini-ventana Data la lista de variables:

El símbolo junto al alias de la variable indica que ésta es una sección cruzada (undated).

Solución

1. Estadísticos descriptivos de las variables wage, educ, exper y age en la muestra.

En la ventana de comandos introducimos la sentencia

>> dstatistics wage educ exper age

Name wage educ exper age
Obs 49 49 49 49
Mean 1820.2 6.22449 8.83673 42.3673
Sdev. 641.62 2.34969 6.19199 10.2434
Sdev. mean 91.6599 0.33567 0.884569 1.46334
t-ratio 19.8582 18.5435 9.98987 28.9526
p-value 0 0 1.31E-13 0
Min 981 1 1 25
Pos 15 39 18 18
Date 16.1 40.1 19.1 19.1
Max 3833 11 23 64
Pos 41 22 8 24
Date 42.1 23.1 9.1 25.1
Skew 1.47712 0.475491 0.470426 0.325179
Kurt 4.77141 2.477 2.08136 2.04186
Jarque-Bera 24.2253 2.40487 3.53024 2.73786
p-value 5.49E-06 0.300461 0.171166 0.254379

2. Estadísticos descriptivos en las submuestras de hombres y mujeres

En la ventana de comandos introducimos la sentencia

>> dstatistics wage educ exper age -if[gender==1]

Name wage educ exper age
Obs 26 26 26 26
Mean 2086.92 6.30769 9.84615 44.3462
Sdev. 728.81 2.81164 6.94867 10.1752
Sdev. mean 142.931 0.551408 1.36275 1.99551
t-ratio 14.6009 11.4392 7.22523 22.2229
p-value 4.82E-14 9.95E-12 7.14E-08 0
Min 981 1 1 28
Pos 15 39 25 44
Date 16.1 40.1 26.1 45.1
Max 3833 11 23 64
Pos 41 22 8 24
Date 42.1 23.1 9.1 25.1
Skew 0.936857 0.379849 0.269567 0.118162
Kurt 3.0401 1.99455 1.76202 1.89088
Jarque-Bera 3.80511 1.72041 1.9752 1.39317
p-value 0.149187 0.423075 0.372469 0.498283

Nota que la condición -if[gender==1], donde == es dos veces el símbolo =, selecciona la submuestra correspondiente a hombres.

La sentencia

>> dstatistics wage educ exper age -if[gender==0]

Name wage educ exper age
Obs 23 23 23 23
Mean 1518.7 6.13043 7.69565 40.1304
Sdev. 324.464 1.67603 4.96452 9.85241
Sdev. mean 67.6554 0.349476 1.03517 2.05437
t-ratio 22.4475 17.5418 7.43416 19.5342
p-value 1.11E-16 1.01E-14 9.76E-08 1.11E-15
Min 1144 4 1 25
Pos 7 7 18 18
Date 8.1 8.1 19.1 19.1
Max 2365 9 18 60
Pos 30 16 36 45
Date 31.1 17.1 37.1 46.1
Skew 1.22892 0.458668 0.450291 0.588606
Kurt 3.49192 2.16256 1.94945 2.46176
Jarque-Bera 6.02115 1.47852 1.83492 1.60572
p-value 0.0492633 0.477467 0.399532 0.448045

genera los estadísticos descriptivos para la submuestra de mujeres.

3. Estadísticos descriptivos en las submuestras de mujeres blancas y mujeres no blancas

Los estadísticos descriptivos para la submuestra de mujeres blancas se obtienen introduciendo la sentencia

>> dstatistics wage educ exper age -if[(1-gender)*race==1]

Name wage educ exper age
Obs 15 15 15 15
Mean 1456.67 6.8 7.06667 40.8667
Sdev. 246.608 1.6 5.11816 9.79705
Sdev. mean 63.6739 0.413118 1.3215 2.52959
t-ratio 22.877 16.4602 5.34745 16.1555
p-value 8.63309e-013 7.40106e-011 5.14643e-005 9.49677e-011
Min 1187 4 1 25
Pos 18 27 18 18
Date 19.1 28.1 19.1 19.1
Max 2165 9 18 59
Pos 29 16 36 29
Date 30.1 17.1 37.1 30.1
Skew 1.66976 0.132813 0.737115 0.387797
Kurt 5.10094 1.83398 2.36772 2.2856
Jarque-Bera 9.72895 0.893843 1.60821 0.694949
p-value 0.0077159 0.639594 0.447489 0.70647

y para la submuestra de mujeres no blancas,

>> dstatistics wage educ exper age -if[(1-gender)*(1-race)==1]

Name wage educ exper age
Obs 8 8 8 8
Mean 1635 4.875 8.875 38.75
Sdev. 409.757 0.927025 4.42825 9.80752
Sdev. mean 144.871 0.327753 1.56562 3.46748
t-ratio 11.2859 14.874 5.66867 11.1753
p-value 4.79361e-006 7.44125e-007 0.0003798 5.11937e-006
Min 1144 4 3 28
Pos 7 7 7 17
Date 8.1 8.1 8.1 18.1
Max 2365 6 15 60
Pos 30 30 45 45
Date 31.1 31.1 46.1 46.1
Skew 0.512267 0.250067 -0.0549263 0.993688
Kurt 1.93958 1.21025 1.46778 3.10003
Jarque-Bera 0.724722 1.15112 0.786589 1.31989
p-value 0.696031 0.562391 0.67483 0.51688

4. Regresión de la variable wage sobre las variables ficticias hombre y mujer

Introduce la sentencia

>> ls wage gender 1-gender

El comando ls (least squares) indica a Empiricus que estime por mínimos cuadrados la regresión de la variable dependiente wage sobre las variables explicativas gender y 1-gender. La variable 1-gender, que no está en la base de datos, es una expresión matemática que es calculada por Empiricus antes de realizar la regresión. Esta variable toma el valor 1 si la observación corresponde a una mujer y el valor 0 si corresponde a un hombre. Es importante que en la expresión 1-gender no haya espacios en blanco.

El resultado del comando es

Dependent var.: wage
Estimation method: Least squares
Sample info: 1.1 - 49.1 1 49
Included observations: 49
Date: 02/19/05 Time: 07:20:51
Variable Coefficient Std. Error t-ratio p-value [95% conf. interval]
gender 2086.9231 115.2512 18.11 0.000 1855.06757726 2318.77857659
1-gender 1518.6957 122.53727 12.39 0.000 1272.18246434 1765.20884001
Mean of dependent var 1820.2041   Mean of residuals -1.3920837e-013
Total sum of squares 20172112   Resid sum of squares 16231629
S.D. dependent var 641.61963   S.E. regression 587.66811
R-squared 0.19534312   Adjusted R-squared 0.17822276
Obs*R-squared 9.5718128   Log likelihood -380.93896
Akaike info criterion 12.792285   Schwarz criterion 12.869502

5. Regresiones de wage sobre 1 y hombre,  y de wage sobre 1 y mujer.

Introduciendo primero la sentencia

>> ls wage 1 gender

obtenemos

Dependent var.: wage
Estimation method: Least squares
Sample info: 1.1 - 49.1 1 49
Included observations: 49
Date: 02/19/05 Time: 07:47:35
Variable Coefficient Std. Error t-ratio p-value [95% conf. interval]
1 1518.6957 122.53727 12.39 0.000 1272.18246434 1765.20884001
gender 568.22742 168.22075 3.38 0.001 229.81092914 906.64392036
Mean of dependent var 1820.2041   Mean of residuals -3.2481954e-013
Total sum of squares 20172112   Resid sum of squares 16231629
S.D. dependent var 641.61963   S.E. regression 587.66811
R-squared 0.19534312   Adjusted R-squared 0.17822276
Obs*R-squared 9.5718128   Log likelihood -380.93896
Akaike info criterion 12.792285   Schwarz criterion 12.869502
F-statistic 11.409989   Prob(F-statistic) 0.0014756067

e introduciendo la sentencia

>> ls wage 1 1-gender

obtenemos

Dependent var.: wage
Estimation method: Least squares
Sample info: 1.1 - 49.1 1 49
Included observations: 49
Date: 02/19/05 Time: 07:51:39
Variable Coefficient Std. Error t-ratio p-value [95% conf. interval]
1 2086.9231 115.2512 18.11 0.000 1855.06757726 2318.77857659
1-gender -568.22742 168.22075 -3.38 0.001 -906.64392036 -229.81092914
Mean of dependent var 1820.2041   Mean of residuals 6.0323628e-013
Total sum of squares 20172112   Resid sum of squares 16231629
S.D. dependent var 641.61963   S.E. regression 587.66811
R-squared 0.19534312   Adjusted R-squared 0.17822276
Obs*R-squared 9.5718128   Log likelihood -380.93896
Akaike info criterion 12.792285   Schwarz criterion 12.869502
F-statistic 11.409989   Prob(F-statistic) 0.0014756067

6. Hipótesis: salario es independiente del sexo

En la regresión wage gender 1-gender, contrastamos la hipótesis nula H0: β1 - β2 = 0 frente a la alternativa H1: β1 - β2 ≠ 0 con el estadístico

t = (b1-b2)/(v(b1)+v(b2)-2cov(b1,b2))1/2 

donde β1 y β2 son los coeficientes asociados a las variables explicativas gender y 1-gender, respectivamente, y b1y b2 son las estimaciones de mínimos cuadrados de estos coeficientes.  Observe que cov(b1,b2) = 0 porque las variables gender y 1-gender son ortogonales. Así, para calcular el estadístico  t  introducimos en la línea de comandos

>> calc ( 2086.9231 - 1518.6957 ) / ( 115.2512^2 + 122.53727^2 )^0.5

obteniendo el resultado 3.37787, que comparamos con el valor crítico c para el cual Prob( | t47 | > c) = 1 - α. Para el nivel de significaciòn α = 0.95, c = 2.01174, que calcula introduciendo el comando

>> calc cdfti(0.975,47)

Como t > c se rechaza la hipótesis de que el salario es independiente del sexo.

En la regresión wage 1 gender, contrastamos la hipótesis nula H0: β2 = 0 frente a la alternativa H1: β2 ≠ 0 con el estadístico

t = b2/(v(b2))1/2 

donde β2 es el coeficiente asociado a las variable explicativa gender y b2 es su estimación de mínimos cuadrados. Este estadístico se muestra directamente en la tabla resumen de la regresión wage 1 gender, y es igual a 3.38, el mismo valor calculado en la regresión anterior.

Análogamente, en la regresión  wage 1 1-gender contrastamos la hipótesis nula H0: β2 = 0 frente a la alternativa H1: β2 ≠ 0 con el estadístico

t = b2/(v(b2))1/2 

donde β2 es el coeficiente asociado a las variable explicativa 1-gender y b2 es su estimación de mínimos cuadrados. El estadístico t asociado a la variable explicativa 1-gender es igual a -3.38, que en valor absoluto coincide con los estadísticos t anteriormente calculados.

7. Regresión de wage sobre 1, educ, exper y age

Introducimos la sentencia

>> ls wage 1 educ exper age

para obtener

Dependent var.: wage
Estimation method: Least squares
Sample info: 1.1 - 49.1 1 49
Included observations: 49
Date: 02/19/05 Time: 08:38:04
Variable Coefficient Std. Error t-ratio p-value [95% conf. interval]
1 632.24417 423.37852 1.49 0.142 -220.48393826 1484.97227902
educ 142.50994 34.859459 4.09 0.000 72.29938945 212.72049790
exper 43.225309 14.303538 3.02 0.004 14.41650462 72.03411388
age -1.9133218 8.3935268 -0.23 0.821 -18.81875224 14.99210862
Mean of dependent var 1820.2041   Mean of residuals 1.2609958e-011
Total sum of squares 20172112   Resid sum of squares 13672434
S.D. dependent var 641.61963   S.E. regression 551.20945
R-squared 0.32221109   Adjusted R-squared 0.27702517
Obs*R-squared 15.788344   Log likelihood -376.73525
Akaike info criterion 12.702337   Schwarz criterion 12.856772
F-statistic 7.1307842   Prob(F-statistic) 0.00051012146

El contraste de significación individual, H0: βi = 0 versus  H1: βi ≠ 0, puede realizarse utilizando

  • el estadístico t
  • el p-valor
  • el intervalo de confianza

Si comparamos la t-ratio con el valor crítico c = 2.0141 para el cual Prob( | t45 | > c) = 0.05, vemos que sólo las variables educ y exper son estadísticamente significativas. Además, los p-valores de estas variables son menores que 0.05 y sus intervalos de confianza no incluyen el valor 0.

En cuanto a la significación global, el estadístico F, 7.13, es mayor que el valor crítico c = 2.81154 para el cual Prob(F3,45 > c) = 0.05. Vemos, además, que el p-valor de este estadístico, 0.00051012146, es menor que 0.05.

Como la intuición sugiere una relación positiva entre el salario y el nivel de educación, y el salario y la experiencia laboral, podemos decir que las estimaciones tienen el signo correcto.

El R2 está por debajo de 0.5, por lo que podemos decir que el ajuste no es muy bueno.

Ejercicio propuesto

  1. Estime la regresión de la variable wage sobre todas las variables explicativas del ejercicio, incluyendo un término constante. Compruebe que los coeficientes estimados tienen el signo esperado. Contraste la significación individual de las estimaciones y la significación global de la regresión. Valore la bondad del ajuste.
  2. Estime una ecuación de regresión que tenga en cuenta la posible interacción entre las variables educación, experiencia y edad y las variables tipo de trabajo, sexo y raza.

 

 

Copyright 2010, por los autores de los cursos. Cite/attribute Resource. root. (2008, December 16). Variables ficticias. Retrieved June 20, 2013, from OCW Universidad de Cantabria Web site: http://ocw.unican.es/ciencias-sociales-y-juridicas/econometria/econometria/practicas/ficticias/variables-ficticias. Esta obra se publica bajo una licencia Creative Commons License. Creative Commons License
Reuse Course
Download this course