Variables ficticias
Practicas
VARIABLES EXPLICATIVAS CUALITATIVAS
Objetivo
Ilustrar el empleo de variables explicativas cualitativas en el análisis de regresión.
Ejercicio: Salarios y características de empleados (Ramanathan 2002)
El siguiente cuadro contiene datos de sección cruzada sobre salarios y otras características personales de los empleados de una determinada compañia:
| wage | educ | exper | age | gender | race | cler | maint | crafts |
| 1345 | 6 | 2 | 38 | 0 | 1 | 1 | 0 | 0 |
| 2435 | 4 | 18 | 52 | 1 | 1 | 0 | 0 | 1 |
| 1715 | 6 | 4 | 45 | 1 | 1 | 0 | 1 | 0 |
| 1461 | 6 | 4 | 58 | 1 | 1 | 1 | 0 | 0 |
| 1639 | 9 | 3 | 30 | 1 | 0 | 0 | 0 | 1 |
| 1345 | 5 | 8 | 43 | 0 | 1 | 1 | 0 | 0 |
| 1602 | 7 | 6 | 30 | 0 | 1 | 1 | 0 | 0 |
| 1144 | 4 | 3 | 33 | 0 | 0 | 0 | 1 | 0 |
| 1566 | 6 | 23 | 51 | 1 | 0 | 0 | 1 | 0 |
| 1496 | 4 | 15 | 37 | 1 | 1 | 0 | 1 | 0 |
| 1234 | 4 | 9 | 45 | 0 | 0 | 1 | 0 | 0 |
| 1345 | 6 | 3 | 55 | 0 | 1 | 1 | 0 | 0 |
| 1345 | 5 | 14 | 57 | 0 | 1 | 1 | 0 | 0 |
| 3389 | 9 | 16 | 36 | 1 | 1 | 0 | 0 | 0 |
| 1839 | 4 | 20 | 60 | 1 | 1 | 0 | 1 | 0 |
| 981 | 4 | 5 | 35 | 1 | 0 | 0 | 1 | 0 |
| 1345 | 9 | 10 | 34 | 0 | 1 | 1 | 0 | 0 |
| 1566 | 5 | 4 | 28 | 0 | 0 | 1 | 0 | 0 |
| 1187 | 6 | 1 | 25 | 0 | 1 | 1 | 0 | 0 |
| 1345 | 7 | 10 | 43 | 0 | 1 | 1 | 0 | 0 |
| 1345 | 9 | 2 | 42 | 0 | 1 | 1 | 0 | 0 |
| 2167 | 4 | 17 | 47 | 1 | 0 | 0 | 1 | 0 |
| 1402 | 11 | 2 | 46 | 1 | 1 | 1 | 0 | 0 |
| 2115 | 4 | 15 | 52 | 1 | 0 | 0 | 0 | 1 |
| 2218 | 8 | 11 | 64 | 1 | 1 | 0 | 0 | 1 |
| 3575 | 11 | 1 | 39 | 1 | 1 | 0 | 0 | 0 |
| 1972 | 4 | 1 | 39 | 1 | 1 | 0 | 0 | 1 |
| 1234 | 4 | 2 | 40 | 0 | 1 | 1 | 0 | 0 |
| 1926 | 5 | 9 | 53 | 1 | 0 | 0 | 1 | 0 |
| 2165 | 6 | 15 | 59 | 0 | 1 | 0 | 0 | 0 |
| 2365 | 6 | 12 | 35 | 0 | 0 | 0 | 0 | 0 |
| 1345 | 9 | 5 | 45 | 0 | 1 | 1 | 0 | 0 |
| 1839 | 4 | 14 | 37 | 0 | 0 | 0 | 0 | 0 |
| 2613 | 5 | 14 | 37 | 1 | 1 | 0 | 0 | 1 |
| 2533 | 11 | 3 | 43 | 1 | 1 | 0 | 0 | 0 |
| 1602 | 8 | 5 | 32 | 0 | 1 | 1 | 0 | 0 |
| 1839 | 9 | 18 | 40 | 0 | 1 | 0 | 0 | 1 |
| 2218 | 7 | 1 | 49 | 1 | 1 | 0 | 0 | 0 |
| 1529 | 4 | 10 | 43 | 0 | 0 | 1 | 0 | 0 |
| 1461 | 1 | 10 | 31 | 1 | 0 | 0 | 0 | 1 |
| 3307 | 9 | 22 | 45 | 1 | 1 | 0 | 0 | 1 |
| 3833 | 11 | 3 | 31 | 1 | 1 | 0 | 0 | 0 |
| 1839 | 4 | 14 | 55 | 1 | 0 | 0 | 1 | 0 |
| 1461 | 6 | 5 | 30 | 0 | 1 | 1 | 0 | 0 |
| 1433 | 9 | 3 | 28 | 1 | 0 | 0 | 0 | 1 |
| 2115 | 6 | 15 | 60 | 0 | 0 | 0 | 0 | 0 |
| 1839 | 4 | 13 | 32 | 1 | 0 | 0 | 1 | 0 |
| 1288 | 4 | 9 | 58 | 1 | 0 | 0 | 1 | 0 |
| 1288 | 6 | 4 | 29 | 0 | 0 | 0 | 0 | 1 |
donde
- wage es el salario mensual
- educ son los años de educación
- exper es el número de años en la compañía
- age es la edad del empleado
- gender es una variable binaria: 1 hombre, 0 mujer
- race es una variable binaria: 1 blanco, 0 no blanco
- cler es una variable binaria:1 oficinista, 0 no oficinista
- maint es una variable binaria: 1 técnico de mantenimiento, 0 otro caso
- crats es una variable binaria: 1 artesano, 0 en otro caso
Se pide:
- Calcule los estadísticos descriptivos para las variables wage, educ, exper y age en la muestra completa.
- Calcule los anteriores estadísticos descriptivos en las submuestras de hombres y mujeres.
- Calcule los anteriores estadísticos descriptivos en las submuestras de mujeres blancas y mujeres no blancas.
- Estime la regresión de la variable wage sobre las variables dummy gender y 1-gender.
- Estime la regresión de la variable wage sobre un término constante y la variable gender, y la regresión de wage sobre un término constante y la variable 1-gender.
- Contraste en las tres últimas regresiones estimadas la hipótesis de que el salario medio es independiente del sexo del empleado.
- Estime la regresión de la variable wage sobre las variables educ, exper y age, incluyendo un término constante. Contraste la significación individual de las estimaciones y la significación global de la regresión. Compruebe que las estiamciones estadísticamente significativas tienen el signo esperado. Valore la bondad del ajuste.
Preliminares
1. Copiar la tabla de datos en el portapapeles
Selecciona el contenido de la tabla de arriba, pulsa el botón derecho del ratón, y elige la opción Copiar en el menú emergente.
2. Pegar el contenido del portapapeles en Empiricus
Abre un vista de edición
en Empiricus, sitúa el cursor en el editor, pulsa el botón derecho y elige la opción Edición > Pegado especial (Edit > Paste special) en el menú emergente. Los datos mostrados en el editor no pueden utilizarse aún para realizar cálculos, es necesario pasarlos a la base de datos de Empiricus.
3. Cargar los datos a la base de datos de Empiricus.
Pulsa el botón derecho del ratón en cualquier punto de la ventana de edición, y selecciona la opción Leer > Tabla de datos > Datos en columna (Read > Data table > Data in columns) en el menú emergente . Observarás en la mini-ventana Data la lista de variables:

El símbolo
junto al alias de la variable indica que ésta es una sección cruzada (undated).
Solución
1. Estadísticos descriptivos de las variables wage, educ, exper y age en la muestra.
En la ventana de comandos introducimos la sentencia
>> dstatistics wage educ exper age
| Name | wage | educ | exper | age |
| Obs | 49 | 49 | 49 | 49 |
| Mean | 1820.2 | 6.22449 | 8.83673 | 42.3673 |
| Sdev. | 641.62 | 2.34969 | 6.19199 | 10.2434 |
| Sdev. mean | 91.6599 | 0.33567 | 0.884569 | 1.46334 |
| t-ratio | 19.8582 | 18.5435 | 9.98987 | 28.9526 |
| p-value | 0 | 0 | 1.31E-13 | 0 |
| Min | 981 | 1 | 1 | 25 |
| Pos | 15 | 39 | 18 | 18 |
| Date | 16.1 | 40.1 | 19.1 | 19.1 |
| Max | 3833 | 11 | 23 | 64 |
| Pos | 41 | 22 | 8 | 24 |
| Date | 42.1 | 23.1 | 9.1 | 25.1 |
| Skew | 1.47712 | 0.475491 | 0.470426 | 0.325179 |
| Kurt | 4.77141 | 2.477 | 2.08136 | 2.04186 |
| Jarque-Bera | 24.2253 | 2.40487 | 3.53024 | 2.73786 |
| p-value | 5.49E-06 | 0.300461 | 0.171166 | 0.254379 |
2. Estadísticos descriptivos en las submuestras de hombres y mujeres
En la ventana de comandos introducimos la sentencia
>> dstatistics wage educ exper age -if[gender==1]
| Name | wage | educ | exper | age |
| Obs | 26 | 26 | 26 | 26 |
| Mean | 2086.92 | 6.30769 | 9.84615 | 44.3462 |
| Sdev. | 728.81 | 2.81164 | 6.94867 | 10.1752 |
| Sdev. mean | 142.931 | 0.551408 | 1.36275 | 1.99551 |
| t-ratio | 14.6009 | 11.4392 | 7.22523 | 22.2229 |
| p-value | 4.82E-14 | 9.95E-12 | 7.14E-08 | 0 |
| Min | 981 | 1 | 1 | 28 |
| Pos | 15 | 39 | 25 | 44 |
| Date | 16.1 | 40.1 | 26.1 | 45.1 |
| Max | 3833 | 11 | 23 | 64 |
| Pos | 41 | 22 | 8 | 24 |
| Date | 42.1 | 23.1 | 9.1 | 25.1 |
| Skew | 0.936857 | 0.379849 | 0.269567 | 0.118162 |
| Kurt | 3.0401 | 1.99455 | 1.76202 | 1.89088 |
| Jarque-Bera | 3.80511 | 1.72041 | 1.9752 | 1.39317 |
| p-value | 0.149187 | 0.423075 | 0.372469 | 0.498283 |
Nota que la condición -if[gender==1], donde == es dos veces el símbolo =, selecciona la submuestra correspondiente a hombres.
La sentencia
>> dstatistics wage educ exper age -if[gender==0]
| Name | wage | educ | exper | age |
| Obs | 23 | 23 | 23 | 23 |
| Mean | 1518.7 | 6.13043 | 7.69565 | 40.1304 |
| Sdev. | 324.464 | 1.67603 | 4.96452 | 9.85241 |
| Sdev. mean | 67.6554 | 0.349476 | 1.03517 | 2.05437 |
| t-ratio | 22.4475 | 17.5418 | 7.43416 | 19.5342 |
| p-value | 1.11E-16 | 1.01E-14 | 9.76E-08 | 1.11E-15 |
| Min | 1144 | 4 | 1 | 25 |
| Pos | 7 | 7 | 18 | 18 |
| Date | 8.1 | 8.1 | 19.1 | 19.1 |
| Max | 2365 | 9 | 18 | 60 |
| Pos | 30 | 16 | 36 | 45 |
| Date | 31.1 | 17.1 | 37.1 | 46.1 |
| Skew | 1.22892 | 0.458668 | 0.450291 | 0.588606 |
| Kurt | 3.49192 | 2.16256 | 1.94945 | 2.46176 |
| Jarque-Bera | 6.02115 | 1.47852 | 1.83492 | 1.60572 |
| p-value | 0.0492633 | 0.477467 | 0.399532 | 0.448045 |
genera los estadísticos descriptivos para la submuestra de mujeres.
3. Estadísticos descriptivos en las submuestras de mujeres blancas y mujeres no blancas
Los estadísticos descriptivos para la submuestra de mujeres blancas se obtienen introduciendo la sentencia
>> dstatistics wage educ exper age -if[(1-gender)*race==1]
| Name | wage | educ | exper | age |
| Obs | 15 | 15 | 15 | 15 |
| Mean | 1456.67 | 6.8 | 7.06667 | 40.8667 |
| Sdev. | 246.608 | 1.6 | 5.11816 | 9.79705 |
| Sdev. mean | 63.6739 | 0.413118 | 1.3215 | 2.52959 |
| t-ratio | 22.877 | 16.4602 | 5.34745 | 16.1555 |
| p-value | 8.63309e-013 | 7.40106e-011 | 5.14643e-005 | 9.49677e-011 |
| Min | 1187 | 4 | 1 | 25 |
| Pos | 18 | 27 | 18 | 18 |
| Date | 19.1 | 28.1 | 19.1 | 19.1 |
| Max | 2165 | 9 | 18 | 59 |
| Pos | 29 | 16 | 36 | 29 |
| Date | 30.1 | 17.1 | 37.1 | 30.1 |
| Skew | 1.66976 | 0.132813 | 0.737115 | 0.387797 |
| Kurt | 5.10094 | 1.83398 | 2.36772 | 2.2856 |
| Jarque-Bera | 9.72895 | 0.893843 | 1.60821 | 0.694949 |
| p-value | 0.0077159 | 0.639594 | 0.447489 | 0.70647 |
y para la submuestra de mujeres no blancas,
>> dstatistics wage educ exper age -if[(1-gender)*(1-race)==1]
| Name | wage | educ | exper | age |
| Obs | 8 | 8 | 8 | 8 |
| Mean | 1635 | 4.875 | 8.875 | 38.75 |
| Sdev. | 409.757 | 0.927025 | 4.42825 | 9.80752 |
| Sdev. mean | 144.871 | 0.327753 | 1.56562 | 3.46748 |
| t-ratio | 11.2859 | 14.874 | 5.66867 | 11.1753 |
| p-value | 4.79361e-006 | 7.44125e-007 | 0.0003798 | 5.11937e-006 |
| Min | 1144 | 4 | 3 | 28 |
| Pos | 7 | 7 | 7 | 17 |
| Date | 8.1 | 8.1 | 8.1 | 18.1 |
| Max | 2365 | 6 | 15 | 60 |
| Pos | 30 | 30 | 45 | 45 |
| Date | 31.1 | 31.1 | 46.1 | 46.1 |
| Skew | 0.512267 | 0.250067 | -0.0549263 | 0.993688 |
| Kurt | 1.93958 | 1.21025 | 1.46778 | 3.10003 |
| Jarque-Bera | 0.724722 | 1.15112 | 0.786589 | 1.31989 |
| p-value | 0.696031 | 0.562391 | 0.67483 | 0.51688 |
4. Regresión de la variable wage sobre las variables ficticias hombre y mujer
Introduce la sentencia
>> ls wage gender 1-gender
El comando ls (least squares) indica a Empiricus que estime por mínimos cuadrados la regresión de la variable dependiente wage sobre las variables explicativas gender y 1-gender. La variable 1-gender, que no está en la base de datos, es una expresión matemática que es calculada por Empiricus antes de realizar la regresión. Esta variable toma el valor 1 si la observación corresponde a una mujer y el valor 0 si corresponde a un hombre. Es importante que en la expresión 1-gender no haya espacios en blanco.
El resultado del comando es
| Dependent var.: wage Estimation method: Least squares Sample info: 1.1 - 49.1 1 49 Included observations: 49 Date: 02/19/05 Time: 07:20:51 |
||||||
| Variable | Coefficient | Std. Error | t-ratio | p-value | [95% conf. | interval] |
| gender | 2086.9231 | 115.2512 | 18.11 | 0.000 | 1855.06757726 | 2318.77857659 |
| 1-gender | 1518.6957 | 122.53727 | 12.39 | 0.000 | 1272.18246434 | 1765.20884001 |
| Mean of dependent var | 1820.2041 | Mean of residuals | -1.3920837e-013 | |||
| Total sum of squares | 20172112 | Resid sum of squares | 16231629 | |||
| S.D. dependent var | 641.61963 | S.E. regression | 587.66811 | |||
| R-squared | 0.19534312 | Adjusted R-squared | 0.17822276 | |||
| Obs*R-squared | 9.5718128 | Log likelihood | -380.93896 | |||
| Akaike info criterion | 12.792285 | Schwarz criterion | 12.869502 | |||
5. Regresiones de wage sobre 1 y hombre, y de wage sobre 1 y mujer.
Introduciendo primero la sentencia
>> ls wage 1 gender
obtenemos
| Dependent var.: wage Estimation method: Least squares Sample info: 1.1 - 49.1 1 49 Included observations: 49 Date: 02/19/05 Time: 07:47:35 |
||||||
| Variable | Coefficient | Std. Error | t-ratio | p-value | [95% conf. | interval] |
| 1 | 1518.6957 | 122.53727 | 12.39 | 0.000 | 1272.18246434 | 1765.20884001 |
| gender | 568.22742 | 168.22075 | 3.38 | 0.001 | 229.81092914 | 906.64392036 |
| Mean of dependent var | 1820.2041 | Mean of residuals | -3.2481954e-013 | |||
| Total sum of squares | 20172112 | Resid sum of squares | 16231629 | |||
| S.D. dependent var | 641.61963 | S.E. regression | 587.66811 | |||
| R-squared | 0.19534312 | Adjusted R-squared | 0.17822276 | |||
| Obs*R-squared | 9.5718128 | Log likelihood | -380.93896 | |||
| Akaike info criterion | 12.792285 | Schwarz criterion | 12.869502 | |||
| F-statistic | 11.409989 | Prob(F-statistic) | 0.0014756067 | |||
e introduciendo la sentencia
>> ls wage 1 1-gender
obtenemos
| Dependent var.: wage Estimation method: Least squares Sample info: 1.1 - 49.1 1 49 Included observations: 49 Date: 02/19/05 Time: 07:51:39 |
||||||
| Variable | Coefficient | Std. Error | t-ratio | p-value | [95% conf. | interval] |
| 1 | 2086.9231 | 115.2512 | 18.11 | 0.000 | 1855.06757726 | 2318.77857659 |
| 1-gender | -568.22742 | 168.22075 | -3.38 | 0.001 | -906.64392036 | -229.81092914 |
| Mean of dependent var | 1820.2041 | Mean of residuals | 6.0323628e-013 | |||
| Total sum of squares | 20172112 | Resid sum of squares | 16231629 | |||
| S.D. dependent var | 641.61963 | S.E. regression | 587.66811 | |||
| R-squared | 0.19534312 | Adjusted R-squared | 0.17822276 | |||
| Obs*R-squared | 9.5718128 | Log likelihood | -380.93896 | |||
| Akaike info criterion | 12.792285 | Schwarz criterion | 12.869502 | |||
| F-statistic | 11.409989 | Prob(F-statistic) | 0.0014756067 | |||
6. Hipótesis: salario es independiente del sexo
En la regresión wage gender 1-gender, contrastamos la hipótesis nula H0: β1 - β2 = 0 frente a la alternativa H1: β1 - β2 ≠ 0 con el estadístico
t = (b1-b2)/(v(b1)+v(b2)-2cov(b1,b2))1/2
donde β1 y β2 son los coeficientes asociados a las variables explicativas gender y 1-gender, respectivamente, y b1y b2 son las estimaciones de mínimos cuadrados de estos coeficientes. Observe que cov(b1,b2) = 0 porque las variables gender y 1-gender son ortogonales. Así, para calcular el estadístico t introducimos en la línea de comandos
>> calc ( 2086.9231 - 1518.6957 ) / ( 115.2512^2 + 122.53727^2 )^0.5
obteniendo el resultado 3.37787, que comparamos con el valor crítico c para el cual Prob( | t47 | > c) = 1 - α. Para el nivel de significaciòn α = 0.95, c = 2.01174, que calcula introduciendo el comando
>> calc cdfti(0.975,47)
Como t > c se rechaza la hipótesis de que el salario es independiente del sexo.
En la regresión wage 1 gender, contrastamos la hipótesis nula H0: β2 = 0 frente a la alternativa H1: β2 ≠ 0 con el estadístico
t = b2/(v(b2))1/2
donde β2 es el coeficiente asociado a las variable explicativa gender y b2 es su estimación de mínimos cuadrados. Este estadístico se muestra directamente en la tabla resumen de la regresión wage 1 gender, y es igual a 3.38, el mismo valor calculado en la regresión anterior.
Análogamente, en la regresión wage 1 1-gender contrastamos la hipótesis nula H0: β2 = 0 frente a la alternativa H1: β2 ≠ 0 con el estadístico
t = b2/(v(b2))1/2
donde β2 es el coeficiente asociado a las variable explicativa 1-gender y b2 es su estimación de mínimos cuadrados. El estadístico t asociado a la variable explicativa 1-gender es igual a -3.38, que en valor absoluto coincide con los estadísticos t anteriormente calculados.
7. Regresión de wage sobre 1, educ, exper y age
Introducimos la sentencia
>> ls wage 1 educ exper age
para obtener
| Dependent var.: wage Estimation method: Least squares Sample info: 1.1 - 49.1 1 49 Included observations: 49 Date: 02/19/05 Time: 08:38:04 |
||||||
| Variable | Coefficient | Std. Error | t-ratio | p-value | [95% conf. | interval] |
| 1 | 632.24417 | 423.37852 | 1.49 | 0.142 | -220.48393826 | 1484.97227902 |
| educ | 142.50994 | 34.859459 | 4.09 | 0.000 | 72.29938945 | 212.72049790 |
| exper | 43.225309 | 14.303538 | 3.02 | 0.004 | 14.41650462 | 72.03411388 |
| age | -1.9133218 | 8.3935268 | -0.23 | 0.821 | -18.81875224 | 14.99210862 |
| Mean of dependent var | 1820.2041 | Mean of residuals | 1.2609958e-011 | |||
| Total sum of squares | 20172112 | Resid sum of squares | 13672434 | |||
| S.D. dependent var | 641.61963 | S.E. regression | 551.20945 | |||
| R-squared | 0.32221109 | Adjusted R-squared | 0.27702517 | |||
| Obs*R-squared | 15.788344 | Log likelihood | -376.73525 | |||
| Akaike info criterion | 12.702337 | Schwarz criterion | 12.856772 | |||
| F-statistic | 7.1307842 | Prob(F-statistic) | 0.00051012146 | |||
El contraste de significación individual, H0: βi = 0 versus H1: βi ≠ 0, puede realizarse utilizando
- el estadístico t
- el p-valor
- el intervalo de confianza
Si comparamos la t-ratio con el valor crítico c = 2.0141 para el cual Prob( | t45 | > c) = 0.05, vemos que sólo las variables educ y exper son estadísticamente significativas. Además, los p-valores de estas variables son menores que 0.05 y sus intervalos de confianza no incluyen el valor 0.
En cuanto a la significación global, el estadístico F, 7.13, es mayor que el valor crítico c = 2.81154 para el cual Prob(F3,45 > c) = 0.05. Vemos, además, que el p-valor de este estadístico, 0.00051012146, es menor que 0.05.
Como la intuición sugiere una relación positiva entre el salario y el nivel de educación, y el salario y la experiencia laboral, podemos decir que las estimaciones tienen el signo correcto.
El R2 está por debajo de 0.5, por lo que podemos decir que el ajuste no es muy bueno.
Ejercicio propuesto
- Estime la regresión de la variable wage sobre todas las variables explicativas del ejercicio, incluyendo un término constante. Compruebe que los coeficientes estimados tienen el signo esperado. Contraste la significación individual de las estimaciones y la significación global de la regresión. Valore la bondad del ajuste.
- Estime una ecuación de regresión que tenga en cuenta la posible interacción entre las variables educación, experiencia y edad y las variables tipo de trabajo, sexo y raza.


















