Modelos de regresión
Autor | Cristian Fernando Téllez Piñerez/Mario Alfonso Morales Rivera |
Páginas | 1-50 |
Cap´
ıtulo 1
Modelos de regresi´on
1.1 Modelos estad´ısticos lineales
Esta secci´on tiene como prop´osito definir el objeto de estudio de este libro: los
modelos estad´ısticos lineales. Un modelo matem´atico es una relaci´on funcional
entre variables. El inter´es consiste en encontrar modelos q ue relacionen un
conjunto de variables de entrada con una variable de salida. Normalmente en
un proceso se tienen varias salidas, pero en este libro se estudia una variable de
salida o respuesta del proceso que se asume condicionada a, o que depende de,
los valores de una o mas variables de entrada. Matem´aticamente se describe
la relaci´on como (Hocking 2003)
Y=g(X1, X2,·· · ,Xp) (1.1)
donde Yes la variable respuesta del proceso, X1, X2,··· , Xpson las variables
de entrada y g(X1, X2,··· , Xp) denota la relaci´on funcional por la cual se
convierten las variables de entrada en la salida. La funci´on g(·) se conoce
como la funci´on de respuesta.
A manera de ejemplo, es ampliamente aceptado que el nivel de gasto de una
familia depende del nivel de ingreso, y la relaci´on es directa, es decir, a mayor
ingreso, mayor es el gasto. Naturalmente, el ingreso de la familia no es lo
´unico que condiciona su nivel de gasto, variables como el n´umero de hijos,
el estrato socioecon´omico donde viven, el nivel educativo de los padres, las
creencias religiosas, entre otras, impactan sobre el gasto y en este contexto se
entienden como variables de entrada del proceso, mientras que el gasto familiar
es la variable respuesta o de salida. Un economista estudiando la din´amica del
gasto y el ingreso familiar en un grupo social, estar´ıa interesado una relaci´on
funcional entre ingreso de las familias y su gasto, que le permita, conociendo
el ingreso de una familia en particular, predecir o estimar su gasto promedio.
Suponga que para ese estudio cuenta con la informaci´on: ingresos y gastos
1
2Modelos lineales
mensuales en una muestra de familias del grupo social objeto del estudio.
Una forma de descubrir la relaci´on funcional entre gasto e ingreso familiar es
haciendo un gr´afico de dispersi´on de los datos, colocando el ingreso en el eje
horizontal y el gasto en el eje vertical. El gr´afico seguramente sugiere que la
relaci´on est´a cerca a una linea recta, pero que es imposible trazar una linea
recta que toque a todos los puntos, es decir, en muchos casos se encontrar´a
que hay cierta separaci´on de la relaci´on lineal, debido a que familias con el
mismo ingreso, tienen gastos distintos. Las diferencias (la se paraci´on de la
l´ınea recta) son causadas por otros factores que influencian el gasto y que no
han sido considerados en el estudio, como los mencionados arriba. En este
ejemplo la relaci´on funcional entre gasto e ingreso ser´ı a de la forma
Y=g(X) = β1+β2X
En muchos casos las diferencias o separaciones de la l´ınea recta pueden ser
atribuibles a la variabilidad natural del proceso y no tiene una explicaci´on
matem´atica, por lo que se hace necesario la introducci´on del concepto de mo-
delo estad´ıstico. El modelo estad´ıstico se consigue como un a extensi´on del
modelo matem´atico, adicionando una variable aleatoria al lado derecho de la
ecuaci´on (1.1), de esa forma el modelo se escribe como:
Y=g(X1, X2,·· · ,Xp) + ǫ(1.2)
La variable aleatoria ǫde la ecuaci´on (1.2) se conoce c omo t´ermino de error y
su funci´on es explicar las fluctuaciones de la respuesta que no son explicadas
por las variables de entrada, tambi´en llamadas covariables o variables inde-
pendientes. Estas fluctuaciones se deben a la variabilidad intr´ınseca de todo
proceso o a variables que afectan la respuesta pero que no han sido consideradas
en el modelo. Las propiedades de la variable aleatoria ǫdependen de ciertas
situaciones particulares, pero a menudo se supone que sigue una distribuci´on
normal con media cero y varianza σ2. En el modelo (1.2) se asume que las
variables de entrada X′sse miden sin error, y por tanto la variable de salida
Ypuede entenderse como una variable aleatoria con media g(X1,X2,· ·· , Xp)
y varianza σ2as´ı, po demos escribir:
E(Y) = g(X1, X2,·· · ,Xp) (1.3)
En un modelo estad´ıstico la variable respuesta se expresa como la suma de dos
t´erminos: la componente deterministica g(X1, X2,··· , Xp), y la componente
aleatoria, representada por ǫ. En muchas situaciones la forma funcional del
modelo matem´atico se conoce, excepto por los valores de ciertos par´ametros.
Por ejemplo, conocemos que la relaci´on entre el ingreso familiar y el gasto es
una l´ınea recta, pero desconocemos los valores del intercepto β0y la pendiente
β1. Si denotamos p or βel vector de los par´am etros y por Xel vector de
variables de entrada, podemos escribir la funci´on de med ia (1.3) como:
E(Y) = g(X,β) (1.4)
M.A. Morales C.F. Tellez
3Modelos lineales
si adicionamos el supuesto de independencia a las variables aleatorias asociadas
con las respuestas individuales, podemos asumir los datos como las realizacio-
nes de una muestra aleatoria tomada de una poblaci´on con media dada por
(1.4) y varianza σ2. En este caso la poblaci ´on estar´ıa confor mada por el con-
junto de todas las familias del grupo social ob jeto de estudio.
En cuanto a la forma funcional de la relaci´on entre la variable de salida (res-
puesta) y las variables de entrada, en este libro estudiaremos aquellas fun-
ciones que son lineales en los par´ametros, es decir, al derivar parcialmente
cada par´ametro este desaparece. De tal manera que para un modelo con p
variables de entrada la funci´on de media es:
E(Y) =
p
X
j=0
βjXj(1.5)
En este modelo Ydenota la respuesta, los par´ametros son β0, β1,· ·· , βpy
X1, X2,···, Xpson las variables de entrada. En nuestro ejemplo, si considera-
mos adem´as del ingreso, el n´umero de hijos como variable explicativa del gasto
familiar escribimos el modelo como
E(Y) = β0+β1X1+β2X2
A manera de ejemplo, para aclarar el concepto de linealidad del modelo, sabe-
mos de la mec´anica cl´asica que el espacio recorrido, (Y), por una part´ıcula
animada con movimiento rectil´ıneo uniformemente acelerado, en funci´on del
tiempo que ha durado en movimiento (t) est´a dado por
E(Y) = β0+β1t+β2t2
note que el espacio recorrido esperado es una funci´on cuadr´atica del tiempo, es
decir no es una funci´on lineal en t, pero si lo es como funci´on de los par´ametros
β′s(dado que el m´aximo exponente en los β′ses 1 ), en ese sentido entende-
remos la linealidad del modelo.
En este libro, para describir los modelos y para llevar a cabo los c´alculos, es
conveniente usar la notaci´on y m´etodos del ´algebra de matrices (v´ease ap´endice
A). De esa forma, las nrespuestas s e organizar´an en un vector columna
Y=
Y1
.
.
.
Yn
el cual, para el desarrollo de resultados te´oricos, se considerar´a como un vector
aleatorio, es decir, un vector de variables aleatorias. El vector de datos se
considerar´a como una realizaci´on de esas variables aleatorias.
M.A. Morales C.F. Tellez
Para continuar leyendo
Solicita tu prueba