Modelos de regresión - Modelos Estadísticos lineales - Libros y Revistas - VLEX 742107125

Modelos de regresión

AutorCristian Fernando Téllez Piñerez/Mario Alfonso Morales Rivera
Páginas1-50
Cap´
ıtulo 1
Modelos de regresi´on
1.1 Modelos estad´ısticos lineales
Esta secci´on tiene como prop´osito definir el objeto de estudio de este libro: los
modelos estad´ısticos lineales. Un modelo matem´atico es una relaci´on funcional
entre variables. El inter´es consiste en encontrar modelos q ue relacionen un
conjunto de variables de entrada con una variable de salida. Normalmente en
un proceso se tienen varias salidas, pero en este libro se estudia una variable de
salida o respuesta del proceso que se asume condicionada a, o que depende de,
los valores de una o mas variables de entrada. Matem´aticamente se describe
la relaci´on como (Hocking 2003)
Y=g(X1, X2,·· · ,Xp) (1.1)
donde Yes la variable respuesta del proceso, X1, X2,··· , Xpson las variables
de entrada y g(X1, X2,··· , Xp) denota la relaci´on funcional por la cual se
convierten las variables de entrada en la salida. La funci´on g(·) se conoce
como la funci´on de respuesta.
A manera de ejemplo, es ampliamente aceptado que el nivel de gasto de una
familia depende del nivel de ingreso, y la relaci´on es directa, es decir, a mayor
ingreso, mayor es el gasto. Naturalmente, el ingreso de la familia no es lo
´unico que condiciona su nivel de gasto, variables como el n´umero de hijos,
el estrato socioecon´omico donde viven, el nivel educativo de los padres, las
creencias religiosas, entre otras, impactan sobre el gasto y en este contexto se
entienden como variables de entrada del proceso, mientras que el gasto familiar
es la variable respuesta o de salida. Un economista estudiando la din´amica del
gasto y el ingreso familiar en un grupo social, estar´ıa interesado una relaci´on
funcional entre ingreso de las familias y su gasto, que le permita, conociendo
el ingreso de una familia en particular, predecir o estimar su gasto promedio.
Suponga que para ese estudio cuenta con la informaci´on: ingresos y gastos
1
2Modelos lineales
mensuales en una muestra de familias del grupo social objeto del estudio.
Una forma de descubrir la relaci´on funcional entre gasto e ingreso familiar es
haciendo un gr´afico de dispersi´on de los datos, colocando el ingreso en el eje
horizontal y el gasto en el eje vertical. El gr´afico seguramente sugiere que la
relaci´on est´a cerca a una linea recta, pero que es imposible trazar una linea
recta que toque a todos los puntos, es decir, en muchos casos se encontrar´a
que hay cierta separaci´on de la relaci´on lineal, debido a que familias con el
mismo ingreso, tienen gastos distintos. Las diferencias (la se paraci´on de la
ınea recta) son causadas por otros factores que influencian el gasto y que no
han sido considerados en el estudio, como los mencionados arriba. En este
ejemplo la relaci´on funcional entre gasto e ingreso ser´ı a de la forma
Y=g(X) = β1+β2X
En muchos casos las diferencias o separaciones de la l´ınea recta pueden ser
atribuibles a la variabilidad natural del proceso y no tiene una explicaci´on
matem´atica, por lo que se hace necesario la introducci´on del concepto de mo-
delo estad´ıstico. El modelo estad´ıstico se consigue como un a extensi´on del
modelo matem´atico, adicionando una variable aleatoria al lado derecho de la
ecuaci´on (1.1), de esa forma el modelo se escribe como:
Y=g(X1, X2,·· · ,Xp) + ǫ(1.2)
La variable aleatoria ǫde la ecuaci´on (1.2) se conoce c omo t´ermino de error y
su funci´on es explicar las fluctuaciones de la respuesta que no son explicadas
por las variables de entrada, tambi´en llamadas covariables o variables inde-
pendientes. Estas fluctuaciones se deben a la variabilidad intr´ınseca de todo
proceso o a variables que afectan la respuesta pero que no han sido consideradas
en el modelo. Las propiedades de la variable aleatoria ǫdependen de ciertas
situaciones particulares, pero a menudo se supone que sigue una distribuci´on
normal con media cero y varianza σ2. En el modelo (1.2) se asume que las
variables de entrada Xsse miden sin error, y por tanto la variable de salida
Ypuede entenderse como una variable aleatoria con media g(X1,X2,· ·· , Xp)
y varianza σ2as´ı, po demos escribir:
E(Y) = g(X1, X2,·· · ,Xp) (1.3)
En un modelo estad´ıstico la variable respuesta se expresa como la suma de dos
erminos: la componente deterministica g(X1, X2,··· , Xp), y la componente
aleatoria, representada por ǫ. En muchas situaciones la forma funcional del
modelo matem´atico se conoce, excepto por los valores de ciertos par´ametros.
Por ejemplo, conocemos que la relaci´on entre el ingreso familiar y el gasto es
una l´ınea recta, pero desconocemos los valores del intercepto β0y la pendiente
β1. Si denotamos p or βel vector de los par´am etros y por Xel vector de
variables de entrada, podemos escribir la funci´on de med ia (1.3) como:
E(Y) = g(X,β) (1.4)
M.A. Morales C.F. Tellez
3Modelos lineales
si adicionamos el supuesto de independencia a las variables aleatorias asociadas
con las respuestas individuales, podemos asumir los datos como las realizacio-
nes de una muestra aleatoria tomada de una poblaci´on con media dada por
(1.4) y varianza σ2. En este caso la poblaci ´on estar´ıa confor mada por el con-
junto de todas las familias del grupo social ob jeto de estudio.
En cuanto a la forma funcional de la relaci´on entre la variable de salida (res-
puesta) y las variables de entrada, en este libro estudiaremos aquellas fun-
ciones que son lineales en los par´ametros, es decir, al derivar parcialmente
cada par´ametro este desaparece. De tal manera que para un modelo con p
variables de entrada la funci´on de media es:
E(Y) =
p
X
j=0
βjXj(1.5)
En este modelo Ydenota la respuesta, los par´ametros son β0, β1,· ·· , βpy
X1, X2,···, Xpson las variables de entrada. En nuestro ejemplo, si considera-
mos adem´as del ingreso, el n´umero de hijos como variable explicativa del gasto
familiar escribimos el modelo como
E(Y) = β0+β1X1+β2X2
A manera de ejemplo, para aclarar el concepto de linealidad del modelo, sabe-
mos de la mec´anica cl´asica que el espacio recorrido, (Y), por una part´ıcula
animada con movimiento rectil´ıneo uniformemente acelerado, en funci´on del
tiempo que ha durado en movimiento (t) est´a dado por
E(Y) = β0+β1t+β2t2
note que el espacio recorrido esperado es una funci´on cuadr´atica del tiempo, es
decir no es una funci´on lineal en t, pero si lo es como funci´on de los par´ametros
βs(dado que el m´aximo exponente en los βses 1 ), en ese sentido entende-
remos la linealidad del modelo.
En este libro, para describir los modelos y para llevar a cabo los c´alculos, es
conveniente usar la notaci´on y m´etodos del ´algebra de matrices (v´ease ap´endice
A). De esa forma, las nrespuestas s e organizar´an en un vector columna
Y=
Y1
.
.
.
Yn
el cual, para el desarrollo de resultados te´oricos, se considerar´a como un vector
aleatorio, es decir, un vector de variables aleatorias. El vector de datos se
considerar´a como una realizaci´on de esas variables aleatorias.
M.A. Morales C.F. Tellez

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR