Science and Technology Production

Modelos lineales generalizados: regresión de rango reducido y reducción sufi ciente de dimensiones.

Thesis

Date:

01/01/2016

Summary *

La respuesta a muchos de los problemas de inter\'es en ciencias experimentales requieren el estudio de una o varias variables $\Y$ (respuesta) en funci\'on de otras variables $\X$ (predictores). Desde el punto de vista de la estad\'istica, esto significa estudiar la distribuci\'on condicional de un vector $\Y \in \mathbb{R}^{r}$, dado el vector $\X \in \mathbb{R}^{p}$. %o con la relaci\'on de un conjunto de predictores $\X$ en diferentes poblaciones $Y=1,\ldots,h$.Cuando el n\'umero de predictores $p$ es grande, casi todos los m\'etodos usados para estudiar esta relaci\'on incluye alg\'un tipo de reduci\'on en la dimensi\'on de $\X$. Componentes principales es el m\'etodo de reducci\'on m\'as popular entre las ciencias aplicadas, aunque existen otros m\'etodos estad\'isticos m\'as recientes establecidos bajo el paradigma de reducci\'on suficiente de dimensiones. Su premisa es la obtenci\'on de una reduci\'on de los predictores $R(\X) \in \mathbb{R}^d$ con $d \leq p $ sin que \'esta pierda informaci\'on acerca de la respuesta en el sentido que $\Y| \X \sim \Y|R(\X)$.Reducci\'on suficiente de dimensiones en un \'area muy actual de la estad\'istica. En esta tesis trabajamos bajo el enfoque inicializado en \cite{Cook2007}, el cual est\'a basado en la suposici\'on de un modelo par\'ametrico para la regresi\'on inversa $\X|\Y$. El atractivo de este enfoque es que cuando la respuesta es univariada, $\X|Y$ consta de $p$ regresiones univariadas las cuales son sencillas de modelar, contrariamente a lo que ocurre cuando se modela $Y$ dado $\X$. Bajo este enfoque se han propuesto diferentes modelos para la distribuci\'on de $\X|Y$. En especial, se ha estudiado en detalle los modelos $\X| (Y=y)\sim \mathcal{N}(\mubf_y,\Deltabf)$ \cite{CookForzani2008}, $\X| (Y=y)\sim \mathcal{N}(\mubf_y,\Deltabf_y)$ \cite{CookForzani2009} y $\X| (Y=y)$ con distribuci\'on perteneciente a una familia exponencial a $p$ par\'ametros naturales con predictores condicionalmente independientes \cite{CookLi2009}. Este \'ultimo modelo ha permitido estudiar aquellos problemas o conjuntos de datos que contienen variables predictoras de tipo discreto o mezcla de variables discretas y continuas, aunque el supuesto de independencia condicional es muy restrictivo.El objetivo de esta tesis es desarrollar una metodolog\'ia de reducci\'on suficiente de dimensiones asumiendo que la distribuci\'on de $\X|Y$ pertenece a una familia exponencial a $k$ par\'amentos naturales con posiblemente $k\geq p$. Para este modelo identificamos la reducci\'on suficiente minimal, obtenemos estimadores de m\'axima verosimilitud para dicha reducci\'on, estudiamos las distribuciones asint\'oticas de las reducciones y presentamos test de dimensiones para el valor $d$. Adem\'as, mostraremos ejemplos y simulaciones para ilustrar las conexiones, diferencias y ventajas de nuestro m\'etodo con los ya existentes.Para poder desarrollar este trabajo es necesario, en primer lugar, estudiar en detalle los modelos lineales generalizados multivariados, es decir modelos donde la respuesta multivariada, dado los predictores, pertenecen a una familia de exponenciales. En particular, ser\'a necesario completar el trabajo \cite{YeeHastie2003} que adapta la idea del modelo de regresi\'on lineal de rango reducido a este contexto. De esta forma, cuando la matriz de coeficientes de la regresi\'on no es de rango completo, es posible obtener estimadores de la regresi\'on m\'as eficientes. Sin embargo, para poder aplicar estos resultados a nuestro contexto de reducci\'on suficiente debemos probar que los estimadores propuestos por \cite{YeeHastie2003} son asint\'oticamente normales y encontrar su varianza asint\'otica. Information provided by the agent in SIGEVA

Key Words

GLMreducción sufi ciente de dimensionesFamilia de exponencialesRango reducido