Para modelizar la relación entre una variable dependiente \(Y\) y ciertos predictores \(X_l\) asumimos un modelo de la forma
\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \eta\]
En realidad tenemos \(N\) observaciones y por lo tanto para cada observación \((y_i,\mathbf{x}_i)\) tenemos
\[y_i = \beta_0 + \beta_1 x_{1_i} + \beta_2 x_{2_i} + \dots + \beta_p x_{p_i} + \eta\]
O bien, matricialmente
\[y_i = \boldsymbol{\beta}^T \mathbf{x}_i + \eta\]
El error \(\eta\) es desconocido y, en principio, no es necesario asumir nada sobre este.
Para predecir valores de \(y_i\) es necesario estimar \(\boldsymbol{\beta}\) por \(\hat{\boldsymbol{\beta}}\) dando lugar al siguiente modelo predictivo:
\[\hat{y}_i = \hat\beta_0 + \hat\beta_1 x_{1_i} + \hat\beta_2 x_{2_i} + \dots + \hat\beta_p x_{p_i} = \hat{\boldsymbol{\beta}}^T \mathbf{x}_i\]
Una forma de estimar \(\boldsymbol{\beta}\) es minimizar alguna función del error de aproximar \(y\) por \(\hat{y}_i\):
\[\hat{\boldsymbol{\beta}} = \underset{\boldsymbol\beta}{\mathrm{arg\,min}}\left[ J(\boldsymbol\beta) \right] = \underset{\boldsymbol\beta}{\mathrm{arg\,min}}\left[ \sum_{i=1}^N \left(y_i - \boldsymbol\beta^T \mathbf{x}_i\right)^2 \right]\]
El \(\boldsymbol{\beta}\) que minimiza el error cuadrático se conoce como estimador de mínimos cuadrados. Esto es lo que se conoce como enfoque de optimización.
Asumiendo un modelo probabilístico para el error, \(\eta \sim \mathcal{N}(0,\sigma^2)\) se puede obtener el estimador de máxima verosimilitud de \(\boldsymbol\beta\).
La función de verosimilitud viene dada por el producto de las funciones de densidad normales:
\[\ell(\boldsymbol\beta,\sigma|\mathbf{y}) = \prod_{i=1}^N p(y_i|\mathbf{x_i},\boldsymbol\beta^T,\sigma^2) = \prod_{i=1}^N \frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{(y_i - \boldsymbol\beta^T\mathbf{x}_i)^2}{2\sigma^2}}\]
Maximizar la verosimilitud equivale a minimizar el opuesto de la log-verosimilitud \[\mathcal{L}(\boldsymbol\beta,\sigma|\mathbf{y}) = \log(\ell(\boldsymbol\beta,\sigma|\mathbf{y}))\]
\[\hat{\boldsymbol{\beta}}_{ML} = \underset{\boldsymbol\beta}{\mathrm{arg\,min}}\left[ - \sum_{i=1}^N \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^{1/2} e^{-\frac{(y_i - \boldsymbol\beta^T\mathbf{x}_i)^2}{2\sigma^2}} \right) \right]\]
La expresión anterior puede minimizarse primero respecto de \(\boldsymbol\beta\) y luego respecto de \(\sigma\). Resulta que maximizar la verosimilitud respecto de \(\boldsymbol\beta\) equivale a minimizar el error cuadrático.
En estadística bayesiana, consideramos a los parámetros como variables aleatorias y les asignamos una distribución a priori.
Además, contamos con un modelo generativo (probabilístico) para las observaciones: ¿cómo obtendríamos observaciones si conociéramos los parámetros? Es una decisión de la modelización.
Aquí asumimos:
\[Y_i \mid \boldsymbol\beta,\sigma \sim \mathcal{N}(\boldsymbol\beta^T \mathbf{x}_i, \sigma^2)\]
o bien decimos
\[ \begin{align*} Y_i & \sim \mathcal{N}(\mu_i, \sigma^2) \\ \mu_i & = \beta_0 + \beta_1 x_{1_i} + \beta_2 x_{2_i} + \dots + \beta_p x_{p_i} \end{align*} \]
Y completamos el modelo especificando una distribución a priori \(p(\boldsymbol\beta,\sigma)\)
La estimación se hace siempre de la misma manera
\(p(\boldsymbol\beta,\sigma\mid\mathbf{y}) \propto p(\mathbf{y}|\boldsymbol\beta,\sigma)p(\boldsymbol\beta,\sigma)\)
Observando un dato (¿se puede hacer inferencia con un solo punto?)…
Observando el dato que sigue…
Observando dos puntos juntos…
Comparemos con un prior más fuerte…
Observando un punto (¿se puede hacer inferencia con un solo punto?)
Observando diez puntos
\(\mu\) depende de los parámetros (y por supuesto del valor de \(x\)), por lo que tiene una distribución de probabilidad asociada
Por supuesto, las predicciones para \(y\) (\(\tilde{y}\)) también son probabilísticas: distribución predictiva a posteriori
Un posible score predictivo para un determinado valor \(y_i\) es la probabilidad que el modelo le asocia (también llamada densidad predictiva), \[\int p\left(y_i\mid\theta\right) p(\theta\mid y) d\theta \approx \frac{1}{S}\sum_{s=1}^S p(y_i\mid \theta^{(s)})\]
El score predictivo total (para todas las observaciones) es la log-posterior pointwise predictive density. A mayor \(\mathrm{lppd}\), mejor es el ajuste del modelo.
\[ \mathrm{lppd} = \color{#1f7a8c}{\sum_{i=1}^{N}} \color{#EB8A90}{\log} \left( \color{#683257}{\int p\left(y_i\mid\theta\right) \underline{p(\theta\mid y)}d\theta} \right) \]
Que podemos estimar a través de muestras del posterior
\[ \mathrm{lppd} = \color{#1f7a8c}{\sum_{i=1}^{N}} \color{#EB8A90}{\log} \left( \color{#683257}{\frac{1}{S} \sum_{s=1}^{S} p\left(y_i\mid\theta^{(s)}\right)} \right) \]
La deviance de un modelo es
\[D = -2\ \mathrm{lppd}\]
La \(\mathrm{lppd}\) predice el \(i\)-ésimo valor con un posterior que usa todos los datos, incluido el \(i\). Más que la \(\mathrm{lppd}\) nos interesa su valor esperado en datos nuevos (\(\mathrm{elppd}\)). Por supuesto, no conocemos datos nuevos.
Podemos aproximar o estimar \(\mathrm{elppd}\) haciendo cross-validation (CV) o, en particular, leave-one-out cross-validation (LOO-CV).
\[\mathrm{elppd} \approx \mathrm{lppd}_{LOO} = \sum_{i=1}^{N} \log \left( \frac{1}{S} \sum_{s=1}^{S} p\left(y_i\mid\theta_{-i}^{(s)}\right) \right)\]
donde los \(\theta_{-i}^{(s)}\) son muestras del posterior de \(\theta\) obtenido sin considerar la \(i\)-ésima observación.
El problema de hacer LOO-CV es que, si tenemos 1000 observaciones, hay que calcular 1000 distribuciones a posteriori.
No contamos con muestras de \(p(\theta\mid \mathbf{y}_{-i})\) sino simplemente de \(p(\theta\mid \mathbf{y})\). No sabemos la distribución a posteriori de \(\theta\) sin considerar la observación \(i\). Hay formas de aproximar el desempeño en LOO-CV sin necesidad de reajustar el modelo. Una forma de hacerlo es usar la “importancia” de cada observación en el posterior. Esto da lugar a una técnica que se conoce como Pareto-smoothed importance sampling cross-validation (PSIS)
Históricamente se han desarrollado los llamados criterios de información que penalizan la verosimilitud con un término adicional para compensar la capacidad de sobreajuste de un modelo que tiene más parámetros.
El AIC (Akaike information criterion) es \[AIC = D + 2p = -2\ lppd + 2p\] donde \(p\) es el número de parámetros del modelo y \(D=-2\ \mathrm{lppd}\) se conoce como deviance. Penalizamos el \(\mathrm{lppd}\) con la tendencia (o capacidad) del modelo de sobreajustar.
El WAIC (widely applicable information criterion) es un criterio más general que el AIC (y un poquitito más difícil de calcular):
\[WAIC = - 2\left(\mathrm{lppd} - \sum_{i=1}^N \mathbb{V}_\theta\left[\log\left(p(y_i\mid\theta\right)\right]\right)\]
\(\sum_{i=1}^N \mathrm{V}_\theta\left[\log\left(p(y_i\mid\theta\right)\right]\) es un término de penalización que se suele llamar “número efectivo de parámetros”. Es la suma de las varianzas en la log-probabilidad de cada observación \(i\) (o sea, la varianza total). Si, para un determinado dato \(i\), las diferentes muestras del posterior \(\theta_{(s)}\) dan como resultado predicciones muy diferentes, es porque el modelo tiene mucha incertidumbre (y es posiblemente muy flexible).
Estadística Bayesiana – 2024