Supongamos que nos interesa modelizar las siguientes variables:
Es decir, nos interesa modelizar una variable \(Y\), una variable respuesta categórica binaria:
\[Y = \begin{cases} 1 \text{ si mañana llueve} \\ 0 \text{ en caso contrario} \end{cases}\]
en función de ciertas variables explicativas potenciales…
En otros contextos se habla de un problema de clasificación
Según los valores que puede tomar \(Y\), ¿qué modelo de probabilidad podemos asumir?
\[Y_i \mid \pi_i \sim \mathrm{Bern}(\pi_i)\]
\[\mathbb{E}(Y_i) = \pi_i\]
En la regresión normal que conocíamos, teníamos
\[Y_i \mid \mu_i \sim \mathcal{N}(\mu_i,\sigma^2)\]
\[\mathbb{E}(Y_i) = \mu_i\]
Por analogía, ¿podemos hacer \(\pi_i = \beta_0 + \beta_1 x_{1_i} + \beta_2 x_{2_i} + \dots\)?
¿Qué problemas identificamos?
Tendremos que hacer
\[g(\pi_i) = \beta_0 + \beta_1 x_{1_i} + \beta_2 x_{2_i} + \dots\]
\(g(\cdot)\) se conoce como función de enlace (link function). ¿Cuál es una \(g\) apropiada en este caso?
Si \(\pi_i\) es la probabilidad del evento de interés, \(\frac{\pi_i}{1-\pi_i}\) es la chance (odds) del evento de interés.
Mientras que \(\pi_i \in [0,1]\), \(\frac{\pi_i}{1-\pi_i} \in [0,+\infty)\)
Establecemos un modelo lineal para el log-odds del evento de interés
\[\log(\mathrm{odds}_i)=\log\left( \frac{\pi_i}{1-\pi_i} \right) = \beta_0 + \beta_1 x_{1_i} + \beta_2 x_{2_i} + \dots\]
La función \(g(x) = \log\left(\frac{x}{1-x}\right)\) se conoce como función logit. Es una función no lineal.
Analicemos lo que vimos hasta ahora:
Consideremos el caso con una sola variable explicativa
\[\log\left(\frac{\pi_i}{1-\pi_i}\right) = \beta_0 + \beta_1 x_{1_i}\]
Se cumple:
\[ \frac{\pi_i}{1-\pi_i} = e^{\beta_0 + \beta_1 x_{1_i}} \qquad \pi_i = \frac{e^{\beta_0 + \beta_1 x_{1_i}}}{1 + e^{\beta_0 + \beta_1 x_{1_i}}} \]
¡La esperanza de la variable respuesta se relaciona de manera no lineal con las variables explicativas!
Consideremos la siguiente relación
\[\log\left(\frac{\pi_i}{1-\pi_i}\right) = -4 + 0.1\ x_{1_i}\]
e imaginemos que \(\pi_i\) es la probabilidad de que llueva el día \(i\) y \(x_{1_i}\) la humedad a las 9 de la mañana del día anterior al día \(i\).
\(\beta_0\) es la log-chance (log-odds) del evento de interés cuando todas las variables explicativas valen 0. \(e^{\beta_0}\) es la chance. En términos del problema: \(e^{\beta_0}\) es la chance de que llueva mañana si la humedad de hoy a las 9 de la mañana es 0.
\(\beta_1\) no es el incremento en la probabilidad del evento de interés cuando \(x_1\) aumenta en una unidad…
\[\log (\mathrm{odds}_x) =\log\left( \frac{\pi_x}{1-\pi_x} \right) = \beta_0 + \beta_1 x\]
\[\log (\mathrm{odds}_{x+\Delta x}) =\log\left( \frac{\pi_{x+\Delta x}}{1-\pi_{x+\Delta x}} \right) = \beta_0 + \beta_1 (x+\Delta x)\]
Entonces
\[\log (\mathrm{odds}_{x+\Delta x}) - \log (\mathrm{odds}_{x}) = \beta_1 \Delta x\]
\[ e^{\beta_1 \Delta x} = \frac{\mathrm{odds}_{x+\Delta x}}{\mathrm{odds}_{x}}\]
La chance del evento de interés aumenta \(e^{\beta_1 \Delta x}\) veces cuando \(x_1\) aumenta en \(\Delta x\) (y el resto de las variables se mantienen constantes). En términos del problema: La chance de que llueva mañana aumenta \(e^{\beta_1}\) veces si la humedad aumenta en 1.
Más en términos del problema:
\[e^{\beta_1} = \frac{\mathrm{odds}_{x+1}}{\mathrm{odds}_{x}} \Rightarrow \mathrm{odds}_{x+1} = e^{\beta_1} \mathrm{odds}_{x}\]
\[e^{\beta_1} = 1.11\]
Analicemos juntos el siguiente caso:
\[\log\left(\frac{\pi_i}{1-\pi_i}\right) = 1.1 - 0.2\ \mathrm{despierto}_{i}\]
e imaginemos que \(\pi_i\) es la probabilidad de que un estudiante \(i\) apruebe el parcial de Análisis de Datos de Duración \(i\) y \(\mathrm{despierto}_i\) la cantidad de horas que el estudiante \(i\) estuvo despierto la noche anterior al parcial.
¿Y Bayes?
La especificación del modelo se completa con la elección de distribuciones a priori para \(\beta_0,\ \beta_1,\ \dots\)…
Cada cantidad que dependa de los \(\beta_0,\ \beta_1,\ \dots\) tendrá una distribución de probabilidad.
Las predicciones también son probabilísticas.
¿Cómo se estiman \(\beta_0,\ \beta_1,\ \dots\)? Como siempre. Aplicando la Regla de Bayes. Solo que la verosimilitud ahora es Bernoulli.
Estadística Bayesiana – 2024