Seguimos con algunos conceptos estadísticos útiles para estudiar el modelo de regresión logística.

Predicción de categorías

La principal característica de la regresión logística es que la variable respuesta es una categoría, no un valor continuo. Siguiendo con el ejemplo de la entrada anterior, la regresión logística nos permitiría relacionar las horas dedicadas al estudio con la categoría final de la nota: suspenso o aprobado. Este tipo de regresión logística, con dos posibles categorías para el resultado, se llama regresión logística binaria.

La regresión logística estima la probabilidad de que una característica esté presente en la muestra para los valores de las variables predictoras dadas. Estos valores pueden ser continuos, discretos, categóricos o una mezcla de varios. En el caso de que queramos estimar la probabilidad de que una persona desarrolle cáncer de pulmón (y por lo tanto predecir, por ejemplo, si lo va a desarrollar en los próximos 5 años), podríamos utilizar como factores predictores el tiempo que lleva fumando (una variable continua), la cantidad de cigarrillos (una variable discreta), y si tiene o no antecedentes familiares (una categoría con dos posibles valores).

Todos esos factores se incorporarían al modelo de la siguiente forma. Sea la variable respuesta. Para una persona (muestra) , existen dos posibles valores:

El conjunto de variables predictoras lo modelaremos a través de , donde es el valor observado para la persona (muestra) . Para simplificar el modelo, nos centraremos en una única variable predictora . El modelo intentará encontrar la probabilidad de que la persona desarrolle la enfermedad () para un valor predictor concreto ():

La función logística

La función logística es la curva definida por la siguiente ecuación:

Un caso especial de esta función es la función sigmoidea, donde , y :

Función sigmoidea sacada de la wikipedia
Función sigmoidea sacada de la wikipedia

Este tipo de función tiene múltiples usos en distintas disciplinas científicas. En nuestro caso, nos interesa porque los valores de tienen a o según tiene a o . Si , se puede interpretar que esta funcion asigna una probabilidad a un suceso en función de . En el caso de una red neuronal, la entrada neta al sistema no será , sino (para el caso de una única variable predictora), que podemos simplificar como . Por tanto, de y :

y multiplicando arriba y abajo por :

Como los valores de van a variar entre 0 y 1, podemos establecer como regla para categorizar muestras que la categoría predicha valdrá:

Utilizaremos estas ideas en la siguiente entrada para plantear el algoritmo de regresión lineal.