La regresión logística es un modelo de clasificación que permite superar algunos de los problemas del perceptrón, como su incapacidad para converger si las clases no son linearmente separables. Para estudiarlo, empezaremos con un pequeño recordatorio de los conceptos estadísticos involucrados.

Análisis por regresión

El análisis por regresión es un proceso que permite estimar la relación entre dos o más variables. En este proceso se parte de una o más variables conocidas (variables independientes o predictoras) y se busca construir un modelo que prediga el comportamiento de otra variable desconocida, llamada variable dependiente. Típicamente se busca calcular el valor medio de la variable dependiente para unos valores fijos de las variables independientes.

Un ejemplo de regresión lineal sacado de la wikipedia
Un ejemplo de regresión lineal sacado de la wikipedia

Regresión lineal

Dependiendo de la naturaleza de las variables involucradas se pueden llevar a cabo análisis por regresión de distintos tipos. Uno de los más habituales es la regresión lineal. En este tipo de análisis se busca una relación lineal entre la variables:

Un ejemplo de regresión lineal sería el siguiente: imaginemos un curso universitario que tiene un examen final puntuado de 0 a 10. Para ese examen tenemos la lista de notas sacadas por los alumnos en los últimos años, así como el número de horas que cada alumno empleó preparando la asignatura:

Datos de horas estudiadas y notas conseguidas para 50 alumnos de una misma asignatura
Datos de horas estudiadas y notas conseguidas para 50 alumnos de una misma asignatura

En este caso tenemos dos variables: las horas empleadas en el estudio (el predictor), y la nota conseguida en el alcance (la respuesta). Llamamos predictor a la primera variable porque la regresión lineal nos permitirá calcular una función (lineal) que prediga la nota de un estudiante a partir de las horas estudiadas, con un cierto margen de error. Este ejemplo constituye además una regresión lineal simple, ya que sólo tiene una variable predictora.

El propósito de la regresión lineal es obtener una línea recta que, en cada punto del eje (para cada valor del predictor) tenga un valor medio sobre los datos reales de la muestra. Como es lógico, esto no es posible para cada conjunto de datos. Existen una serie de condiciones que los datos deben cumplir para que esto sea posible:

  • La media de las respuestas debe ser una función lineal de la variable predictora
  • Los errores de cada muestra (la cantidad que cada muestra se desvía sobre esta media) deben ser independientes
  • Los errores de las muestras con un mismo predictor deben seguir una distribución normal
  • Los errores de las muestras de cada predictor deben tener la misma varianza

Calcular la regresión lineal consiste en calcular los valores y tales que

donde es el predictor de la muestra , es el valor de la muestra , y es el valor esperado (según la regresión calculada) de la muestra . El cálculo de y se realiza minimizando el error de cada error . Una forma de conseguir esto, como ya vimos anteriormente, es minimizar la suma del cuadrado de los errores. Es decir, minimizamos

lo que nos da

y

En estas ecuaciones y representan la media de los valores y , respectivamente.

Para nuestro ejemplo, la recta resultante es

Datos de horas estudiadas y notas conseguidas para 50 alumnos de una misma asignatura, y regresión calculada
Datos de horas estudiadas y notas conseguidas para 50 alumnos de una misma asignatura, y regresión calculada