Calculadora de Regresión Lineal

Modelos de Regresión y Predicción

Ingresa tus puntos de datos como pares (x, y) para calcular la línea de mejor ajuste y otras métricas estadísticas.

Ejemplos

Usa estos ejemplos para ver cómo funciona la calculadora.

Horas de Estudio vs. Puntuación del Examen

Correlación Positiva Simple

Un conjunto de datos simple que muestra una correlación positiva entre las horas estudiadas y las puntuaciones del examen.

Puntos de Datos:

1, 65 2, 70 3, 75 4, 85 5, 90

Edad del Coche vs. Valor

Correlación Negativa Simple

Un conjunto de datos que ilustra que a medida que un coche envejece, su valor tiende a disminuir.

Puntos de Datos:

1, 20000 2, 18000 3, 16500 5, 12000 8, 7000

Talla de Zapato vs. CI

Sin Correlación

Un conjunto de datos que muestra dos variables que no se espera que tengan ninguna correlación.

Puntos de Datos:

8, 110 9, 95 10, 120 11, 105 12, 100

Tamaño de Casa vs. Precio

Datos de Bienes Raíces

Un conjunto de datos del tamaño de casa (en pies cuadrados) y su precio de mercado (en miles).

Puntos de Datos:

1400, 245 1600, 312 1700, 279 1875, 308 2100, 405 2500, 450
Otros Títulos
Entendiendo la Regresión Lineal: Una Guía Completa
Explora los principios de la regresión lineal, sus aplicaciones y cómo interpretar los resultados de esta calculadora.

¿Qué es la Regresión Lineal?

  • Definición de Regresión Lineal
  • La Línea de Mejor Ajuste
  • Componentes Clave de la Ecuación de Regresión
La regresión lineal es una técnica fundamental de estadística y aprendizaje automático utilizada para modelar la relación entre una variable dependiente y una o más variables independientes. El objetivo es encontrar una ecuación lineal que prediga mejor el valor de la variable dependiente basándose en el valor de la(s) variable(s) independiente(s). En su forma más simple, la regresión lineal simple, usamos una sola variable independiente (X) para predecir una sola variable dependiente (Y).
La Línea de Mejor Ajuste
El núcleo de la regresión lineal es encontrar la 'línea de mejor ajuste'. Esta es una línea recta que pasa a través de un diagrama de dispersión de puntos de datos de una manera que minimiza la distancia entre la línea y cada punto de datos. El método más común para determinar esta línea es el 'Método de Mínimos Cuadrados', que busca minimizar la suma de las distancias verticales al cuadrado (residuos) de los puntos desde la línea.
La Ecuación de Regresión: y = mx + c
El resultado de un análisis de regresión lineal es una ecuación lineal de la forma y = mx + c, donde:
y: El valor predicho de la variable dependiente.
x: El valor de la variable independiente.
m (Pendiente): Representa el cambio en y para un cambio de una unidad en x. Una pendiente positiva significa que y aumenta a medida que x aumenta, mientras que una pendiente negativa significa que y disminuye a medida que x aumenta.
c (Intersección Y): El valor de y cuando x es 0. Es el punto donde la línea de regresión cruza el eje y.

Ejemplos Conceptuales

  • Predecir la puntuación final del examen de un estudiante basándose en el número de horas que estudió.
  • Estimar el precio de una casa basándose en sus pies cuadrados.
  • Pronosticar las ventas de una empresa para el próximo trimestre basándose en su presupuesto publicitario.

Guía Paso a Paso para Usar la Calculadora

  • Ingresando Tus Datos
  • Haciendo Predicciones
  • Interpretando los Resultados
1. Ingresando Tus Datos

En el área de texto 'Puntos de Datos (x, y)', ingresa tus datos emparejados. Cada par debe estar en una nueva línea. Puedes separar los valores x e y con una coma o un espacio. Por ejemplo, para ingresar los puntos (1, 2), (3, 5) y (4, 7), escribirías: 1, 2 3, 5 4, 7

2. Haciendo Predicciones (Opcional)
Si quieres predecir un valor y para un valor x específico que no está en tu conjunto de datos original, ingresa ese valor x en el campo 'Predecir Y para un X dado'. La calculadora usará la ecuación de regresión generada para calcular la y predicha.
3. Interpretando los Resultados
Después de hacer clic en 'Calcular', verás varias métricas clave:
Ecuación de Regresión: La fórmula para la línea de mejor ajuste.
Pendiente (m) e Intersección Y (c): Los componentes principales de tu ecuación.
Coeficiente de Correlación (r): Un valor entre -1 y 1 que mide la fuerza y dirección de la relación lineal. Un valor cercano a 1 o -1 indica una relación fuerte, mientras que un valor cercano a 0 indica una relación débil o nula.
Coeficiente de Determinación (R²): Un valor entre 0 y 1 que representa la proporción de la varianza en la variable dependiente que es predecible desde la variable independiente. Por ejemplo, un R² de 0.75 significa que el 75% de la variación en y puede ser explicada por la relación lineal con x.

Aplicaciones del Mundo Real de la Regresión Lineal

  • Economía y Finanzas
  • Investigación Médica
  • Negocios y Marketing
La regresión lineal no es solo un concepto académico; es una herramienta poderosa utilizada en muchas industrias.
Economía y Finanzas
Se utiliza para modelar relaciones entre variables económicas. Por ejemplo, predecir el gasto del consumidor basándose en el ingreso disponible o analizar el impacto de las tasas de interés en los precios del mercado de valores.
Investigación Médica
Los investigadores la usan para analizar la relación entre un factor de riesgo y un resultado de salud, como modelar el efecto de la dosis de un nuevo medicamento en la reducción de la presión arterial.
Negocios y Marketing
Las empresas usan la regresión para pronosticar ventas basándose en el gasto publicitario, predecir el rendimiento de los empleados basándose en las horas de entrenamiento, o entender cómo la satisfacción del cliente impacta la lealtad.

Casos de Uso de la Industria

  • Un agente inmobiliario usando regresión para fijar el precio de una casa basándose en sus características (tamaño, ubicación, etc.).
  • Una compañía de seguros prediciendo el monto de la reclamación para un asegurado basándose en su edad e historial de conducción.
  • Un agricultor estimando el rendimiento del cultivo basándose en la cantidad de lluvia y fertilizante utilizado.

Derivación Matemática y Fórmulas

  • El Método de Mínimos Cuadrados
  • Fórmula para Pendiente (m)
  • Fórmula para Intersección Y (c)
La calculadora encuentra la línea de mejor ajuste usando el método de mínimos cuadrados. Las fórmulas para calcular la pendiente (m) y la intersección y (c) para un conjunto de n puntos de datos (x, y) se derivan de este método.
Fórmula para Pendiente (m)
m = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²)
Fórmula para Intersección Y (c)
c = (Σy - mΣx) / n
Fórmula para Coeficiente de Correlación (r)
r = (nΣ(xy) - ΣxΣy) / √[(nΣ(x²) - (Σx)²)(nΣ(y²) - (Σy)²)]
Donde Σx es la suma de todos los valores x, Σy es la suma de todos los valores y, Σxy es la suma de los productos de los valores x e y correspondientes, Σx² es la suma de los valores x al cuadrado, y Σy² es la suma de los valores y al cuadrado.

Errores Comunes y Mejores Prácticas

  • Correlación vs. Causalidad
  • El Peligro de la Extrapolación
  • Verificando la Linealidad
La Correlación No Es Causalidad
Un error común es asumir que porque dos variables están fuertemente correlacionadas, una debe causar la otra. La regresión lineal solo puede mostrar la fuerza de una relación; no puede probar causalidad. Podría haber una tercera variable no observada (una variable oculta) que esté influyendo en ambas.
El Peligro de la Extrapolación
La extrapolación significa hacer predicciones fuera del rango de tus datos originales. Por ejemplo, si tus datos para tamaños de casa están entre 1000 y 3000 pies cuadrados, usar tu modelo para predecir el precio de una mansión de 6000 pies cuadrados puede ser muy inexacto. La relación lineal podría no mantenerse para valores muy fuera del rango observado.
Siempre Visualiza Tus Datos
Antes de realizar la regresión, es crucial crear un diagrama de dispersión de tus datos. Esto te ayuda a confirmar visualmente si una relación lineal es apropiada. Los datos podrían tener un patrón no lineal (ej., una curva), o podría haber valores atípicos significativos que podrían sesgar fuertemente los resultados. El cuarteto de Anscombe es un ejemplo famoso que demuestra por qué visualizar los datos es crítico.