线性回归计算器

回归与预测模型

输入您的 (x, y) 数据对,计算最佳拟合直线及其他统计指标。

示例

使用这些示例了解计算器的用法。

学习时间与考试成绩

简单正相关

一个展示学习时间与考试成绩正相关的简单数据集。

数据点:

1, 65 2, 70 3, 75 4, 85 5, 90

汽车年龄与价值

简单负相关

一个说明汽车随着年龄增长价值下降的数据集。

数据点:

1, 20000 2, 18000 3, 16500 5, 12000 8, 7000

鞋码与智商

无相关性

一个展示两个变量之间无明显相关性的数据集。

数据点:

8, 110 9, 95 10, 120 11, 105 12, 100

房屋面积与价格

房地产数据

房屋面积(平方英尺)与市场价格(千元)的数据集。

数据点:

1400, 245 1600, 312 1700, 279 1875, 308 2100, 405 2500, 450
其他标题
理解线性回归:全面指南
探索线性回归的原理、应用及如何解读本计算器的结果。

什么是线性回归?

  • 线性回归的定义
  • 最佳拟合直线
  • 回归方程的关键组成
线性回归是一种基础的统计和机器学习方法,用于建模因变量与一个或多个自变量之间的关系。目标是找到一个线性方程,能够根据自变量的值最好地预测因变量的值。最简单的形式是简单线性回归,即用一个自变量 (X) 预测一个因变量 (Y)。
最佳拟合直线
线性回归的核心是找到“最佳拟合直线”。这是一条穿过数据点散点图的直线,使得每个点到直线的距离之和最小。最常用的方法是“最小二乘法”,即最小化点到直线的垂直距离(残差)的平方和。
回归方程:y = mx + c
线性回归分析的结果是一个 y = mx + c 形式的线性方程,其中:
y:因变量的预测值。
x:自变量的取值。
m(斜率):表示 x 每增加一个单位,y 的变化量。正斜率表示 y 随 x 增大而增大,负斜率则相反。
c(截距):当 x 为 0 时 y 的值,即回归线与 y 轴的交点。

概念示例

  • 根据学习时间预测学生的期末成绩。
  • 根据房屋面积估算房价。
  • 根据广告预算预测公司下季度销售额。

计算器使用步骤指南

  • 输入您的数据
  • 进行预测
  • 解读结果
1. 输入您的数据

在“数据点 (x, y)”文本框中输入您的配对数据。每行一组,可以用逗号或空格分隔 x 和 y。例如,输入 (1, 2)、(3, 5)、(4, 7) 时,应输入: 1, 2 3, 5 4, 7

2. 进行预测(可选)
如果您想预测一个不在原始数据集中的 x 值对应的 y,请在“预测给定 X 的 Y 值”字段中输入该 x 值。计算器将使用生成的回归方程计算预测的 y。
3. 解读结果
点击“计算”后,您将看到几个关键指标:
回归方程:最佳拟合直线的公式。
斜率 (m) 与截距 (c):方程的核心组成部分。
相关系数 (r):介于 -1 和 1 之间,衡量线性关系的强度和方向。接近 1 或 -1 表示强相关,接近 0 表示弱相关或无相关。
决定系数 (R²):介于 0 和 1 之间,表示因变量方差中可由自变量线性关系解释的比例。例如 R² 为 0.75,表示 y 的 75% 变异可由 x 的线性关系解释。

线性回归的实际应用

  • 经济与金融
  • 医学研究
  • 商业与市场营销
线性回归不仅是学术概念,更是各行业广泛应用的强大工具。
经济与金融
用于建模经济变量之间的关系。例如,根据可支配收入预测消费支出,或分析利率对股市价格的影响。
医学研究
研究人员用它分析风险因素与健康结果之间的关系,如建模新药剂量对降压效果的影响。
商业与市场营销
企业用回归预测广告支出与销售额、培训时长与员工绩效、客户满意度与忠诚度之间的关系。

行业应用案例

  • 房地产经纪人根据房屋特征(面积、位置等)用回归定价。
  • 保险公司根据年龄和驾驶记录预测保单持有人的理赔金额。
  • 农民根据降雨量和施肥量估算作物产量。

数学推导与公式

  • 最小二乘法
  • 斜率 (m) 公式
  • 截距 (c) 公式
计算器通过最小二乘法找到最佳拟合直线。用于 n 个 (x, y) 数据点的斜率 (m) 和截距 (c) 公式由此推导。
斜率 (m) 公式
m = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²)
截距 (c) 公式
c = (Σy - mΣx) / n
相关系数 (r) 公式
r = (nΣ(xy) - ΣxΣy) / √[(nΣ(x²) - (Σx)²)(nΣ(y²) - (Σy)²)]
其中 Σx 为所有 x 的和,Σy 为所有 y 的和,Σxy 为对应 x 和 y 的乘积之和,Σx² 为 x 的平方和,Σy² 为 y 的平方和。

常见误区与最佳实践

  • 相关不等于因果
  • 外推的风险
  • 检查线性关系
相关不等于因果
常见错误是认为两个变量强相关就一定有因果关系。线性回归只能显示关系强度,不能证明因果。可能存在第三个未观测变量(潜在变量)影响两者。
外推的风险
外推是指在原始数据范围之外进行预测。例如,房屋面积数据在 1000 到 3000 平方英尺之间,用模型预测 6000 平方英尺豪宅的价格可能极不准确。线性关系在远离观测范围时可能不成立。
务必可视化数据
回归前务必绘制散点图,直观判断是否适合线性建模。数据可能呈现非线性(如曲线),或有极端值严重影响结果。安斯库姆四重奏就是强调可视化重要性的著名例子。