二次回归

回归与预测模型

输入您的数据点(x, y)对,查找最佳拟合的二次方程。

示例

点击示例将数据加载到计算器中。

抛体运动

物理

建模抛出物体随时间的高度。

数据点: 0,0 1,25 2,40 3,45 4,40 5,25

成本曲线

经济学

分析产量与平均成本之间的U型关系。

数据点: 10,50 20,35 30,25 40,20 50,22 60,30

种群增长

生物学

建模因限制因素而先快速后减缓增长的种群。

数据点: 1,100 2,250 3,420 4,550 5,600 6,580

材料应力

工程

研究特定材料在载荷下的应力-应变曲线。

数据点: 0.1,5 0.2,18 0.3,38 0.4,65 0.5,88

其他标题
理解二次回归:全面指南
探索为您的数据找到“最佳拟合抛物线”的原理、应用和数学基础。

什么是二次回归?

  • 最佳拟合抛物线的定义
  • 二次回归与线性回归
  • 最小二乘法的作用
二次回归是一种统计方法,通过拟合二次多项式方程来建模两个变量之间的关系。目标是找到最能代表数据点趋势的抛物线(y = ax² + bx + c)。与线性回归(建模直线关系)不同,二次回归适用于呈现曲线、U型或倒U型模式的数据集。
核心方程
二次方程的一般形式为y = ax² + bx + c,其中'y'为因变量,'x'为自变量,'a'、'b'和'c'为决定抛物线形状和位置的系数。系数'a'决定抛物线的开口方向和宽窄(a>0向上,a<0向下)。
为什么不用直线?
许多现实现象并不遵循简单的线性趋势。例如,抛射物随时间的高度、公司规模扩张时的利润、作物对肥料的反应等,常常先升至最大值再下降。直线无法捕捉这一峰值,导致预测不准确。二次回归为这些曲线关系提供了更灵活的建模方式。

计算器使用分步指南

  • 正确输入数据
  • 解读结果
  • 进行预测
1. 数据输入

在“数据点 (x,y)”文本区,输入您的坐标对。每对一行,x和y用逗号分隔。例如,若有点(1, 5)、(2, 11)、(3, 21),应输入: 1,5 2,11 3,21 必须提供至少三个不同的点以确定唯一抛物线。

2. 计算
数据输入后,点击“计算”按钮。工具将立即使用最小二乘法处理数据点,确定二次方程的最佳系数。
3. 结果分析
结果区将显示:最终方程(y = ax² + bx + c)、a、b、c的具体值,以及决定系数R²。R²是一个关键指标,范围为0到1,表示因变量可由自变量预测的方差比例。R²越高,拟合越好。
4. 新值预测
要用模型进行预测,在“预测给定X的Y值”字段输入新的x值。计算器会将该值代入推导出的方程,计算对应的预测y值。

二次回归的实际应用

  • 物理与工程
  • 经济与金融
  • 生物与环境科学
二次回归不仅是抽象的数学概念,在各领域有大量实际应用。
物理:抛体运动
在重力作用下抛出的物体轨迹呈抛物线。二次回归可用于建模该路径,预测任意时刻的高度并确定最大高度。
经济学:成本与收益分析
企业常见U型平均成本曲线,单位成本随规模经济先降后升。类似地,收益可能在某一价格点达到峰值。二次模型有助于找出最小成本的产量或最大收益的价格。
农业:作物产量
肥料用量与作物产量的关系常为二次型。肥料过少产量低,过多也会损害作物导致减产。回归帮助农民找到最佳施肥量。

数学推导与公式

  • 最小二乘法
  • 求解正规方程组
  • R²值的计算
二次回归的“最佳拟合”通过最小化观测y值与模型预测y值之间的平方差之和实现。这就是最小二乘法。
正规方程组

为找到最小化误差的a、b、c系数,对误差平方和分别对a、b、c求偏导并令其为零,得到三元一次线性方程组(正规方程):

  1. (Σy) = c(n) + b(Σx) + a(Σx²)
  2. (Σxy) = c(Σx) + b(Σx²) + a(Σx³)
  3. (Σx²y) = c(Σx²) + b(Σx³) + a(Σx⁴) 其中n为数据点数。该方程组可用矩阵代数求解。
R²(决定系数)公式

决定系数计算公式:R² = 1 - (SSres / SStot)。

  • SSres(残差平方和)为Σ(yᵢ - ŷᵢ)²,ŷᵢ为回归方程预测的y值,表示模型误差。
  • SStot(总平方和)为Σ(yᵢ - ȳ)²,ȳ为所有观测y值的均值,表示数据总变异。完美拟合时SSres为0,R²为1。

常见误区与最佳实践

  • 相关性与因果性
  • 外推的风险
  • 选择合适的回归模型
假定因果关系
高R²值表示强相关和良好拟合,但不代表x的变化导致y的变化。可能存在第三个未观测变量影响两者。仅凭回归结果断言因果需谨慎。
超出数据范围的外推
二次模型在观测数据范围内拟合良好,但对远离该范围的x值预测可能荒谬。抛物线趋势不太可能无限延续。建议仅用于区间内插值,外推需极度谨慎。
二次模型总是最优吗?
不要仅因线性模型不完美就假定需要二次模型。应先可视化数据。有时其他非线性模型(如指数、对数)更合适,或数据本身无明显模式。盲目增加模型复杂度(如从线性到二次)会导致过拟合,即模型拟合了噪声而非真实趋势。