本福特定律计算器

分布与统计模型

输入一组数字,查看其是否符合本福特定律预测的分布。这通常用于法务会计和欺诈检测。

实际示例

点击示例加载数据,查看本福特定律在不同场景下的应用。

公司发票

会计

某公司发票金额列表。此类数据集通常符合本福特定律。

数据集预览: 152.34, 28, 475.9, 1102, 34.55, 621, 1987, 54.12, 134, 219.8, 112, 45, 88.7, 1045, 305, 17.6, 953, 1...

潜在欺诈数据

欺诈

一组人为生成且范围狭窄的数据,通常不符合本福特定律。

数据集预览: 850, 920, 780, 810, 950, 880, 760, 910, 830, 990, 750, 800, 870, 940, 820, 930, 790, 860, 900, 840, ...

世界河流长度

科学

世界主要河流的长度(单位:千米)。跨越多个数量级的自然现象通常符合本福特定律。

数据集预览: 6650, 6400, 6300, 6275, 5539, 4880, 4700, 4500, 4444, 4345, 4258, 4180, 4090, 3778, 3700, 3650, 3530...

城市人口

人口

美国城市人口样本。人口数据是符合本福特定律的经典例子。

数据集预览: 8175133, 3792621, 2695598, 2100263, 1526006, 1386607, 1321426, 945942, 822458, 672228, 649031, 62096...

其他标题
理解本福特定律:全面指南
深入了解首位数字现象、其应用及背后的数学原理。

什么是本福特定律?

  • 首位数字现象
  • 数学公式
  • 为何成立?
本福特定律,又称首位数字定律,是关于许多现实生活数值数据首位数字出现频率的有趣统计现象。与直觉相反,1到9的数字作为首位出现的频率并不相等。数字1约占30%,而数字9不到5%。这一模式最早由天文学家西蒙·纽康于1881年提出,后由物理学家弗兰克·本福特于1938年重新发现并推广。
定律背后的公式
在符合本福特定律的数据集中,数字d(1到9)作为首位的概率为:P(d) = log10(1 + 1/d)。这种对数关系解释了从1到9频率递减的现象。该定律不仅适用于首位数字,也可推广到第二位、第三位及多位组合,但后续位数分布趋于均匀。
适用条件
本福特定律最适用于跨越多个数量级的数据。范围受限的数据(如身高)不适用。适用的关键标准包括:数字应代表事件规模、无预设上限,且不应为分配编号(如发票号、支票号)。

本福特定律计算器使用指南

  • 输入您的数据
  • 解读结果表
  • 理解卡方检验
使用本计算器非常简单。只需复制您的数字列表并粘贴到文本框中,数字可用逗号、空格或换行分隔。计算器会自动解析有效数字,忽略文本或无效项。
结果表说明
点击“计算”后,工具会生成一个表格,显示每个首位数字(1-9),并将“实际”频率与“本福特”期望频率进行比较。“差异”列突出显示数据与期望值的偏差,便于发现显著异常。
卡方(χ²)检验
为提供统计符合性的度量,计算器会执行卡方检验。该检验量化您的数据分布与本福特分布的差异。结果包括卡方值、自由度(首位分析为8)和p值。较小的p值(通常<0.05)表示偏差具有统计学意义,说明数据不符合本福特定律。较大的p值则表明数据与定律一致。

本福特定律的实际应用

  • 法务会计与欺诈检测
  • 选举审计
  • 科学数据验证
发现财务欺诈
本福特定律在法务会计中的应用极为重要。当人们伪造数字(如发票、支票、报销)时,往往会均匀分布数字,违背了本福特定律的对数规律。审计人员利用这一点,对显著偏离的数据集进行标记,提示潜在欺诈、操纵或错误。
分析选举数据
本福特定律也被用于分析选举计票。虽然偏离定律并不能直接证明欺诈(因选区数据可能不满足条件),但可作为进一步调查的指标,有助于发现投票率或候选人得票的统计异常。
验证科学与经济数据
科学家和经济学家用本福特定律验证大型数据集的完整性。无论是宏观经济数据、河流长度还是物理常数,自然过程产生的数据通常符合定律。不符可能提示测量误差、数据处理问题,甚至学术不端。

常见误区与正确方法

  • 并非所有数据集都适用
  • 它是预警而非证据
  • 样本量很重要
并非普遍适用
常见错误是将本福特定律应用于所有数据集。如前所述,受限范围的数据(如0-100分的考试成绩)、分配编号(邮编、电话)或受人为影响的数据(如以.99结尾的价格)均不适用。错误应用会导致错误结论。
筛查工具而非定罪依据
显著偏离本福特定律是统计预警,而非确凿证据。它表明数据异常,需要进一步调查原因。原因可能是欺诈,也可能是数据处理错误、数据本身特性或定律应用不当。
样本量的重要性
要获得有统计意义的分析,数据集应足够大。虽然没有绝对标准,但建议至少有50-100个有效数字,样本越大结果越可靠。样本过小可能因偶然性出现偏差。

数学推导与示例

  • 对数间隔
  • 尺度不变性
  • 进制不变性
为何用对数?
本福特定律源于我们对相对数量级的对数感知。log(1)与log(2)之间的间隔远大于log(8)与log(9)之间。数据在对数尺度上均匀分布时会出现本福特定律。这常见于乘法增长过程(如投资、人口增长)。
尺度不变性
符合本福特定律的数据集具有尺度不变性。例如,将一组数值(如英里)转换为另一单位(如公里),新数据仍符合本福特定律。这一特性使其适用于不同来源的数据分析。
进制不变性
虽然通常在十进制中演示,本福特定律并不依赖于我们的十进制系统。该原理在其他进制下同样成立,只是概率会随进制变化。这说明该现象是数字的基本属性,而非书写方式的产物。