本福特定律
· 2009-08-25 21:27 · 35962 次点击
数字统计的一种内在规律,指所有自然随机变量,只要样本空间足够大,每一样本首位数字为1至9各数字的概率在一定范围内具有稳定性。见右图。即以1开首的样本占样本空间的0.3,以2开首的样本占样本空间0.17-0.19,而以9或8开首的样本始终只占0.05左右。
世界上千千万万的数据的开头数字是1到9中的任何一个数字,而且每个数字打头的概率本应该差不多,但如果你统计的数据足够多,就会惊讶地发现,打头数字是1的数据最多。
1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。
本福特再进一步研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。
本福特开始对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。
1961年,一位美国科学家提出,本福特定律其实是数字累加造成的现象,即使没有单位的数字。比如,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。因此我们看到,以1为开头的指数数据比以其他数字打头的指数数据要高很多。
2001年,美国最大的能源交易商安然公司宣布破产,当时传出了该公司高层管理人员涉嫌做假账的传闻。事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律,这证明了安然的高层领导确实改动过这些数据。
第一数字定律描述的是自然数1到9的使用频率,公式为F(d)=log(d为自然数),其中1使用最多接近三分之一,2为17.6%,3为12.5%,依次递减,9的频率是4.6%。科学家们仔细研究第一数字定律后,无法对这种现象做出合理解释。定律的主要奠基人FrankBenford对人口出生率、死亡率、物理和化学常数、素数数字等各种现象进行统计分析后发现,由度量单位制获得的数据都符合第一数字定律。当然彩票上随机数据并不符合。第一数字定律在许多方面都得到了应用,但对于这种数字奇异现象人们依旧是迷惑不解。"
(图)本图表中的几个数据范例来自于西班牙国家统计局,数据是按照本福特对数定律统计的。然而,按照彩票获得的数据是随机的和统一的。
您住宅地址号码是以a1开始的吗?根据一个奇特的数学定律统计,约三分之一的住宅号码是以1作为其首个数字的。其它许多几乎没有任何共通性的地区也有相同的情况:比如道琼斯指数的历史数据、个人电脑中文件储存的大小排列顺序、世界主要河流的长度、报纸头版头条的数字及其它许多事情。
该定律根据其第二位奠基人弗兰克.本福特的名字被命名为本福特定律。通用电气公司物理学家本福特于1935年发现了这一定律。该定律告诉人们在各种各样不同数据库中每个数字(从1到9)作为首个重要阿拉伯数字的频率。
除数字1始终占据约三分之一的出现频率外,数字2的出现频率为17.6%,3出现的频率为12.5%,依次递减,9的出现频率是4.6%。在数学术语中,这一对数定律的公式为F(d)=log,此公式中F代表频率,D代表待求证数字。
这一现象让人觉得很奇怪,来自科尔多瓦大学的科学家杰赫斯.托里斯、桑索利斯.费尔罗德滋、安东尼奥.迦米洛和安东尼奥.索拉同样也如此认为。科学家们在《欧洲物理杂志》上发表了一篇题为“数字如何开始?(第一数字定律)”的文章,该文章对这一定律进行了简要的历史回顾。他们的论文同时还对第一数字定律的有效应用进行了阐述,并对为何没有人能够对这一数字出现频率现象做出合理解释的原因进行了阐述。
等离子体物理学专家托里斯说,“自从我了解本福特定律以来,它一直是我很感兴趣的问题之一。在统计物理学课堂上,我一直将此定律作为一个令人惊奇的范例来激发学生们的好奇心。”托里斯解释道,在本福特之前,有一位深受尊敬的天文学家名为西蒙.纽库姆,他在1881年发现了这一定律。纽库姆同时代的科学家们并没有对他的科学发现引起足够重视。本福特和纽库姆两位科学家均对这一定律感到困惑:当浏览对数表书籍时,他们注意到书的开始部分要比结束部分脏得多。这就是说他们的同事到图书馆后,选择各种各样学科书籍时首选第一页开始阅读。
本福特对此疑问的观察要比纽库姆更深入一些。他开始对其它数字进行调查,发现各个完全不相同的数据,比如人口、死亡率、物理和化学常数、棒球统计表、半衰期放射性同位数、物理书中的答案、素数数字和斐波纳契数列数字中均有“第一数字定律”现象的出现。换句话说就是只要是由度量单位制获得的数据都符合这一定律。
另一方面,任意获得的和受限数据通常都不符合本福特定律。比如,彩票数字、电话号码、汽油价格、日期和一组人的体重或者身高数据是比较随意的,或者是任意指定的,并不是由度量单位制获得的。
正如托里斯和他的同事所解释的,数十年来科学家紧随本福特对这一数字现象进行研究,但是除了发现更多的例子外,他们几乎没有发现有关比第一数字定律本身更多的东西。然而科学家们还是发现一些奇特现象。比如当对数据库中的第二重要数字进行调查时,该定律仍然发挥着作用,但是第二重要数字的重要性却降低。同样,第三和第四重要数字所展现出来的特征就开始变得相同起来,第五重要数字的频率为10%,刚好是平均数。第二个奇特现象引发了更多的科学兴趣:
科学家们在他们所发表的文章中写到,“1961年,皮克汉姆发现了首个常规相关结论,该结论显示本福特定律是一个尺度不变原理,同时也是唯一一个提出数字尺度不变原理的定律。那就是说,由于是以公里来表示世界河流的长度,因此它满足本福特定律,同样以英里、光年、微米或者其它长度单位数字都会满足这一定律。”
托里斯同时还解释到,在二十世纪晚期,一些重要的预测理论(基数恒定性及唯一性等)被特德.希尔和其它数学家证实。虽然一些范例(比如住宅地址号几乎总是以数字1开头,低位数总是出现在高位数之前)得到了解释,但是目前仍然没有找到任何能解释各种范例的能用判断标准。科学家们同时还解释到,没有任何优先标准能够告诉我们什么时候应当或者不应当遵守这一定律设置数字。托里斯说,“现在对该定律的研究取得了许多理论成果,但是一些理论成果仍然是前途未明。为什么一些数字设置,比如通用物理学恒量会如此完美地符合这一定律?我们不仅要了解这一定律的数学原因,还要掌握这一套实验数据的特征。比如他们的连接点是什么?他们来自哪里?很显然,他们是相当独立的。我希望将来能够找到这一定律的总体必然性和充分条件。很多人都对这一定律感兴趣,特别是经济学家。但是我也知道这一定律也许有可能是永远都不可能的事。”
然而,科学家们已经使用该定律进行了许多实践应用。比如,一个公司的年度账目数据应当是满足这一定律,经济学家可以根据这一定律查找出伪造数据。因为伪造数据很难满足这一定律。(非常有趣的是,科学家发现数字5和6,而不是1是最流行的数字,这表明伪造者试图在账目中间“隐藏”数据。)
本福特定律最近还用于选举投票欺诈发现。科学家依据这一定律发现了2004年美国总统选举中佛罗里达州的投票欺诈行为,2004年委内瑞拉的投票欺诈和2006年墨西哥投票欺诈。
托里斯说,“有关第一数字定律是通过脏书页发现的故事是完全不可信的。本福特定律不可否认已经得到应用。当这一定律被发现是其能够带来的好处并不明朗。对我而言,它仿佛仅仅只是一个数字奇异现象。这就是简单中可能蕴涵有意想不到神奇之处的典型范例。”