统计
仪器信息网 · 2009-09-11 15:31 · 13706 次点击
人类对事物数量的认识形成的定义。汉语中的“统计”有合计、总计的意思。英语中的“统计”(statistics)词源:德语Statistik,政治学;新拉丁语statisticus,国事;意大利语statista,老练的政客;旧意大利语、拉丁语status,形势,政体。
统计一词有三方而含义:(1)统计工作。指搜集、整理和分析客观事物总体数量方面资料的工作过程,是统计的基础。(2)统计资料。统计工作所取得的各项数字资料及有关文字资料,一般反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。(3)统计科学。研究如何搜集、整理和分析统计资料的理论与方法。统计工作、统计资料、统计科学三者之间的关系是:统计工作的成果是统计资料,统计资料和统计科学的基础是统计工作,统计科学既是统计工作经验的理论概括,又是指导统计工作的原理、原则和方法。
常用统计方法:均值;中位数;众数;正态分布;抽样;标准差;概率论;t检验;方差分析;chi卡方检验;
◎统计tǒngjì
(1)大量数据的收集、分析、解释和表述
人口统计
(2)亦指总括地计算
把全国报来的数据统计一下
编辑本段(一)“统计”一词的由来
“统计”一词,英语为statistics,用作复数名词时,意思是统计资料,作单数名词时,指的是统计学。一般来说,统计这个词包括三个含义:统计工作、统计资料和统计学。这三者之间存在着密切的联系,统计资料是统计工作的成果,统计学来源于统计工作。原始的统计工作即人们收集数据的原始形态已经有几千年的历史,而它作为一门科学,还是从17世纪开始的。英语中统计学家和统计员是同一个(statistician),但统计学并不是直接产生于统计工作的经验总结。每一门科学都有其建立、发展和客观条件,统计科学则是统计工作经验、社会经济理论、计量经济方法融合、提炼、发展而来的一种边缘性学科。
1,关于单词statistics
起源于国情调查,最早意为国情学。
十七世纪,在英格兰人们对“政治算术”感兴趣。1662年,JohnGraunt发表了他第一本也是唯一一本手稿,《naturalandpoliticsobservationsuponthebillsofmortality》,分析了生男孩和女孩的比例,发展了现在保险公司所用的那种类型的死亡率表。
英文的statistics大约在十八世纪中叶由德国学者GottfriedAchenwall所创造,是由状态status和德文的政治算术联合推导得出的,第一次由JohnSinclair所使用,即1797年出现在EncyclopaediaBritannica。(早期还有一个单词publicitics和statistics竞争“统计”这一含义,如果得胜,现在就开始流行publiciticallearning了)。
2,关于高斯分布或正态分布
1733年,德-莫佛(DeMoivre)在给友人分发的一篇文章中给出了正态曲线(这一历史开始被人们忽略)
1783年,拉普拉斯建议正态曲线方程适合于表示误差分布的概率。
1809年,高斯发表了他的关于天体运行论的伟大著作,在这一著作的第二卷第三节中,他导出正态曲线适宜于表示误差规律,同时承认拉普拉斯较早的推导。
正态分布在十九世纪前叶因高斯的工作而加以推广,所以通常称作高斯分布。卡尔-皮尔逊指出德-莫佛是正态曲线的创始人,第一个称它为正态分布,但人们仍习惯称之高斯分布。
3,关于最小二乘法
1805年,Legendre提出最小二乘法,Gauss声称自己在1794年用过,并在1809年基于误差的高斯分布假设,给出了严格推导。
4,其它
在十九世纪中叶,三个不同领域产生的重要发展都是基于随机性是自然界固有的这个前提上的。
阿道夫·凯特莱特(A.Quetlet,1869)利用概率性的概念来描述社会学和生物学现象(正态曲线从观察误差推广到各种数据)
孟德尔(G.Mendel,1870)通过简单的随机性结构公式化了他的遗传法则
玻尔兹曼(Boltzmann,1866)对理论物理中最重要的基本命题之一的热力学第二定律给出了一个统计学的解释。
1859年,达尔文发表了《物种起源》,达尔文的工作对他的表兄弟高尔登爵士有深远影响,高尔登比达尔文更有数学素养,他开始利用概率工具分析生物现象,对生物计量学的基础做出了重要贡献(可以称他为生物信息学之父吧),高尔登爵士是第一个使用相关和回归这两个重要概念的人,他还是中位数和百分位数这种概念的创始人。
受高尔登工作影响,在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于达尔文进化论,从而开创了现代统计时代,赢得了统计之父的称号,1901年Biometrika第一期出版(卡-皮尔逊是创始人之一)。
5,关于总体和样本
在早期文献中可找到由某个总体中抽样的明确例子,然而从总体中只能取得样本的认识常常是缺乏的。----K.皮尔逊时代
到十九世纪末,对样本和总体的区别已普遍知道,然而这种区分并不一定总被坚持。----1910年Yule在自己的教科书中指出。
在1900年代的早期,区分变的更清楚,并在1922年被Fisher特别强调。----Fisher在1922年发表的一篇重要论文中《Onthemathematicalfoundationoftheoreticalstatistics》,说明了总体和样本的联系和区别,以及其他概念,奠定了“理论统计学”的基础。
6,期望、标准差和方差
期望是一个比概率更原始的概念,在十七世纪帕斯卡和费马时代,期望概念已被公认了。K.皮尔逊最早定义了标准差的概念。1918年,Fisher引入方差的概念。
力学中的矩和统计学中的中数两者之间的相似性已被概率领域的早期工作者注意到,而K.皮尔逊在1893年第一次在统计意义下使用“矩”。
7,卡方统计量
卡方统计量,是卡-皮尔逊提出用于检验已知数据是否来自某一特定的随机模型,或已知数据是否与已给定的假设一致。卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,甚至敌人Fisher都对此有极高评价。
8,矩估计与最大似然
卡-皮尔逊提出了使用矩来估计参数的方法。
Fisher则在1912年到1922年间提出了最大似然估计方法,基于直觉,提出了估计的一致性、有效性和充分性的概念。
9,概率的公理化
1933年,前苏联数学家柯尔莫格洛夫(Kolmogorov)发表了《概率论的基本概念》,奠定了概率论的严格数学基础。
10,贝叶斯定理
贝叶斯对统计学几乎没有什么贡献,然而贝叶斯的一篇文章成为贝叶斯学派统计学的思想模式的焦点,这一篇文章发表于1763年,由贝叶斯的朋友、著名人寿保险原理的开拓者RichardPrice在贝叶斯死后提出来的----贝叶斯定理。
概率思想的两种方法,(1)作为一个物理系统内在的一种物理特性,(2)对某一陈述相信程度的度量。在1950年代后期止,多数统计学家采取第一种观点,即概率的相对频数解释,这一时期贝叶斯定理仅应用在概率能在频数框架内解释的场合。贝叶斯统计学派著作的一个浪潮始于1960年。自此,赞成和反对贝叶斯学派统计的两方以皮尔逊和费舍尔所特有的激情和狂怒进行申辩和争辩。
在1960年以前,几乎所有的统计书刊都避免使用贝叶斯学派方法,Fisher坚持避免使用贝叶斯定理,并在他的最后一本书中再一次坚决的拒绝了它。卡尔-皮尔逊偶然使用,总的来说是避免的。奈曼和E.S.皮尔逊在他们有关假设检验的文章中坚决反对使用。
编辑本段(二)近代统计学
近代统计学指的是18世纪末到19世纪末的描述统计学,其发展过程与概率论的广泛研究和应用密切相关。目前在统计分析中经常使用的一些基本方法和术语都始于这一个时期,比如:最小平方法、正态分布曲线、误差计算等等。
在近代统计发展的一百年中,也形成了许多学派,其中以数理统计学派和社会统计学派最为著名。数理统计学派的原创始人是比利时的A"凯特靳,其最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究;社会统计学派的首倡者是德国的K"克尼斯,他认为统计研究的对象是社会现象,研究方法为大量观察法。在近代统计学的发展过程中,这两学派的矛盾是比较大的。