量的资料的统计与分析

  chw ·  2007-08-19 18:05  ·  53343 次点击
量的资料的统计与分析
对研究获得的有效内容进行统计处理,使其成为用数据形式和数据表现形式的研究材料,以数量化的方式说明研究结果,称为研究结果的定量描述。研究结果的定量描述可以更有效和准确的反应问题。例如,某学校三年级的期中数学测验后,知道其中一位学生的成绩为90分。仅仅有这个分数,很难说明该同学的成绩在这个年级中是否属于优秀。如果用统计处理,可以计算出全年级数学平均成绩为76分,标准差为7分。这样就可知该学生高于平均分数2个标准差,或该学生的成绩高于全年级95%的学生。可见,经过统计处理可以有效而准确的说明情况。
在教育科学研究中,研究结果定量描述的数学工具是教育统计。教育统计主要用于研究内容的分类整理、编制数据的各种图表、定量分析和由样本推论总体等。对研究数据使用统计方法,进行变量之间关系或规律性的分析、推论,形成量化描述,增加了解释教育科学问题的科学性和有效性。统计分析还可以训练科学思维方法,使研究者逐步形成科学推理和抽象思维的方式和习惯。
近年来,定性研究方法(例如,深度访谈法、参与观察法等)也要求对收集来的数据资料进行相应的统计分析。所以不懂统计方法,难以了解他人的研究进展,也难以确定自己的研究方向并进行深入的研究。
教育统计在教育科研中的运用
(一)教育统计的基本内容
教育统计,就是应用数理统计学的一般原理和方法,对教育科研和教育实践中所获得的数据,进行整理、计算、分析与解释。其主要内容包括以下两个方面:
1.描述统计
描述统计,就是将数据资料加以整理、简缩,使之有序化,制作成次数分布表或分布图;或根据数据的分布特征,如集中趋势、离中趋势、相关强度等,计算出平均数、标准差、相关系数等概括性的统计量数,以便人们从杂乱的原始数据中获得有意义的信息,进行比较,作出结论。
2.推断统计
推断统计,是从样本统计量来推断它来自总体的特性,并标明可能发生的误差的统计方法。在现实的教育研究中,限于人力物力,总是从总体中抽取出有代表性的样本,然后从样本统计量对总体的特征进行推断,即进行相应的“显著性检验”等统计分析工作。在推断统计的基础上,研究者将对所研究的问题做出自己的解释、预测或估价。
虽然统计方法是教育科学研究的重要工具、方法,但是不可以用工具、方法代替研究本身,那种以为“统计万能”的思想是片面的、不正确的。作为教育科学研究的重要工具,高水平的有创意的研究如果没有适当的统计分析方法的辅助,就不能显示其高水平、创造性。但是统计分析本身并不决定研究的科学价值。“现代”的统计分析方法也不可能提高低劣水平的研究。
统计分析要与定性分析相结合,没有这样的结合不能很好的实现和有效的推动教育科学研究工作。例如,统计分析是为了揭示数据的特征和规律性,这种定量分析的方向、范围必须要由定性分析来规定,而不是由研究者随意确定的。统计分析的进行需要依据一定的方法和公式,这些方法和公式的选择需要研究者具备一定的教育科学的专业知识。否则,统计分析只是在数据上绕圈子,进行数学游戏,而不具有任何教育科学研究的意义。此外,统计分析得出的规律(或特征)也需要借助于教育科学理论才能正确地解释。
研究结果的初步整理
(一)数据的分类
研究数据是被研究事物的各种特征(或称变量)的数量事实(或称数量化形式)。数据的分类指根据研究的目标、任务,运用统计方法,将收集的研究材料按照研究对象的不同特点,进行归类分组、整理筛选,并记为数据形式的过程。
1.结果数据的类型、总体
教育科学研究中,一些研究材料收集方法(如实验、观察、问卷调查等)获得的信息内容或测量结果是大量的,而且具有不同的层次、性质和一定的随机性。这些大量的随机性的内容又称为变量,一般,将它们分为称名变量、顺序变量、等距变量和等比变量四种类型。四种变量在性质上具有递进的关系,即适合前一种变量的统计方法也能用于后一种变量,反之则不然。
总体是具有某种特征的一类事物的全体,构成总体的每一个基本元素称为个体,在总体中按一定规则抽取一部分个体,称为总体中的一个样本。总体有大有小,随所研究的对象而变,构成总体的个体不限于人或物,也可指心理活动、推理能力、学习方法、反应时间等等。总体的性质与总体中的所有个体的性质、组合方式有关,了解总体的性质应该对总体的每一个个体都进行观测,但实际上,这是做不到的,只能从总体中抽取一部分个体做为样本,对样本进行分析,然后推知总体。
2.数据整理
数据审核指两个方面的内容:研究的总体和个体。
从研究总体看,应该检查达到研究目的所要求的各个方面的资料、数据是否收集齐备。审核被试个体的资料、数据,检查每一个被试的资料、数据有无缺失或遗漏,有无前后矛盾之处,结果登记中是否存在错行、错号等问题。
质量审核的方法有两种:计量审核和逻辑审核。计量审核即核查研究数据资料中各项计量资料。数据是否有错误或矛盾的地方,其中包括计量关系是否正确、计量单位是否一致等。例如,参加教育科学实验的被试人数应等于各年龄组被试的人数之和,也应等于男、女被试人数之和。
逻辑审核方法是指检查研究数据斗资料的内容是否合于逻辑,有无不合理的地方。例如,有一调查问卷的题目只限女性被试回答,但一些男性被试也作答,这显然是不合理的。
按照上述两种方法对研究数据、资料进行质量审核,对于一些有明显错误的资料和数据,应深入调查,追究其原因,尽量加以纠正。如果无法纠正,在不影响抽样效果,保证研究数据资料具备一定条件(一般规定为80份以上,某些研究要求样本的95%以上)的基础上,应对这些错误结果予以剔除。
通过对研究数据的分类整理过程,可以得到的一组或多组有序的数据,这些数据具有一定的分布特性。教育科学研究中常见的数据分布有正态分布、二项分布、t分布、F分布和χ2分布等等。

5 条回复

sq2152  2008-12-13 14:38
tai duo lia
chw  2007-08-19 18:21
因为t=2.31t(df)0.05,从上表可知,概率P≤0.05时,μ和μ0之间的差异显著。因此可结论为:拒斥H0:μ=μ0,而肯定H1:μ≠μ0,又因 >μ0,故结论表明新教材实验有成效。
如果是依两组样本平均值 1和 2的差异程度,检验它的代表的两总体平均数,μ1和μ2是否有差异,其检验统计量t的计算公式为:

如果是按同一组样本不同情况的测试所得的平均值 1和 2
来检验μ1和μ2的差异程度,其计算公式为:

式中,D为两次测试中每对分数之差即D=X2-X1。
③χ2检验
Z检验与t检验,通常用于计量资料的分析,而在教育研究中还常有计数资料,如按品质分类,然后按类评等计数,如优良中差,甲乙丙丁,或同意、反对、弃权等。这种计算资料检验就要利用χ2检验的方法。χ是希腊字母,读chi ,通常把χ2读作“卡方”。χ2检验是通过对所得的计数资料与依据某种假设而确定的理论次数二者之间的差异来进行检验的。χ2值是检验实测次数与理论次数之间差异程度的指标。两者相差越大,χ2值就越大;两者越接近,则χ2值就越小:如果两者完全相同,那么χ2值就等于零,χ2值永远是非负值。
例 某校在本校高一重点班与非重点班分别抽取100名学生,对他们的英语口语能力作出检测、评价,结果如下表,试检验两班差异程度是否显著。
(R)行 (L)列 评价结果 合计
优 良 中 差
重点 20(13.6) 40(40.9) 30(31.8) 10(13.6) Na=100
非重点 10(16.4) 50(49.1) 40(38.2) 20(16.4) Nb=120
合计 N1=30 N2=90 N3=70 N4=30 N=220

检验步骤:
①提出零假设:H0:该两班英语口语能力无差异
②确定自由度,根据列联表自由度公式:df=(R-1)×(L-1),求出自由度为:df=(2-1) ×(4-1)
③计算R行与L行的理论次数,计算公式为:

将计算出来的理论次数填入上表相应的实际次数旁边的括号内。
④根据公式,χ2值。


缩节《χ2值表》
Df 0.05 0.01 0.005
1 3.814 6.635 7.88
2 5.995 9.210 10.60
3 7.815 11.345 12.84
4 9.488 12.299 14.86
5 11.070 15.067 16.76

⑤作出判断,先查出《χ2值表》理论χ2值,再从上表可知当df=3时,χ20.05=7.815,一般写成: χ2(3)0.05=7.815。将实测χ2值7.415与理论χ2值7.815比较,可以得出: χ2<χ2(3)0.05
再根据下表作出结论。
χ2值与P值及差异显著性的关系
χ2 P 差异显著性
χ2>χ2(df)0.01 P<0.01 差异非常显著
χ2≥χ2(df)0.05 P≤0.05 差异显著
χ2<χ2(df)0.05 P≥0.05 差异不显著

由上表可知,当χ2<χ2(3)0.05 ,P0.05,差异不显著。因而作出“接受零假设H0”的结论。这表明,高一重点班与非重点班英语口语水平无显著差异.
chw  2007-08-19 18:17
1.统计检验的原理与方法
(1)统计检验的基本原理
统计检验的理论依据是概率论中的“小概率事件实际上的不可能性”原理。所谓“小概率事件”,即假定某个事件在实验中出现的概率很小,则在一次实验中,该事件实际上是不会出现的,例如,把小于0.05或0.01的概率,视为“小概率”。
(2)统计检验的一般方法
一般来说,统计检验先对总体的分布规律作出某种假说,然后,根据样本提供的信息,对假说作出肯定或否定的决策。具体步骤为:
①提出假设。如“假设两个总体平均数没有差别”,其数学符号为:“H0:μ1=μ2”,这种对总体所作的“无差别”的假设,称为“零假设”或称虚无假设,用符号“H0”表示。与此同时实际上存在第二种假设,“两个总体平均数有差别”,其符号为:“H0:μ1≠μ2”,称为备择假设。显然,“零假设”与“备择假设”是两个对立的假设,肯定此,必否定彼。
②根据不同条件和样本提供的信息即数据,从零假设出发,代入相应的公式,计算出零假设的概率。
③作出统计决断,根据“小概率事件实际上不可能性”原理,研究Ho成立的概率。如果H0的概率P<0.05,表示零假设不是一个小概率事件,则H0成立,便否定被择假设H1从而定“μ1=μ2”。如果H0的概率p≤0.05,表明是个小概率事件H0不成立,就肯定备择假设H1的成立,从而确定“μ1≠μ2”。
(2)统计检验的具体操作
①Z检验
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
例 1987年上海市初中三年级语文教学调查中,对男女生语文测试成绩作如下统计,试检验男女生语文成绩是否存在显著差异,

性别 人数 总分 阅读 写作
平均分 标准差 平均分 标准差 平均分 标准差
男 167 113.74 20.95 71.64 15.11 42.12 9.73
女 159 118.52 19.09 74.87 14.01 44.43 8.83
差值 |Z| 2.15 2.00 2.27

抽取的两个样本均大于30,属两个独立大样本平均数差异的显著性检验,用Z检验。
检验步骤:
①提出零假设z:H0: μ1=μ2即假定男女写作、阅读及读写总
分均无显著差异,现在的差异是抽样误差所致。
②计算统计量,代人Z值公式

③计算出的Z值与下表进行对照,作出判断:
Z P 差异显著性
<1.96 >0.05 差异不显著
≥1.96 ≤0.05 差异显著
≥2.58 ≤0.01 差异极显著

因为|Z写|=2.27,显然, |Z写|>1.96,表明概率P≤0.05,男女生写作成绩差异显著。
因为|Z读|=2.00,显然,|Z读|>1.96,表明概率P≤0.05,男女生阅读成绩差异显著。
因为|Z总|=2.15,显然, |Z总|>1.96,表明概率P≤0.05,男女生 语文成绩差异显著。
④结论:当P≤0.05时,拒斥H0,肯定H1,1987年调查说明上海市初三语文成绩男女生存在显著差异,女生高于男生。

②t检验
t检验是用于小样本(样本容量小于30)时的平均值差异程度检验方法。它是用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
例 某校初一年级抽出一组20人,对数学自学辅导教材进行试验,期末全年级测试平均成绩为70分,而这20人的平均分为 =77.7,标准差为15,试检验实验效果。
本例随机抽样样本容量为20人,属小样本,因此适用t检验。所谓检验实验效果,就是以样本(20人)的平均数文与某已知总体平均数μ。之间的差异程度,来检验样本所取自(所代表)的总体的平均数μ与μ0,是否有差异。
检验步骤:
①提出零假设: H0:μ=μ0,即假定样本所代表的总体平均数与已知平均数无显著差异,如有差异仅是抽样误差所致。本题μ0=70分
②计算检验统计量t值。用如下公式

式中, =样本平均数77.7;μ0=已知总体平均数70;
s=样本标准差15;n=样本容量20,代人公式得

③作出判断。与正态分布曲线不同,t 分布的曲线形式随自由度大小而不同。“自由度”记作“df”。作总体平均数的假设检验时,统计量t的自由度df=n-1。据此,本题的df=20-1=19。查t值表,得出理论t值为:
t(19)0.05=2.093
再与计算所得t值比较可得:t>t(19)0.05
依据《t值与差异显著性关系》表,推断H0发生的概率,作出结论。
t值与差异显著性关系
t P 差异显著性
<t(df)0.05 >0.05 差异不显著
≥t(df)0.05 ≤0.05 差异显著
≥t(df)0.01 ≥0.01 差异十分显著

因为t=2.31t(df)0.05,从上表可知,概率P≤0.05时,
chw  2007-08-19 18:11
标准分数,又称Z分数,它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的离差除以标准差所得的量数,其符号为“Z”.例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。Z1=(70-70)/8=0 Z2=(57-55)/4=0.5 Z3=(45-42)/5=0.6这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。
相关系数
在教育研究中,常涉及到两个事物(变量)的相互关系问题,例如,学习成绩与非智力因素的关系,数学成绩与物理成绩的关系,男女生学习成绩的关系,等等。其关系表现为以下三种变化;第一,正相关:一个变量增加或减少时,另一个变量也相应增加或减少;第二,负相关:一个变量增加或减少时,另一个变量却减少或增加;第三,无相关:说明两个变量是独立的,即由一个变量值,无法预测另一个变量值。统计学中,就用“相关系数”来从数量上描述两个变量之间的相关程度,用符号“r”来表示。相关系数取值范围限于:-1≤r≤+1
相关系数表示的意义
相关系数(r) 0.00 0.00-±0.3 ±0.30-±0.50
相关程度 无相关 微正负相关 实正负相关
相关系数(r) ±0.50-±0.80 ±0.80-±1.00
相关程度 显著正负相关 高度正负相关
例:某语文实验班随机抽10名学生,参加市里的语文数学竞赛,其成绩如下表,求这两门成绩的相关系数。
10名学生语文与数学相关系数计算表
语文X 数学Y x=X-X x2 y=Y-Y y2 xy
58 68 4.7 22.09 1080 3.42 8.46
41 67 12.3 151.29 0.80 0.64 9.84
49 53 4.3 18.49 13.20 174.24 56.76
57 55 3.7 13.69 11.20 125.44 41.44
62 80 8.7 75.69 13.8 190.44 120.06
46 65 7.3 53.29 1.2 1044 8.76
48 58 5.3 28.09 8.2 67.24 43.46
59 67 5.7 32.49 0.8 0.64 4.56
53 77 0.3 0.09 10.8 116.64 3.24
60 62 6.7 44.89 4.2
∑ 533 622 440.10 697.69 159.4

相关系数的计算公式是由英国统计学家皮尔逊提出的“积差相关”公式:
公式中,r=X与Y两数列之间的相关系数;
x=X- 支,即X数列中各量数与其平均数之差;
y=Y- ,即Y数列中各量数与其平均数之差;
Sx=X数列的标准差;
Sy=Y数列的标准差;
∑xy=各对离差积的总和;
N=成对量数的次数,即总对数。
计算步骤:
1.先计算出∑X、∑Y、X、∑x2、Y、∑y2、∑xy分别填入表。
2.求X和Y的标准差


3. 求语文数学两门.成绩的相关系数:

4.r=0.29在0与+0.3之间,属于微正相关,说明这10名学生的语文成绩与数学成绩就样本本身而言,是有一定相关的。
如果用的是等级评分法,就不宜用积差相关公式,而要用英国统计学家斯皮尔曼提出的等级相关公式:
式中,rR=斯皮尔曼等级相关系数;D=各对X与Y的差数,N=总对数。
统计检验及其应用
统计检验,就是对样本的特征量能否反映总体特征的问题,或两种不同样本数量标志的参数的差异性问题,作出定量分析与推断。
chw  2007-08-19 18:08
(二)统计表
统计表是用来表示统计指标与被说明的事物之间数量关系的表格。编制统计表的原则是:结构简单,层次清楚,重点突出,一目了然,表的项目按照逻辑顺序合理排列,避免包罗万象。统计表一般由表号、标题、标目、线条、数字、表注等项内容构成。
统计表一般分为简单表、分组表和复合表三种。简单表:只列出研究对象(或变量)名称、地点、时序、或统计指标名称的统计表。分组表:只按一个标志分组的统计表为分组表。复合表:按两个或两个以上标志分组的统计表为复合表。统计图是整理数据的一种方法,它把数量关系以直观形象的形式表达出来,显示事物的全貌及其分布特征,一目了然,便于理解,印象深刻,容易记忆。统计图由标题、图号、图形、坐标、图注等项组成。常用的统计图形有条形图、线形图和圆形图等。
次数分布的表和图是规范的统计表与统计图。次数分布也称为频数分布,指的是一批数据中各个不同数值所出现的次数情况,或者各种随机事件在n次实验中出现的次数分布(或频数分布)情况。编制次数分布表的主要步骤:求全距、决定组数、确定组距、确定组限和计算组中值、归类和登记。次数分布表分为简单次数分布表和累积次数分布表。累积次数分布表的编制步骤与简单次数分布表大致相同。不同之处在于,登记次数时从数值最小的一组开始,每上升一组,必须把以下各组的次数(频数)累积起来,然后进行登记。通常使用的次数分布图有两种:次数直方图和次数多边图。累积次数分布图分直方图和曲线图两种,常用的是累积次数曲线图。累积次数曲线图的形状不会由于组距的不同,而使图形发生较大的变化,因而抽样数据制成的累积次数曲线图比较稳定。
(三)集中趋势的描述
描述集中趋势的统计量,叫做“集中量数”,简称“集中量”。常用的集中量数有三种:算术平均数,中(位)数和众数。这里就某实验组和对照组某次考试的原始数据为例作些说明。
(1)算术平均数,简称平均数、均数或均值。其符号为“ ”(读作X杠),它起着衡量一定数据的集中趋势和大致水平的作用,是最常用的集中量。
(2)中数(符号为Mdn),是依一定顺序(如由大到小)排列的一组数据居中间位置的一个点的数值,所以又叫中位数。如果数据个数N为奇数时,中位数的位置在(N+1)/2处,若N为偶数,就以居中的两个数据的平均数作中位数。
(3)众数(符号为“M0 ”),指一组数据中出现次数最多的那个数值。在众数甚至没有的情况下,一般可看众数段,即哪个分数段的次数多,就以该段中点值作众数。
以上三个集中量中,平均数是无偏的客观量数,又最便于代数运算法则处理,从样本数值推断总体集中量时,平均数比中数、众数可靠,其缺点是易受两极端数值的影响。
(四)数据分散程度的描述----差异量数
差异量数是描述次数分布中“离中趋势”这一特征的统计量,简称“差异量”。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋势大,则集中量的代表性就小。但是,仅考虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有全距、平均差和标准差。
(1)全距(符号为“R”),指一组数据中由最大量数到最小量数的距离。R小说明离散程度小,比较整齐。
(2)平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通常用A.D.表示。平均差的计算公式为:

(3)标准差,指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根,其符号为“S”(样本标准差)、“σ”(总体标准差)。S 越大表明离散程度越大,数据不均匀,集中量的代表性小。
相对位置数
平均值与标准差用来考察与分析同质的统计资料是有价值的,但对于不同质的考试,如不同学科、或同一学科不同考试意义就不大。这样就要计算相对位置量数。相对位置量数有百分等级与标准分数两种。这里就常用标准分数作些介绍。
标准分数,又称Z分数,它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的离差除以标准差所得的量数,其符号为“Z”.例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别

 回复

你需要  登录  或  注册  后参与讨论!