教育评价与测量

最常用的统计量有三类：

一类是代表一组数据典型水平或集中趋势的量，即集中量；另一类是反映

一组数据的变异程度或离散程度的量，即差异量第三类是反映数据的相

关程度的量，即相关量。

集中量是代表一组数据典型水平或集中趋势的量。常用的集中量有平均数、

中位数和众数

随机变量的分类：测量数据按其是否等距和有无绝对零点，又可细分为下述

四种测量水平：（1）有相等单位又有绝对零点的数据称为比率变量，如身高、体重、反应时、各种感觉阈值的物理量。（2）有相等单位但无绝对零点的数

据，称为等距变量，如温度、各种能力分数、智商等。（3）既无相等单位，

也无绝对零点，仅表示顺序，不能指出其间的差别大小的数据，称为顺序变

量。如等级评定、品质等级等等。（4）既无相等单位，也无绝对零点，仅表

示其名称的变量，称为称名变量。如名字、学号等等。

1、次数次数是指某一事件在某一类别中出现的数目，又称为频数，一般用

符号f表示。

2、频率又称相对次数，即某一事件的次数被总的事件数目除，亦即某一数

据出现的次数被这一组数据数目的总数除。频率常用比例来表达，有时也用

百分数表示。f/N

3、概率又称机率或然率，常用符号P表示。是指某事件在无限的观测中所能

预料的相对出现的次数。概率常用比例表示。

测定的观测值与真值之差称为误差.误差可分为随机误差、系统误差和抽样误

差三种类别。

随机误差指由与究目的无关的难以控制的偶然因素所引起的误差。

系统误差指由与研究目的无关的因素所引起的有规律性的误差。

抽样误差指由于抽样而产生的误差。抽样误差属于随机误差的范畴，由于它

在统计中的重要地位，所以人们专门列条陈述。

平均数特点①离均差之和等于0。

②在一组数据中,每一个数都加上一常数c,则所得的平均数为原来的平均数

加常数C。

③在一组数据中,每一个数都乘以一个常数c,则所得的平均数为原来的平均

数乘以常数C。

加权平均数

（1）加权平均数的概念

加权平均数是不同比重数据（平均数），

W表示各观察值的权数；X表示具有不同比重的观察值。

平均数、中数、众数之间的关系：

1、在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合。

2、在正偏态分布中M>Md>M。

WX在负偏态分布中M

数轴保持平衡，即支点两侧的力矩是相等的。 Wi

中数：只使其两侧的数据个数相同。众数：是指次数出现最多的，即重

量较大的那个数据。

方差称变异数、均方。作为统计量，常用符号S2,δx2表示，作为总体参数，常用符号δ2表示。

标准差即方差的平方根，常用S或SDδx表示。若用δ表示，则是指总体的

标准差。

方差与标准差的意义：方差与标准差是表示一组数据离散程度的最好指标，

其值越大，说明离散程度大，其值小，说明数据比较集中，它是统计描述与

统计分析中最常应用的差异量数。

它基本具备一个良好的差异量数应具备的条件：（1）反应灵敏；（2）有一定

的计算公式严密确定；（3）容易计算；（4）适合代数运算；（5）受抽样变动

的影响小，即不同样本的标准差或方差比较稳定；（6）简单明了；（7）具有

可加性。

标准分（1）概念：标准分是将原始分数（测验分数）与平均分数相减，再除

以标准差所得的商。

标准分特点标准分是以标准差为单位的，故称为标准分。它是一种相对地位

分，即表明原始数据在团体分布中的地位。

1、标准分有正负之分，一般在[-3，3]中（几率为99.74%) 。2、标准分的平

均数为0，标准差为Z1。 XX

3、标准分可比性根据在于标准正态分布。

标准分数Z的变换

标准分数有广泛的应用。大学英语水平考试采用标准分数量表。在实际应用

中，通常把标准分数Z通过线性变换，转到更大的标准分数量表上，其一般

转换公式为：论 T=a+bZ

上式中，a和b为选定的两个常数，Z为标准分数，T为线性变换的标准分数。

如：

①教育与心理测验中的T分数：T=50+10Z ②韦氏智力量表智商（离差智商）：IQ=100+15Z

③美国大学入学考试报告分数：CEEB=500+100Z ④美国教育测验中心举办

“托福”考试：TOEFL=500+70Z

教育测量的概述：测量是根据法则给事物赋予数量。

测量的三要素（参照点、单位、量具）

1、参照点：为测定事物的量，事先确定的计量起点

绝对零点：计量起点在内容丝毫不存在一点量

相对零点：共同约定的零点作为测量的起点（不存在倍数关系）

2、单位：实施测量必须有统一的单位

具有明确的意义，即：大家对同一个单位的理解一致

测量过程中单位“距离”的不变性，即：单位的实际价值处处相同

3、量具：测量工具

具有准确性具备操作的简约性

教育测量工具：试卷  测试题  重视命题的研究

量表：根据测量目的所设计的测试项目和赋值规则

教育测量就是对教育领域内的事物或现象，根据一定的客观标准，作缜密地

考核，并依一定的规则将考核的结果予以数量描述。如对学生的思想品德、

健康状况、学业成绩等的测量。

特点：1、间接性和推断性2、测量对象的模糊性和测量误差的不可避免性3、量表的多样性，结果具有相对抽象性

量表的类型1.称名量表

类别量表，最低层次的量表，用于分类，表示事物的不同类别和性质

用数字表示每一个研究个体：学号、准考证号

用数字代表事物的类别：“1”、“0”表示“好”、“坏”

2. 顺序量表也称位次量表，根据事物的特性和设定的法则在分类的基础

上确定同类客体中各元素之间的相对顺序

只关心研究对象的顺序，不问津间距是否一致合格与否、优良中差等

3. 等距量表

间距量表，在赋值时有相等的度量单位，采用相对零点，被测所对应的测量

值由明确的距离关系

原始测验分数经过统计处理后推导出一种新的量表分数，此分数的“零点”

是一个相对零点

4. 比率量表

具有等距量表的一切性质，采用绝对零点。

针对总体而不是样本

不但能确定一个被测比另一个被测大（小）多少，而且还能得出其间的倍数

关系

教育测量的种类1、形成性测验2、诊断性测验3、终结性测验

1、最佳行为测验以测量被试的最佳行为表现为目的。凡是以成就或能力的

高低行为评价基础的，都属最佳行为测验。

2、典型行为测验典型行为测验目的不在测评被试能力的高低，而是测评

其是否具备某种典型行为。

按测验的内容分类

1、智力测验目的在于测量被试的智力并对被试的智力发展水平和特点作

出评价。

2、能力倾向测验

目的在于测量与评价个人的潜在才能，预测个人能力发展倾向。分为两种：

一是关于能力测验；一是特殊能力倾向测验。

3、成就测验

目的在于测评个人在接受教育或者训练后的成就。常见的两种：一是学科成

就测验；一是综合成就测验。

4、人格测验

也称为个性测验，其目的在于测评被试的人格心理特征。本测量与评价所涉

及的内容层面也很多。

良好测验的特征

一、可靠性（信度）二、有效性（效度）三、难易性（难度）和鉴别性（区

分度）四、实用性（可操作性）

学习教育统计测量的意义

（1）认识教育现象，了解教育规律；（2）顺利阅读教育科研报告和文献，指

导教育科研；

（3）有效地检查和评价教学，科学地选拔人才；（4）提高教育工作的科学性

和效率。

提高测验信度的方法：

第一，测题要有一定数量。题目较少，测题抽样越受偶然性影响信度也越低。第二，测题难度要适中。难度太大或太小得分普遍高或普遍低，就会降低信

度。第三，测题内容要单纯集中，不宜过于庞杂。

第四，测验时间要充分。第五，评分要客观。

内容效度：测验题目样本对于应测内容与行为领域的代表性程度。逻辑分析

结构效度：测验反映某种理论构想的准确性程度。因素分析

内容效度与结构效度一般没有适当的计算方法。效标关联效度一般用积差相

关系数表示，如，求出入学测验分数与期末测验分数的相关系数。效度指标

一般认为在0.6以上是有效测验。

效标关联效度：测验对于特定情境下个体行为进行预测的有效性程度。相关分析

效标：判断测验效度（预测有效性）的外部标准。

一个测验要具有较高的内容效度必须具备两个条件：

1、测验内容范围明确

2、取样具有代表性

提高测验信、效度的方法

第一，要控制系统误差，即控制测验过程的误差，包括：测量标准的失真，

题目的复杂现象，题目与指导语有暗示性，答案具有明显的规律性。第二，

精心编制测题，分析教学目标，编制双向细目表，测题表述简明易懂，测题

有必要的覆盖面。第三，妥善组织测验等。

测验的编制与实施

题目类型：选择题、填空题、判断题、简答题、论述题

标准化测验编制的一般程序

教师自编测验

判断题其模式是提供一个陈述句，让考生判断是非、正误，故亦称是非题或

正误题。学生得分的偶然性大，所以判断题一般用于低年级。

编制判断题的操作要则：①测题含义必须单一明确，不能有歧义。②答案必须明确，并且是无可争议的。同一题中避免使用两个矛盾的概念。③叙述语言简明、不含混，减少读题干扰。

④避免使用暗示性词语。⑤应避免使用否定词，尤其不用双重否定词。⑥全部答案对与错的比例应大体相等。⑦测题次序应随机排列，不应有任何规则，⑧尽量不直录教材原文，不得已用时，措词要重新组织。

选择题优点：

1、可以测量学生多种层次的学习结果2、评分标准统一、客观，有利于提高评阅的速度3、允许较大的试题容量，可以保障题目的覆盖范围和代表性4、可根据学生对似真选项的选择情况进行诊断

缺点：1、无法了解被试作答时的思维过程2、难以考核被试的综合能力3、具有似真性的干扰选项有时不好编制4、存在猜中答案的几率

编制原则：1、题干意义完整，问题表述明确2、题干及选项的语言均应简明

3、诱答项应具有似真性4、同一测验中各题目应尽量保持独立，避免相互牵连5、正确答案不能有明显组型

填空题特点：主要用于考察被试对基本知识的记忆和理解能力。受被试猜测影响小，评分较客观。无法测量高级的学习结果。使用过多容易造成被试的死记硬背。

编制原则：1、题意要明确，限定要严密，以保证空白处应填答案的唯一性。

2、题目中空白部分以一处为宜，过多则使题干支离破碎。3、所有空白处的线段长度应一致，避免产生暗示作用。4、若答案是数字，应指明单位或数字的精确程度。

匹配题：其模式是由若干匹配项与选择项两部分组成。其形式有：连线式(将一组词句、段落依据规定的顺序排列起来)、归类式(按某一标准把有关选项归入匹配项)等。

编制匹配题的操作要则：

①匹配项与选择项不应是一对一的，选择项要多于匹配项，以减少学生猜答的可能性。②允许同一选项多次使用，当然也可以有的选项不被选用，以降低猜对的概率。③连线匹配题，分开两组的各项目的性质必须一致，以增加迷惑性。④选择项一般控制在10项以内，太多会增加学生的心理负担，⑤正确的答案要随机排列。⑥一题的所有匹配项与选择项要安排在同一页上，尤其是连线式的，以减少考生答案的麻烦。

简答题特点：适合于考察被试对基本知识、概念和原理的掌握、记忆情况。编制简单、灵活。

编制原则：问题叙述清楚、明确。

答案要简短具体，使被试可以用简洁的语言来回答，避免繁琐的计算和长篇大论。

避免只出机械记忆性的题目，应注重知识的应用。

论述题优点：1、可以用来对高层次、复杂学习结果的测量。2、可以增进学生的思考、应用及解决问题的能力，对于被试的学习态度和学习方式可以产生积极的影响。3、试题编制相对容易，可以增进被试的写作能力。

缺点：1、论述题一般都是大题，因此在一次考试中试题的取样范围比较小，且分布不均匀，难以做到全面考察。2、评分的主观性强。即使有参考答案和评分标准，但因被试的回答自由，回答问题的方向也不尽相同，评分的主观性仍难以避免。3、被试作答和评分阅卷均较为费时。

操作题：操作题是测量考生实际能力的新题型。其局限是：题目同质困难，评分不易客观，

编制操作题的操作要则：

①应以测量本学科基本知识基本技能的实际应用能力为内容。②测题应是同质同级、难易相仿的，以保证评分的公平性。③测题内容覆盖面要宽，数量要多，由考生随机抽取。④一个测题只能由一个考生来做，不能一个题目先后由几个考生来做。⑤操作的内容、形式、完成时间要有明确交代。⑥要准备好操作所必需的材料。

编制测验的一般步骤

1、确定测验目的2、分析教育目标（编制双向细目表的一般步骤）3、测验取材并编拟题（遵循的要求）

4、试测与分析（项目分析的步骤）5、编制测验

教育评价与测量

相关文章