教育评价与测量

最常用的统计量有三类:

一类是代表一组数据典型水平或集中趋势的量,即集中量; 另一类是反映

一组数据的变异程度或离散程度的量,即差异量 第三类是反映数据的相

关程度的量,即相关量。

集中量是代表一组数据典型水平或集中趋势的量。常用的集中量有平均数、

中位数和众数

随机变量的分类:测量数据按其是否等距和有无绝对零点,又可细分为下述

四种测量水平:(1)有相等单位又有绝对零点的数据称为比率变量,如身高、体重、反应时、各种感觉阈值的物理量。(2)有相等单位但无绝对零点的数

据,称为等距变量,如温度、各种能力分数、智商等。(3)既无相等单位,

也无绝对零点,仅表示顺序,不能指出其间的差别大小的数据,称为顺序变

量。如等级评定、品质等级等等。(4)既无相等单位,也无绝对零点,仅表

示其名称的变量,称为称名变量。如名字、学号等等。

1、次数 次数是指某一事件在某一类别中出现的数目,又称为频数,一般用

符号f表示。

2、频率 又称相对次数,即某一事件的次数被总的事件数目除,亦即某一数

据出现的次数被这一组数据数目的总数除。频率常用比例来表达,有时也用

百分数表示。f/N

3、概率又称机率或然率,常用符号P表示。是指某事件在无限的观测中所能

预料的相对出现的次数。概率常用比例表示。

测定的观测值与真值之差称为误差.误差可分为随机误差、系统误差和抽样误

差三种类别。

随机误差指由与究目的无关的难以控制的偶然因素所引起的误差。

系统误差指由与研究目的无关的因素所引起的有规律性的误差。

抽样误差指由于抽样而产生的误差。抽样误差属于随机误差的范畴,由于它

在统计中的重要地位,所以人们专门列条陈述。

平均数特点①离均差之和等于0。

②在一组数据中,每一个数都加上一常数c,则所得的平均数为原来的平均数

加常数C。

③在一组数据中,每一个数都乘以一个常数c,则所得的平均数为原来的平均

数乘以常数C。

加权平均数

(1)加权平均数的概念

加权平均数是不同比重数据(平均数),

W表示各观察值的权数;X表示具有不同比重的观察值。

平均数、中数、众数之间的关系:

1、在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合。

2、在正偏态分布中M>Md>M。

WX在负偏态分布中M

数轴保持平衡,即支点两侧的力矩是相等的。 Wi

中数:只使其两侧的数据个数相同。 众数:是指次数出现最多的,即重

量较大的那个数据。

方差称变异数、均方。作为统计量,常用符号S2,δx2表示,作为总体参数,常用符号δ2表示。

标准差即方差的平方根,常用S或SDδx表示。若用δ表示,则是指总体的

标准差。

方差与标准差的意义:方差与标准差是表示一组数据离散程度的最好指标,

其值越大,说明离散程度大,其值小,说明数据比较集中,它是统计描述与

统计分析中最常应用的差异量数。

它基本具备一个良好的差异量数应具备的条件:(1)反应灵敏;(2)有一定

的计算公式严密确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动

的影响小,即不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有

可加性。

标准分(1)概念:标准分是将原始分数(测验分数)与平均分数相减,再除

以标准差所得的商。

标准分特点标准分是以标准差为单位的,故称为标准分。它是一种相对地位

分,即表明原始数据在团体分布中的地位。

1、标准分有正负之分,一般在[-3,3]中(几率为99.74%) 。2、标准分的平

均数为0,标准差为Z1。 XX

3、标准分可比性根据在于标准正态分布。

标准分数Z的变换

标准分数有广泛的应用。大学英语水平考试采用标准分数量表。在实际应用

中,通常把标准分数Z通过线性变换,转到更大的标准分数量表上,其一般

转换公式为:论 T=a+bZ

上式中,a和b为选定的两个常数,Z为标准分数,T为线性变换的标准分数。

如:

①教育与心理测验中的T分数:T=50+10Z ②韦氏智力量表智商(离差智商):IQ=100+15Z

③美国大学入学考试报告分数:CEEB=500+100Z ④美国教育测验中心举办

“托福”考试:TOEFL=500+70Z

教育测量的概述:测量是根据法则给事物赋予数量。

测量的三要素(参照点、单位、量具)

1、参照点:为测定事物的量,事先确定的计量起点

绝对零点:计量起点在内容丝毫不存在一点量

相对零点:共同约定的零点作为测量的起点(不存在倍数关系)

2、单位:实施测量必须有统一的单位

具有明确的意义,即:大家对同一个单位的理解一致

测量过程中单位“距离”的不变性,即:单位的实际价值处处相同

3、量具:测量工具

具有准确性 具备操作的简约性

教育测量工具:试卷  测试题  重视命题的研究

量表:根据测量目的所设计的测试项目和赋值规则

教育测量就是对教育领域内的事物或现象,根据一定的客观标准,作缜密地

考核,并依一定的规则将考核的结果予以数量描述。如对学生的思想品德、

健康状况、学业成绩等的测量。

特点:1、间接性和推断性2、测量对象的模糊性和测量误差的不可避免性3、量表的多样性,结果具有相对抽象性

量表的类型1.称名量表

类别量表,最低层次的量表,用于分类,表示事物的不同类别和性质

用数字表示每一个研究个体:学号、准考证号

用数字代表事物的类别:“1”、“0”表示“好”、“坏”

2. 顺序量表 也称位次量表,根据事物的特性和设定的法则在分类的基础

上确定同类客体中各元素之间的相对顺序

只关心研究对象的顺序,不问津间距是否一致 合格与否、优良中差等

3. 等距量表

间距量表,在赋值时有相等的度量单位,采用相对零点,被测所对应的测量

值由明确的距离关系

原始测验分数经过统计处理后推导出一种新的量表分数,此分数的“零点”

是一个相对零点

4. 比率量表

具有等距量表的一切性质,采用绝对零点。

针对总体而不是样本

不但能确定一个被测比另一个被测大(小)多少,而且还能得出其间的倍数

关系

教育测量的种类1、形成性测验2、诊断性测验3、终结性测验

1、最佳行为测验 以测量被试的最佳行为表现为目的。凡是以成就或能力的

高低行为评价基础的,都属最佳行为测验。

2、典型行为测验 典型行为测验目的不在测评被试能力的高低,而是测评

其是否具备某种典型行为。

按测验的内容分类

1、智力测验 目的在于测量被试的智力并对被试的智力发展水平和特点作

出评价。

2、能力倾向测验

目的在于测量与评价个人的潜在才能,预测个人能力发展倾向。分为两种:

一是关于能力测验;一是特殊能力倾向测验。

3、成就测验

目的在于测评个人在接受教育或者训练后的成就。常见的两种:一是学科成

就测验;一是综合成就测验。

4、人格测验

也称为个性测验,其目的在于测评被试的人格心理特征。本测量与评价所涉

及的内容层面也很多。

良好测验的特征

一、可靠性(信度)二、有效性(效度)三、难易性(难度)和鉴别性(区

分度)四、实用性(可操作性)

学习教育统计测量的意义

(1)认识教育现象,了解教育规律;(2)顺利阅读教育科研报告和文献,指

导教育科研;

(3)有效地检查和评价教学,科学地选拔人才;(4)提高教育工作的科学性

和效率。

提高测验信度的方法:

第一,测题要有一定数量。题目较少,测题抽样越受偶然性影响信度也越低。第二,测题难度要适中。难度太大或太小得分普遍高或普遍低,就会降低信

度。第三,测题内容要单纯集中,不宜过于庞杂。

第四,测验时间要充分。第五,评分要客观。

内容效度:测验题目样本对于应测内容与行为领域的代表性程度。 逻辑分析

结构效度:测验反映某种理论构想的准确性程度。 因素分析

内容效度与结构效度一般没有适当的计算方法。效标关联效度一般用积差相

关系数表示,如,求出入学测验分数与期末测验分数的相关系数。效度指标

一般认为在0.6以上是有效测验。

效标关联效度:测验对于特定情境下个体行为进行预测的有效性程度。 相关分析

效标:判断测验效度(预测有效性)的外部标准。

一个测验要具有较高的 内容效度必须具备两个条件:

1、测验内容范围明确

2、取样具有代表性

提高测验信、效度的方法

第一,要控制系统误差,即控制测验过程的误差,包括:测量标准的失真,

题目的复杂现象,题目与指导语有暗示性,答案具有明显的规律性。第二,

精心编制测题,分析教学目标,编制双向细目表,测题表述简明易懂,测题

有必要的覆盖面。第三,妥善组织测验等。

测验的编制与实施

题目类型:选择题、填空题、判断题、简答题、论述题

标准化测验编制的一般程序

教师自编测验

判断题 其模式是提供一个陈述句,让考生判断是非、正误,故亦称是非题或

正误题。学生得分的偶然性大,所以判断题一般用于低年级。

编制判断题的操作要则:①测题含义必须单一明确,不能有歧义。②答案必须明确,并且是无可争议的。同一题中避免使用两个矛盾的概念。③叙述语言简明、不含混,减少读题干扰。

④避免使用暗示性词语。⑤应避免使用否定词,尤其不用双重否定词。⑥全部答案对与错的比例应大体相等。⑦测题次序应随机排列,不应有任何规则,⑧尽量不直录教材原文,不得已用时,措词要重新组织。

选择题优点:

1、可以测量学生多种层次的学习结果2、评分标准统一、客观,有利于提高评阅的速度3、允许较大的试题容量,可以保障题目的覆盖范围和代表性4、可根据学生对似真选项的选择情况进行诊断

缺点:1、无法了解被试作答时的思维过程2、难以考核被试的综合能力3、具有似真性的干扰选项有时不好编制4、存在猜中答案的几率

编制原则:1、题干意义完整,问题表述明确2、题干及选项的语言均应简明

3、诱答项应具有似真性4、同一测验中各题目应尽量保持独立,避免相互牵连5、正确答案不能有明显组型

填空题特点:主要用于考察被试对基本知识的记忆和理解能力。受被试猜测影响小,评分较客观。无法测量高级的学习结果。使用过多容易造成被试的死记硬背。

编制原则:1、题意要明确,限定要严密,以保证空白处应填答案的唯一性。

2、题目中空白部分以一处为宜,过多则使题干支离破碎。3、所有空白处的线段长度应一致,避免产生暗示作用。4、若答案是数字,应指明单位或数字的精确程度。

匹配题:其模式是由若干匹配项与选择项两部分组成。其形式有:连线式(将一组词句、段落依据规定的顺序排列起来)、归类式(按某一标准把有关选项归入匹配项)等。

编制匹配题的操作要则:

①匹配项与选择项不应是一对一的,选择项要多于匹配项,以减少学生猜答的可能性。②允许同一选项多次使用,当然也可以有的选项不被选用,以降低猜对的概率。③连线匹配题,分开两组的各项目的性质必须一致,以增加迷惑性。④选择项一般控制在10项以内,太多会增加学生的心理负担,⑤正确的答案要随机排列。⑥一题的所有匹配项与选择项要安排在同一页上,尤其是连线式的,以减少考生答案的麻烦。

简答题特点:适合于考察被试对基本知识、概念和原理的掌握、记忆情况。编制简单、灵活。

编制原则:问题叙述清楚、明确。

答案要简短具体,使被试可以用简洁的语言来回答,避免繁琐的计算和长篇大论。

避免只出机械记忆性的题目,应注重知识的应用。

论述题优点:1、可以用来对高层次、复杂学习结果的测量。2、可以增进学生的思考、应用及解决问题的能力,对于被试的学习态度和学习方式可以产生积极的影响。3、试题编制相对容易,可以增进被试的写作能力。

缺点:1、论述题一般都是大题,因此在一次考试中试题的取样范围比较小,且分布不均匀,难以做到全面考察。2、评分的主观性强。即使有参考答案和评分标准,但因被试的回答自由,回答问题的方向也不尽相同,评分的主观性仍难以避免。3、被试作答和评分阅卷均较为费时。

操作题 :操作题是测量考生实际能力的新题型。其局限是:题目同质困难,评分不易客观,

编制操作题的操作要则:

①应以测量本学科基本知识基本技能的实际应用能力为内容。②测题应是同质同级、难易相仿的,以保证评分的公平性。③测题内容覆盖面要宽,数量要多,由考生随机抽取。④一个测题只能由一个考生来做,不能一个题目先后由几个考生来做。⑤操作的内容、形式、完成时间要有明确交代。⑥要准备好操作所必需的材料。

编制测验的一般步骤

1、确定测验目的2、分析教育目标(编制双向细目表的一般步骤)3、测验取材并编拟题(遵循的要求)

4、试测与分析(项目分析的步骤)5、编制测验


© 2024 实用范文网 | 联系我们: webmaster# 6400.net.cn