测量工具的信度和效度分析

常用的测量工具主要有调查问卷和量表，它们都是对个人行为和态度的一种测量技术，是测量答卷者对问卷题目主观认识的个体差异的工具，也是研究者用来搜集资料的一种技术。一般情况下，编制一份量表必须做效度和信度评价，而调查问卷则不是必须的。对于有些调查问卷，其包含了类似量表性质对答卷者客观指标测量的题目，对这部分题目需要进行效度和信度的评价。

第一节信度分析概述

一、信度的概念

信度是指测量工具的可靠性和稳定性的程度，或是指使用某测量工具所获得结果的一致程度或准确程度。

测量工具的信度包含2层含义：一是相同的个体在不同时间，以相同的测量工具测验或以复本测验，或在不同的情景下测验，是否能得到相同的结果，即测量工具的测验结果是否随时间和地点等因素而变化；二是能否减少随机误差对测量工具测验结果的影响，从而反映测量工具所要测量的真实情况，即测量工具是否具有稳定性、可靠性和可预测性。

信度的三个特征是：稳定性、内部一致性和等同性。一个好的测量工具必须是稳定可靠，且多次测验结果应前后一致。

信度本质上是一个统计学概念，是用于估计测量误差大小的尺度，主要说明测量工具测验结果中测量误差所占的比例。实际应用中主要通过构建平行测验来计算测量工具的信度。

二、信度的评价方法

信度研究的是测量工具测验结果的可靠性与稳定性，这种可靠性与稳定性可以从4个不同的角度来评价：①在相同条件下所得测量工具测验结果一致程度；②不同研究者用同一种测量工具同时测验所得结果的一致程度；③同一研究者用同一种测量工具在不同时间内测验所得结果的一致程度；④同一答卷者在不同时间内对同一种测量工具测验的稳定程度。

根据研究角度不同，信度分为外在信度（external reliability）与内在信度（internal reliability）两大类。外在信度是指不同时间测量时测量工具测量的一致性程度。内在信度是指测量工具是否测量的是单一概念，同时也表明测

量工具各项目之间的内在一致性程度。

衡量信度高低的统计指标是信度系数（r）来表示，r 〉0.75表明信度水平较高；r= 0.5-0.75表示信度处于中等水平低水平；r〈 0.5表示信度处于较低水平。常见的信度系数有重测信度、复本信度、分半信度和Cronbach's系数等。重测信度是最常用的外在信度，Cronbach's系数是最常用的内在信度。

三、信度的分析方法

1重测信度（test-retest reliability）

1.1定义：用同一工具两次或多次测定同一研究对象，所得结果的一致程度。

1.2指标：重测相关系数（r） r＝0－1 ；r 越接近1，重测信度越高计算公式：r==

∑X：第一次测试研究对象各得分之和

∑Y：第二次测试研究对象各得分之和

∑X2：第一次测试研究对象各得分平方之和

∑Y2：第二次测试研究对象各得分平方之和

1.3在SPSS中计算重测信度的步骤：

在任务栏中选Analyze→correlate bivaviate→ varables→ pearson

1.4使用重测信度需考虑的问题

① 两次测量间隔时间

②研究工具所测量的变量性质：适用较稳定的变量：人格特征、能力、生活质量、某些生理指标。

③测量环境的一致，包括：物理环境、时间、测量程序与测试者等

④样本量：预计样本的10%（10-20例

1.5重测信度结果的影响原因：变量随时间推移而发生改变；第一次测量结果的记忆效应；被调查者对第二次测评的不认真；条目设置问题；答案的评分等级问题

研究表明：采用同一份由204个问题组成的自填式医学问卷，对2352名病人进行两次调查，间隔30分钟，发现仅20％的人对所有问题两次回答一致，有5％的人对13个及以上的问题两次回答不一致。

2 复本信度（alternative form reliability）：也叫等值性系数（coefficient

Of equivalence)。指两个大致相似的研究工具同时被用于研究对象，即题目不同但内容相似的两份测量工具。复本信度越高，测量工具越可靠，越能代表所欲测量的内容。计算方法是用两个复本间隔一定时间或同时施于同一答卷者所得分数的相关系数。

3分析测量工具内部一致性（internal consistency)的信度系数：适用于由多个条目组成的问卷或量表，是护理研究中最常用的信度测量方法。种类包括：折半信度（split-half reliability）、Cronbach's a系数以及适用于计算二分类是非题同质性信度的库德-理查森20号公式（KR20）。

3.1折半系数：将测量工具（量表）的各项目分成两部分，分别加以计分，对这两个部分的数值进行相关分析，然后采用Spearman-Brown公式计算信度。折半方法：奇偶折半法、前后折半法

计算方法：先根据重测信度公式计算出相关系数r，再使用Spearman-Brown公式计算折半信度。

折半系数测定的缺点是：不同的折半方法会导致不同的结果，而Cronbach’a系数与KR-20值所计算的是工具中所有项目的平均相关程度。

3.2 Cronbach’a系数：该系数是Cronbach于1951年创立的，取值范围在0-1之间，a系数越高，信度越高，测量工具内部一致性越好。

计算公式：α=Np/[1＋p(N-1)

在SPSS中计算重测信度的步骤：

在任务栏中选Analyze→scale→ reliability→item→alpha

3.3 KR-20：是Cronbach’a的一种特殊形式，适用于二分制的测量工具，例如回答“是”或“否”、“正确”或“错误”的测量工具。

计算公式：α= [k/(k - 1) ]. (δ2 -Σpiqi)/δ2

4 评分者信度：不同评定者使用相同的工具，同时测量相同的对象时，需计算评定者间一致程度。检验方法：相关系数。

信度系数的计算有多种方法，各种方法所适用的信度类型也不同，因此在计算信度系数时必须认真考虑实际所求信度的类型，然后选择恰当的信度系数公式。由于误差来源不同，即使同一个测量工具用不同方法所计算的信度系数也会不同，所以各信度系数间也不具有可比性。一般在信度分析中，要分别报告不同方法计

算出的信度值。各种信度及其误差来源：

重测信度：检验量表的稳定性，考虑的误差来源是时间取样。

分半信度：检验量表的一致性，它考虑的误差来源是内容取样。

内部一致性系数：检验量表的一致性，考虑的是测验内容是否异质。评分者信度：检验量表的等同性，考虑的误差来源是评分者间的差别。复本信度：检验量表的等同性，考虑的误差来源是内容取样。

四提高测量工具信度的方法

1 适当延长测量工具的长度。测量工具的题目越少，得分越容易受偶然因素的影响，测量工具的信度就越低；反之，测量工具题目越多，扩大了被测量者得分范围，在一定程度上排除了偶然因素的影响，提高了测量工具的信度。但是测量工具长度的增加与测量工具信度的提高并不总成正比，当信度系数较小时，延长测量工具的题目，信度系数增加较大；而当信度系数较大时，延长测量工具的长度对信度系数的影响就较小。

2测量工具难度适中。测量工具题目太难或太易都会使测量工具得分差异减小，从而降低了测量工具的信度。

3测量工具的内容尽可能同质。

4测验时间要充分，测验程序要统一，测量工具的评分要客观。

第二节效度分析概述

一、效度的概念

1 效度的定义：效度通常是指测量工具的有效性和正确性，即所用的测量工具能够测量出研究者所欲测量特性的程度。效度是测量工具最重要的特征，效度越高表示该测量工具测验的结果所能代表要测验行为的真实度越高，越能够达到测验目的，该测量工具才越正确越有效。对于一个标准测验来说，效度比信度更为重要，效度的大小由效度系数来表示。

效度包括了两方面的含义：其一是测量工具的测验目的；其二是测量工具对测量目标测量的精确度和真实性。

2 效度的性质效度是指测验结果的正确性或可靠性，而不是指测验工具本身；效度并非全有或全无，只是在程度上有高低不同的差别；效度是针对某一特殊功能或者某种特殊用途而言，不具有普遍性；效度无法实际测量，只能从现有信息

作逻辑推断或对实证资料作统计检验分析。

3效度的分类

① 内在效度（internal validity）是指某特定测量工具中自变量与因变量之间存在因果关系的程度，反应测量工具的内容的正确性与真实性。内在效度是测量研究工具中应具备的最基本的效度，测量工具的内在效度越高，其价值也越高。 ②外在效度（external validity）是指研究结果的概括性和代表性，即研究结果可否推论到研究对象以外的其它受试者，或研究情景以外的其它情境。一项研究越能实现以上目标，就表示该研究的外部效度越好。

二、效度的评价方法

评价效度的指标有：表面效度（face validity）、内容效度（content validity）、效标关联效度（criterion－related validity）、结构效度（construct validity）、判别效度（discriminant validity）、聚合效度（covergent validity）、因子效度（factorial validity）等。

1表面效度（ Face validity)：

定义：指通过粗略观察判断研究工具是否能测出所期望的概念。表面效度属于一种直觉判断用“有”或“无”来评价，在阐述表面效度时，应详细报告评价者的特点及其评价的可信度。

缺点：缺乏科学性，不能体现效度在程度上差异

2内容效度（content validity）：

2.1定义：指量表中条目反映所测量内容的程度。即每个条目与所测内容的相关性，以及量表中条目是否充分地反映了测量工具所测的领域。适用范围：问卷或量表形式的研究工具。建立在大量查阅文献、工作经验、综合分析、判断的基础上。

2.2评价方法：专家组（expert panel）以文字形式评价评定，由专家对工具内容的合适性进行判断，一般需3个以上专家。应包括社会心理学领域、相关领域的临床护理专家、护理教育专家。专家资质要求：在本领域具有较高的学术水平；具有较高的教育背景；具有丰富的社会心理学知识；熟悉测量工具的发展与心理学特征测定的方法；严谨求实的科学态度。

2.3实施步骤：内容效度指数CVI公式( content validity index)

专家两两配对成组，分别计算各组中两个专家都认为相关的条目数占总条目数的百分比。如：AB-0.8 AC-0.9 AD-0.85、AE-0.9、BC-0.7、BD-0.8、BE-0.85、CD-0.7、CE-0.75、DE-0.75。计算所有组的平均值，得到CVI为0.8

3、效标效度（criterion-related validity）

定义：以一个公认有效的研究工具作为标准，检验新工具与标准工具测定结果的相关性。可分为同时效度（concurrent validity) 研究工具与现有标准之间的相关性和预测效度(predictive validity)测量工具作为未来情况预测指标的有效程度。

估计方法：①相关法，即计算某测量工具得分与效标间的相关性性，其结果即为效标效度。当测验分数与效标测量分数都是连续变量时，用积差相关公式求相关系数；当测量工具分数是连续变量而效标分数是二分变量时，可用二列相关公式计算效标效度。②区分法：即看测量工具测量分数是否可以区分由效标所划分的团体，可以用t检验进行差异性检验。

4、结构效度（constructive validity)

定义：反映研究工具所依据理论的程度，与理论框架相符合与否。用已知的具体的概念反映抽象的概念。

检验方法：因子分析，其主要功能是从量表全部变量（题项）中提取一些公因子，各公因子分别与某一群特定变量高度关联，这些公因子即代表了量表的基本结构。通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构。在因子分析的结果中，用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因子对量表或问卷的累积有效程度，共同度反映由公因子解释原变量的有效程度，因子负荷反映原变量与某个公因子的相关程度。

评价测量工具的效度较为复杂，实际应用时可以结合各种情况进行评价。

三、提高效度的方法

1 提高内在效度的方法：理论正确，解释清楚，概念要明确，解释要信而可证；操作规范以减少误差；控制系统误差；样本适宜且要预防流失，测试的样本容量一般不应低于30例；适当增加测量工具的长度，增加测量工具的长度既可以提高测量工具的信度又可以增加测量工具的效度，但增加测量工具长度对信度的影

响大于效度；排除无关因素干扰。

2 提高外在效度的方法：测量工具测量结果的解释分析应具有普遍性、客观性、合理性与真实性；以可操作性定义代表抽象性定义，取样应有足够的代表性，研究的情景要适宜，最好能与未来情景类似；观察具有普遍性，资料搜集要注意多元性，且要客观；尽可能排除无关的干扰变量，并慎防实验者效应发生。

四效度和信度的关系

信度与效度，二者既有联系又有区别，信度是对调查对象而言，效度是对调查所要说明的问题而言信度高效度不一定高，效度高则信度必定高，换句话说，可信的不一定有效的，有效的则必是可信的。以打靶为例，信度检验资料的可靠性、稳定性、一致性，效度(validity)检验结果的准确性。

信度和效度的关系概括如下：信度低，效度不可能高。因为如果测量的数据不准确，也并不能有效地说明所研究的对象：信度高，效度未必高。例如，尺子量布；效度低，信度很可能高；效度高，信度也必然高。即1可信：可能有效，也可能无效； 2.不可信：无效3. 有效：必须可信4. 无效：可能不可信，也可能可信。

测量工具的信度和效度分析

相关文章