附录B 态度及其成分的测量

在实验研究与现场研究中,研究者测量人们的反应。在本文中,我们将考察许多研究,就因变量如何被测量进行简短描述。同时,我们将对一些基本测量技术进行详细的描述。尽管某一特定的研究常常需要对一些特殊的测量进行调整,但这些基本测量技术常常是特殊测量的基础。我们将主要关注态度的测量,这是本文的核心概念。同样,我们将会简略地提及如何对态度系统的其他成分进行测量。

如果你停下来思考一下,那么你将发现态度的测量并非一项容易的任务。如何能够测量一个人头脑中的看法?如你可能猜测到的那样,这个问题的惟一解决方法就是使这个人将内部态度外显出来,然后你就能够对它进行评定了。换言之,你必须使这个人将其内在态度转换为外在行为。而这一外在行为可能涉及到完成一个纸笔测验或问卷。

态度量表

人们已经开发出了许多不同的纸笔测验来测量态度。在这些测验中,有4种类型的测验经过不断修订,已经较为成熟。这些主要的技术是瑟斯顿的等距量表法(Thurstone’s method of equalappearing interval),利克特的累积评定法(Likert’s method of summated ratings),格特曼的量表图分析法(Guttman’s scalogram)以及奥斯古德的语义区分技术(Osgood’s semantic differential)。下面我们将简要地回顾一下这些方法,希望能够使你更加清晰地理解社会心理学家如何获得数据,如何从这些数据中得出精彩的推论。

所要讨论的每种技术,对所用测验项目的性质和对所提供的个体态度的信息都有着不同的假设。然而,所有这些方法的某些基本假设是共通的。首先,它们假设可以通过量化技术来测量主观的态度,因此每个人的观点可以通过计分来表述。其次,它们假设一条测验项目的含义对于所有被试都是相同的,因此对所有被试的同样反应,计分相同。这些假设可能并不总是正确的,但是不包括这些假设的测量技术至今还没有开发出来。

瑟斯顿的等距量表法。1929年,瑟斯顿在他关于宗教态度的研究中发展出了第一个态度测量的主要技术。他编制的量表把精确的测量引入到了一个以前从未曾用量表研究过的领域。瑟斯顿假设,人们能够获得关于某个特定问题的观点陈述,能够就此问题在明确的喜欢—不喜欢这一维度上对观点陈述进行排序。进而,我们能够在一个连续体上对相邻的两个陈述以相等的间距进行排序。由于后一个假设,我们能够对不同的人之间彼此态度的差异程度进行判断。瑟斯顿还假设,不同陈述间是彼此不关联的,每个陈述是独立于其他陈述而存在的。也就是说,对一个陈述的接受并不必然意味着对其他任何一个陈述的接受。

瑟斯顿量表由关于某一特定问题的20个独立观点陈述所组成。每个陈述均会获得一个量化的量表值,这个量表值取决于在一个连续体上对该陈述判断的平均数。在测量人们对一个特定问题的态度时,要求人们仔细地选择那些他们赞同的陈述。每一个人的得分是他所选择了的那些项目的平均量表值。以下是这类量表的一个简缩版例子。

瑟斯顿量表的一个显而易见的特征是,陈述间的间隔是近乎等距的。量表的这一特性是通过量表的编制方法来达到的。第一步是收集关于某个特定问题的大量观点陈述。任何含糊不清、不明确、有歧义的陈述,或者持相反态度的人可能会同时赞同的陈述,立刻被放弃。然后,由一组鉴定者根据这些陈述所表达的对问题的赞同或者不赞同程度,但不考虑鉴定者自己的态度,将剩余的陈述划分为11个类别。这些类别因此构成了一个量表,量表涉及关于特定问题的观点,从非常赞同,中性,再到极端不赞同。通过将所有鉴定者的评分进行列表,从而有可能计算出每个陈述的量表值(陈述的平均量表值),以及鉴定者对它的位置表示赞同的程度(评定的分布)。最终量表所选择的那些陈述具有很高的鉴定者一致性,并且沿着连续体分布在彼此相对等距的位置上。因此,一个人对某个特定问题的态度,可以从他对这套最终量表项目的反应中获得。

利克特的累积评定法。瑟斯顿量表在应用上的缺陷之一是,它的编制非常费力和耗时。为了解决这一问题,利克特发展出了一种不同的技术,运用这一技术能够相对容易地形成一个同等可信的态度量表。利克特量表由关于某一问题的一系列观点陈述组成。然而,与瑟斯顿量表相反的是,利克特量表通过要求一个人指出对每个项目赞同或不赞同的程度从而对他的态度进行测量。让这个人在5点反应量表(非常同意、同意、不确定、不同意、非常不同意)上,对每个项目进行评定,从而测量了他的态度。一个人的态度分数就是他每个项目评分的总和。以下是一个单一量表项目的例子。

A.“判处一级谋杀的罪犯死刑是一件好事”

利克特假设,量表中的每个陈述在同一态度维度上是一个线性函数。这一假设是对个人单个项目得分累加(或者说得更正式一些,对所有评定求和)从而得到最终分数的基础。这一假设的更进一步意义是,量表中的项目必须与一个共同的属性有高相关,因此各个项目相互间有了高相关;这一点与瑟斯顿量表相反,在瑟斯顿量表中,各个项目是独特的和独立的。需要指出,利克特从未假设过量表值是等距的。例如,“同意”与“非常同意”之间的差异很有可能远远大于了“同意”与“不确定”之间的差异。这就意味着利克特量表能够提供关于人们在一个连续体上态度排序的信息,但是它无法准确地指出不同态度之间可能多么接近或者相差得多远。

利克特量表的编制方法与瑟斯顿最初收集和编辑大量观点陈述的过程相似。然后,由一个被试样本根据他们自己对这些陈述的意见在5点反应量表上对剩余的陈述进行评定。这一点与瑟斯顿的技术相反;在瑟斯顿的技术中,由受过专门训练的鉴定者来做出评定,鉴定者做出评定的依据是陈述在连续体上所处位置这种相对客观的标准,而非个人的观点。利克特量表由那些最大限度区分出总分最高与总分最低的被试样本的项目所组成。

格特曼的量表图分析法。第三种量表编制技术基于这样一种假设:可以通过在“接受的困难性”这一连续体上排序的一套陈述,对一个单独的和单维的特质进行测量。也就是说,陈述是从能被绝大多数人轻易接受到几乎不被人所认可。此类量表的项目是可累加的,因为对一个项目的接受意味着个体接受那些更小量级的(那些更容易被接收的)所有陈述。在一定程度上这一假设是正确的,如果知道了个体所能接受的最困难的陈述,那么就可以预知他对其他陈述的态度了。这类量表的一个示例如下:

为了获得一个表述单一维度的量表,格特曼向被试样本呈现一套初始项目,并且记录他们在何种程度上按照特定回答模式对项目作答。这些特定回答模式,被称作标量类型(scale types),遵循一个特定的阶梯形顺序。被试可能不会接受任何一个项目(得分为0),可能只会接受项目A(得分为1),也可能会接受项目A和B(得分为2),甚至还可能会受项目A、B和C(得分为3)等等。如果被试做出了非标量反应模式(nonscale response pattern)(例如,只接受项目C而不接受其他更小量级的项目),那么就认为他犯了一个或者更多的反应错误。通过分析所犯反应错误的数量,格特曼能够确定这套初始项目在何种程度上反映了单一属性(即它们的可测量性达到了何种程度)。通过删除糟糕的项目和对被试样本重测,直至形成一套可测量性较好的项目,这样就获得了最终量表。

于是,通过使个体选择出量表上所有他可接受的陈述,就可以测量出个体的态度。各种格特曼量表被用在了关于态度卷入的研究中,以决定人们接受与拒绝的范围(见第6章)。最后的得分是在相应标量类型上的分数,或者最接近于其反应的标量类型上的分数(如果个体做出了非标量反应模式)。后一种计分程序表明,我们几乎不可能开发出一个完美的单维量表。这可能是因为人们的实际反应不是基于那个假定的单一维度,而是基于一个不同的维度或多个维度。

奥斯古德的语义区分技术。上述三种方法都是通过使人们指出自己对各种观点陈述的赞同程度来对态度进行测量。与这一途径相反,奥斯古德通过关注人们对一个单词或者概念所赋予的意义来研究态度。这一技术所暗含的一个基本假设是,存在着一个维度数量未知的语义空间,任何词语或概念的意义都可以表述为这个语义空间的一个特殊点。奥斯古德的方法是,让人们在一套语义量表上对一个特定概念进行判断。这些量表由以中性为中点并包含了七个可辨别等级的成对反义词所构成。例如,通过让某个特定的人在一套语义量表上对“核能”进行评定,可以获得“核能”这一概念对这个人的意义。

对由这种方法收集到的评定进行分析,可以揭示人们在刻画他们自己经验时用到的特殊维度、视作意义相同或不同的概念类型,以及对特殊概念所赋予的意义强度。奥斯古德自己的研究表明,人们在判断概念时主要会用到3个独立维度(Osgood et al., 1957)。他将这些维度称为评价因素(例如好—坏)、潜力因素(例如强—弱)以及活动因素(例如主动—被动)。尽管这一方法能够提供许多关于概念的信息,但是一个人所赋予概念的意义如何与其态度发生关联,却完全不清楚。

实验中的单一项目量表与少量项目的量表。在大多数关于态度或态度改变的研究中,特别是实验室研究中,态度测量只由单一或少数几个项目组成。通常,测量使用利克特量表形式,而不是系统化地编制多项目的问卷。例如,在一项说服研究中,在说服信息呈现后紧接着出现的第一个项目,复述了信息的结论,并要求被试在利克特量表上就他对信息的赞同程度进行评定;评定可能会是5点、10点、甚至30点或更多点的量表,并且会在其中一些分数处附加描述性的标记。例如:

大学应该向学生征收每学期50美元的停车费:

也可以运用修正过的语义区分技术。通常所选择的语义量表强调好—坏这一维度,这一维度最符合把态度作为总体性评价的这一定义。例如,在聆听了倡导征收学生停车费的信息后,被试可能会被要求“在以下四个维度上对向学生收取停车费这一想法进行评定”。维度可能是好的—坏的,明智的—愚蠢的,赞同的—不赞同的,以及有益的—有害的。在一些情况中,可能会对每个学生的4个评定进行累加,而最后的总分则被视作这一被试的态度得分。

除了这些常用的方法外,也会使用一些特殊的自评量表。例如,可能要求被试针对一个态度客体在“喜欢—不喜欢”这一尺度上做出自我评价。

对自我的态度测量。实际上,不同研究在态度测量的方式上相互间有很多差异。这种一致性的缺乏引发了解释性和可比性的问题。事实上,不仅仅是量表或被试反应任务的不同。即使使用非常相似的测量系统,实验可能也会运用不同的技术来将这些相同的反应转换为定量导出的自变量。当两项研究要求被试在支持—反对和喜欢—厌恶的尺度上标注一个点从而给出他的观点时,我们就可以看到后一个问题。态度的改变可根据以下任何一种测量来加以描述:(1)显示了任何积极改变的被试百分比;(2)显示了“巨大”、“中等的”、“微弱的”或者“没有”改变的被试百分比(任意定义的类别);(3)净百分比的变化(积极变化减去消极变化);(4)上述三种测量的任意结合;(5)改变了的绝对平均尺度距离;以及(6)实际发生的改变与可能发生的改变的比值。

态度测量的多样性有其积极的一面。首先,如果即使采用了不同的测量技术也出现了相似的结果,那么我们能够更加自信地认为,这些结果是有效的和可推广的——所研究的自变量确实以观测到的方式对态度产生影响(Campbell&Fiske,1959)。如果只以完全相同的方式对因变量进行测量,那么有可能是测量程序自身导致了所观察到的结果。其次,精心挑选和开发的态度测量(即使是由少数项目构成的量表)相互间在得分上通常具有高相关,这暗示着它们所测量的是态度的相似方面。第三,我们注意到,不同研究者和不同研究可能不会恰好全都关注于同一态度构想。例如,一些理论阐述或应用研究问题可能主要关注于作为信念和认知总体的态度,而其他理论阐述或应用研究问题可能主要关注态度的情感成分。在前一种情形中,瑟斯顿量表可能最为合适;而在后一种情形中,在喜欢—厌恶和好—坏尺度上的评定可能正合我们所需。两者关注的内容都与态度有关,但是无论在概念上还是在操作上,测量都不相同——它们本不该相同。

对态度系统其他成分的测量

在本书的各个章节中,我们看到了对由个体态度导出的实际行为进行测量的各种案例。例如,在一些说服研究中,实验者能够向被试提供机会,使其按照说服信息所灌输的新态度来行动:签署请愿书、献血、购买产品或者做出信息所推荐的其他一些反应。在依从与认知不协调的研究中,研究者观察了诸如购买彩票、对另一个被试撒谎以及公开拒绝团体决策等行为。当的确无法对行为进行观察时,研究者可能会测量通常与未来行为有关系、但却不是绝对相关的行为意向(见第1章和第5章)。研究者可能会要求被试在数值量表上评定出他们有多大的可能性会做出某一行为(例如,购买产品或者戒烟)。

近年来,社会心理学家对测量态度系统中认知成分的兴趣日渐增长。一项通常被用于说服研究中的常用技术是观念枚举法(thoughtlisting method)(Greenwald, 1968;Petty&Cacioppo, 1981)。被试在聆听或阅读信息后,被要求写下他们自己所能想到的任何与所探讨的问题和信息有关的想法。要求被试把他们的想法分类为“单独的观念”,并且发给他们一套被分隔为多个部分的答题纸,让其在纸上逐一写下自己的想法。这一任务有时间限制(通常是3分钟)。稍后,两个或更多的评判者对这些想法进行评分和分类(评判者们从不知道被试所处的实验条件)。依据实验关注焦点的不同,可以对每个想法进行各种不同的分类,包括赞成还是反对信息的立场,是反映了信息的内容还是被试自己产生的想法,是与信息本身有关还是与沟通者有关,等等。通过考察某些种类的想法,研究者通常能够获知与态度的信念和知识基础有关的大量内容,以及信息或其他处理如何影响这些心理变量。

根据观念的复杂程度、观念的评价一致性和议题的知识等维度,可以使用内容分析技术(content analysis technique)来对文章、团体慎思择宜(group deliberation)和其他言语反应进行分析。

反应时测量和生理测量也被用来测量有关态度的概念。人们发出信号表示赞成或反对简短的态度陈述所花费的时间(称为反应时)被用来研究态度的可及性以及强度。

生理测量,例如心律和皮肤电反应(与出汗类似),长期以来一直被用于探究态度系统中的情绪与情感成分。传统的生理测量程序能够有效地测量出情绪与情感强度的改变,但是无法揭示这些反应所反映出来的是积极态度还是消极态度。然而近来,研究者们正在研究人们对社会刺激的一些非常特殊的身体反应,再加上进一步的测试,就可能揭示出人们对某一社会刺激的真实态度倾向。例如,在一项精心设计的研究中,研究者观察到,当人们聆听和思考说服性信息时,在他们嘴周围的面部肌肉活动有一些微小但可测量的变化(Cacioppo&Petty, 1987)。当信息接收者进行反驳时,其面部肌肉改变是一种模式,而当信息引发了积极、赞同的认知反应时,其面部肌肉改变又是另一种模式。这一研究建立在有关情绪与面部表情之间已知的相互关系之上(见第7章)。

总而言之,可以说在态度改变与社会影响的研究中所使用的测量技术是多种多样的,其中一些方法比另一些更为成熟。

《态度改变与社会影响》