3. 变量需遵循原则
a. SEM模型中各变量的函数关系要是线性的,否则是不能用回归计算路径系数的。
b. 在使用最大似然估计法时,变量一定要是多元正态分布的,这就要求指标要呈正态分布,否则就要对指标进行正态处理才行。
c. 变量间的多重共线性程度要低,否则路径系数会有很大误差。
d. SEM建立的过程中会不断的修正才能得到比较完美的模型,比如因子分析时,若发现某一测度项对应的因子载荷过小,就会人为的将该测度项删除,但是若模型建立之后,一些变量对应了4~5个测度项,一些变量只剩下1~2个测度项,那么我们就需要思考只有两个测度项的变量是否被完全解释,这仅有的两个测度项就全面真实的反映该变量么?如果是这样,就算KMO、Bartlett、因子载荷都通过了,效度也是难以保证的。所以问卷前期需要反复的预调研,不断的对问题进行修正,而不是随意的人为删除。我学生时代对淘宝满意度进行调查时,就犯了类似的错误,模型中的“互动性”片段,互动性由四个变量衡量,其中“双向沟通性”一开始设计的时候由5个测度项支持,但是因子分析检验通不过,就直接将因子载荷比较小的客服、论坛、淘江湖三者去掉了,最后虽然在数据上通过了信度效度检验,但是只有阿里旺旺、留言板这两个测度项支持是绝对不能解释“双向沟通性”的。
4. 数据质量是根源
要使模型结构稳定有效,首先要保证数据质量,反复检验问卷的信度。
a. 不同时间的一致性。
在设计问卷时,可以将同样的问题对同一个人重复测试,如果这两道题得到的答案是不一致的,相关系数(Pearson r)小于0.7,那么这份问卷的稳定信度就值得考量。
假如问卷样本足够大,可以一分为二(每一个样本也要保证足够样本量),分别建立两个模型;通过对比两个模型中参数的差异,便可以检验该模型的稳定性和适用性。如果两者差异太大,就说明模型本身是有问题的。
b. 不同形式的一致性
用内容等效但表达方式不同的两份问卷调查,检测两者的等效信度,比如Gamma系数。
c. 内在一致性
问卷中相关的问题为同样的目标服务,他们在逻辑一致,也就是同质的。首先要测量每个测度项与总体的相关性(item-total correlation),然后再测量同一变量下相关问题间的同质性,而对于不同的提问方式选择对应的方法:比如,对于李克特量表方法,就用Chronbach系数检验;在基础研究中,信度至少应达到 0.80 才可接受,在探索性研究中,0.70 可接受,0.70-0.98 为高信度,小于0.35 为低信度。对于是非题则采用kuder-Richardson系数检验。在进行内在一致性检验时,要看题目选项是否反序,如果两道题都是问“对该产品是否满意”,一道7代表满意,1代表不满意;另一道1代表满意,7代表不满意,这样就会影响信度。遇到这种情况要提前人为调整过来。
5. 看得更远一点
问卷结论不仅要解决当前的问题和需求,还有具有一定的预测作用,市场是变化的,当前的目标用户不一定就是未来的(或者下一个版本的)目标用户,比如目标用户的收入可能有增加的趋势,某一平台的使用率在快速提高,当前的满意度模型可能在一个月之后就不适用了(比如新功能点的出现)。
假设我们要对QQ影音进行满意度调查,现在建立了一个满意度模型,但若下个月QQ影音中多了一个重要的功能,对整个满意度的提升产生了很大作用,那么,模型中各项的路径系数会不会产生变化?该模型在下个月可能就不适用了,造成的后果就是当前的满意度值与下个月的满意度值没有可比性了,很多工作也就白费了。所以,诸如满意度模型这样的研究,是需要反复调查,长期对该满意度模型进行监控和修正,以求得到最稳定的模型,就可以让模型会具有很预测和比对作用啦。
6.关注细节
a. 问卷设计中题项表述不能出现歧义、避免太专业词汇以及诱导词汇
b. 选项间要有明确的区分(互斥)
c. 避免遗漏,“其他”选项是必须的,而且最好配有输入框,记忆中,每次问卷调查中都能从“其他”选项中获取大量信息。
d. 一般题项不能太多,设置问题选项的时候,尽可能的让选项随机显示,特别是在选项较多的情况下。
e. 数据处理过程中删除重复项矛盾项之外,最好能统计到用户填写问卷的时间差。如果整个填写的时间极短,完全可以判定用户没有认真填写。
f. 极端的、离群的选项可以考虑将其删除。
四、可用性测试中的信度与效度
首先保证,主持人的态度亲切、测试前随意聊聊彼此熟悉、测试提纲清晰全面。另外,以下几点也对保证测试的信度和效度很重要。
1. 不要忽略异想天开
脑暴中要求彼此不能批评,在进行访谈或测试中,也不能对用户某些操作做出评论,否则用户很有可能隐藏内心真实的感受。关注并记录用户出错,但是用户出错时态度要中立。
通常,用户在体验的真实的原型后,会产生很多看似异想天开的诉求,有些虽然在当前不能实现,但是会为未来发展提供很多思路和方向。所以,我们要积极鼓励用户进行思维发散。
2. 前后验证、竞品比对
在测试完成后,可以加上一个总体调查问卷,一者让用户对自己体验的各个功能点有一个回顾和比较,同样也可以验证用户体验过程的态度和最终的态度是否具有一致性。如果存在不一致,应该进一步追问理由,确定用户的真实想法。
测试时,让用户体验竞品,并作出比较,也是发现有效信息的途径。
3. 敏锐观察
测试中,除了按照已定的提纲进行问答之外,过程中还要敏锐的观察用户一些细微的表情、停留、思考。不但要了解用户对个功能点如何评价的,还要知道用户做某一任务过程中,是怎么思考、计划、实施的,用户的第一反应、习惯性的操作、思维路线的作用远远大于单纯的评价。用户任务完成之后,要追问用户如此操作的原因。
4. 记录原话并习惯性确认
测试结论要有用户的原话支持,不能轻易的改变用户的表述。和用户交流过程中,要习惯性的问:“请问你的意思是……?”“我这样理解你的意思,你看对么……?”以保证测试结论的效度。
5. 必要时进行入户调查
首先,入户调查会大大减少外界环境的影响,用户在自己的空间中,会更真实的反映常见的问题。其次,入户调查一般是在用户画像提取出来之后,按照用户画像描述的属性,有意识有针对性去挑选具有某些典型属性的对象进行深入、全面、系统调查(典型调查),比如某一产品的目标用户,他们反映的问题,代表性强,往往有以一当十的功效,避免了非目标用户信息造成的干扰。
6. 用户条件与数量
参与测试用户根据目标用户特征选择。
一般衡量测试是否需要继续进行的方法是:看是否发现新的问题,如果有新的问题,就应该继续,反之,可以结束。
Neilson研究结果表明,5名用户的测试可以发现85%的可用性问题。而在我们在以往的可用性测试经验中,用户数一般定为6个,基本上能发现全部问题。当然任何数字都只是一个参考,用户数量最好根据具体的测试情况(衡量时间、资源、投入产出比)而定。总之,关键在于是否有新的问题出现。
信度效度贯穿整个用户研究过程,肯定会有很多没有考虑到的地方,还请各位轻轻拍砖。