怎样使用SPSS录入spss数据录入

使用 IBM SPSS Modeler 进行数据挖掘之数据理解
在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和模型的选择提供重要的信息。
首先,我们需要了解 CRISP-DM 模型,从而了解数据理解在数据挖掘工作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用 Modeler 来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在关系。
CRISP-DM 模型
数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种模型。
图 1. CRISP-DM 模型图
CRISP-DM,即跨行业数据挖掘标准流程,这是一种业界认可的用于指导数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的数据挖掘生命周期中的六个阶段。
商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标数据理解:深入了解可用于挖掘的数据数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等操作建立模型:根据前期准备的数据选取合适的模型模型评估:使用在商业理解阶段设立的业务成功标准对模型进行评估结果部署:使用挖掘后的结果提升业务的过程
下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习如何利用 Modeler 的强大功能来进行数据理解。
商业理解:现状:
某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品地处二楼,很多顾客还不知道,营业额没有达到预期。
商业目标:
经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消费。
活动计划:
首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。
验证条件:
产生潜在客户名单信息后,随机抽取 100 名进行电话调查,表示愿意接受优惠券并且表示会来消费的顾客比例高于 70%.
经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分析:
会员基本信息:会员申请会员卡时登记的信息,其中包含了会员年龄,职业,学历,电话,工作,收入,住址等信息。消费信息:会员消费的明细记录。
了解了现有数据后,小王发现有以下问题:
会员基本信息是会员提供的,里边有很多值是缺失的,有的看起来是错误的。而消费信息由于是每次消费后电脑生成,信息是完整的,但是信息却很庞杂,不利于分析。可用的数据项非常多,到底用哪些数据项来进行数据预测呢?
这几个问题都是数据理解需要解决的问题,下边我们就来看一下如何利用 Modeler 来帮助我们进行数据理解:
使用 Modeler 进行缺失值分析什么是缺失值?
缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据挖掘中,都要遇到缺失值的问题,有可能是数据采集中的失误,有可能客户不愿意提供某些信息,面对这样的数据,我们该如何是好 ? 使用这样的数据可能会对我们后期的建模产生不可预料的影响。如果丢弃,这些数据中可能包含着宝贵的信息。下边我们就来看一下如何利用 Modeler 来进行缺失值分析:
缺失值示例
第一步我们需要利用 Modeler 来确定数据文件中缺失值的类型和数量。然后才能做进一步的处理。
首先我们看一下我们例子中需要用到的数据:
图 2. 缺失值分析示例数据
从上图中我们可以看到编号有些记录的值是缺失的。
接下来我们打开 Modeler,新建 Stream,拖入一个“可变文件”节点到工作区。双击节点。选择示例数据文件作为输入。然后我们点击“可变文件”节点的预览按钮。得到结果如图:
图 3. 原始数据预览图
从预览图里我们可以看出记录 002 的年龄为 null,性别为空 , 这两个值都可以被 Modeler 自动识别为缺失值。这是 Modeler 针对不同类型的数据做了不同的处理。这里年龄被 Modeler 识别为整数类型,性别被识别为字符串类型。另外我们发现 005 的电话号码依然为“无”,并没有做任何替换。着我们这个示例里电话号码“无”是一个语义上的缺失值,在很多数据文件中都可能含有这样的信息,那么在 Modeler 里怎么定义这样的缺失值呢?这个我们稍后会做介绍。
利用“数据审核”节点审核数据
“数据审核”节点可以提供给我们很多有用的信息,其中就包括数据缺失值信息。下边,我们就将“数据审核”节点加入到我们的 stream 中来,连接“可变文件”节点和“数据审核”节点,运行 Stream,我们可以得到下图
图 4. 数据审核结果图
从上图中我们可以看到很多有用的信息,数据的分布图形,数据的类型,统计值等,在这里我们要关注的是最后一列有效数据,这里我们发现年龄,性别,学历,月收入的有效值都不是 30,这说明 “数据审核”节点已经成功的帮我们识别出了这两列的缺失值。同时我们可以发现电话这一项的有效数据仍然是 30.
下边我们就来看看如何在 Modeler 中定义缺失值。
缺失值定义
双击“可变文件”节点,选择类型页。如下图:
图 5. “可变文件”节点类型页
在类型页里我们发现有一列名为“缺失”,我们在电话这一列我们点击缺失这以空白项。
图 6. 指定缺失值
我们选择指定…,会打开一个新的页面:
图 7. 配置电话缺失值
如上图,我们选择“定义空白”,添加一个缺失值为“无”。然后点击确定,关闭窗口。
接着我们再来运行数据审核,得到如下结果:
图 8. 数据审核结果图
这次我们可以发现电话这一项的有效数据变成了 29. 说明我们定义的缺失值成功了。
然后我们选择“数据审核”节点的质量页,如下图 :
图 9. 数据质量结果图
从上图中可以看出完整的字段为 37.5%,完整的记录为 83.33%,这时我们可以决定如何处理缺失值,如果我们完整的字段占的比例很高,那么我们一般应该过滤掉包含缺失值的字段然后进行建模。另一种情况,如果完整记录所占比例较高那么我们应该删除那些含有缺失值的记录然后进行建模。
Modeler 考虑到这两种情况,提供了非常实用的功能来帮助我们进行数据的筛选。我们打开数据审核结果,选择质量页面,单击工具条上的生成按钮,里边可以选择生成列的过滤节点,或者值的选择节点。生成的节点可以帮助我们自动过滤含有缺失值的行或者列。
上面所说的对缺失值的处理是删除含有缺失值的列或者行,还有一种办法是我们可以对缺失值进行填充,比如我们可以用缺失值所在列的平均值,随机值来进行填充,或者我们对该列进行建模预测,来达到填充缺失值的目的。
使用 Modeler 进行异常值分析什么是异常值
异常值就是数据文件中那些和其它值相比有明显不同的值,它们可以通过观察数据分布来确定。
在具体考虑异常值时,我们需要注意异常值的类型,一般分为两种,一种是可枚举类型,比如超市里的商品名,商品名不可能有异常值。假如我们利用会员购买的商品来预测他会不会购买体育用品,因为商品很多,使得购买相同商品的用户数量很少,所建模型就会很不稳定。这时我们应该对商品进行抽象,比如抽象为水果,零食,日用品,蔬菜,化妆品等,用这样的数据进行预测,就会使模型可靠性提升。利用 Modeler 里的“分布”节点可以对这种可枚举类型的数据进行分组。
图 10. 001 用户消费记录
假如我们有上表这样的数据,我们如何将商品进行抽象分组呢?首先我们建立一个 stream,用“可变文件节点”来读取数据。然后连接一个“分布”节点。运行分布节点,得到下图。
图 11. 分布节点运行结果
比如我们可以选择梨,苹果,然后右键选择“组”,建立一个水果组。类似的建立一个化妆品组。然后我们可以选择“生成”菜单,让 Modeler 自动帮我们生成一个分组节点。这样,我们就可以用水果,化妆品这样的具有一定抽象意义的值来代替原来具体的值。
另一种类型就是连续型数据,比如用户收入,用户年龄等。对于连续型数据,运行数据审核节点,在质量页面我们就可以查看离群值和极值。默认情况下,Modeler 是根据平均值的标准差来确定离群值和极值的。在运行“数据审核”结果页面我们也可以设置离群值和极值的处理方法
图 12. 处理异常值的设置
选择工具条里的生成按键,选择离群值和极值超节点。这时,Modeler 会帮我们自动生成一个过滤离群值和极值的超节点。我们连接“可变文件”节点和这个超节点,Modeler 就会帮我们按照我们期望的处理方式来处理离群值和极值。
还有一种异常值是需要多个列组合才能看出来。比如某顾客每个月在超市消费额都在 1000 以上,但是他的会员信息显示他的月收入为 1000 元,这条记录就可以被识别为异常值。需要进一步分析。同样 Modeler 也提供了相应的功能来帮助我们识别这样的联合分布的异常值。
图 13. 用户收入消费表
从上边的数据中,我们很难发现哪条数据有异常,下边我们就用 Modeler 里的“图”节点来帮助我们分析数据。
我们将“可变文件”节点的数据文件指向示例数据,添加一个“图”节点,并双击“图”节点,如图:
图 14. 设置图节点
运行图节点。
图 15. “图”节点结果
这是我们能明显看到左上角的一个异常值,鼠标移动到这个点上,我们可以看到这个点所代表的详细信息。
使用 Modeler 观察数据项之间联系
对于数据挖掘来说在进行真正的建模之前,通过观察数据项之间的关系,特别是输入数据项和目标数据项之间的关系,是非常有意义的,它能快速的让我们对数据之间的关系有个大概了解,精简一些不必要的数据项,提高建模速度和稳定性。
下边我们就以超市调查结果来看,其中已经将会员消费记录整合成水果,蔬菜,日常用品,零食等,这些列的数字代表此项消费在该会员所有消费中所占的百分比。最后一列表示用户是否对体育用品优惠活动感兴趣。
图 16. 用户意向表
同样我们新建一个 Stream,加入一个“可变文件”节点,修改文件路径到示例数据,然后,我们连接一个“均值”节点。双击“均值”节点,进入编辑:
图 17. 均值节点
我们选择接受为分组字段,年龄,月收入,水果,蔬菜,日常用品,零食为测试字段。
然后,我们运行“均值”节点,得到下表:
图 18. 均值节点结果
从统计数据来看,可以决定用户是否对体育用品感兴趣的重要因素为水果,日常用品,年龄,蔬菜。而零食和月收入对预测影响较小。
通过本文的描述,你应该对数据理解所要做的工作,以及如何利用 Modeler 来帮助你完成相关工作有了一定的了解。本文所涉及的 Node 只是 Modeler 中可用于数据理解相关 Node 的一部分。另外在 Modeler 中,通过 Node 之间灵活多变的组合,可以完成更复杂的任务。这些就留给读者自己去探索吧。
“”(developerWorks 中国,2011 年 3 月),介绍了如何使用 Modeler 去应用他们已有的数据挖掘知识进行建模。在
,获取更多的 Information Management 产品相关的技术文章、在线教程、多媒体课程等技术资源。随时关注 developerWorks
和 ,包括各种 IBM 产品和 IT 行业主题。以最适合您的方式 :下载产品试用版、在线试用产品、在云环境中使用产品,或者在
中花几小时。
添加或订阅评论,请先或。
有新评论时提醒我
static.content.url=/developerworks/js/artrating/SITE_ID=10Zone=Information ManagementArticleID=835068ArticleTitle=使用 IBM SPSS Modeler 进行数据挖掘之数据理解publish-date=问题探讨;SPSS中实现多选题;数据录入、转换的新方法;文/陶维东陶晓丽;谢超香孙晓青;表1;BCDEF;摘要:多选题数据编码和录入是多选题数据处理的难点;关键词:SPSS;多选题;二分编码;分类编码;编;多选题数据录入时,变量拆分示意表;11.您选择xxxx时考虑的主要因素是什么;价格□是包装□是味道□是知名度□是流行程度□是其;□否;□否□否□否□否□否
问题探讨在SPSS中实现多选题数据录入、转换的新方法文/陶维东陶晓丽谢超香孙晓青表1ABCDEF摘要:多选题数据编码和录入是多选题数据处理的难点,数据录入人员手工录入数据时通常直接采用二分编码法或分类编码法录入多选题数据,此方法不仅费时费力,还容易出错。本文主要介绍简单、快捷的多选题“原始编码录入法”,再通过SPSS软件自带的INDEX函数和SUBSTR函数将其转换为二分编码或分类编码。关键词:SPSS;多选题;二分编码;分类编码;编码转换多选题数据录入时,变量拆分示意表11.您选择xxxx时考虑的主要因素是什么价格□是包装□是味道□是知名度□是流行程度□是其它□是□否□否□否□否□否□否假如采用0或1来记录每一个选项被选中的情况,“0”表示该选项被选中。这样表示被试该选项没有被选中,“1”当同一个问题的选项可以同时允许多个值存在时,我们称为之多项选择题,或称多重应答题。在市场调查等问卷设计时,根据调查目的合理设置多项选择题,有助于确保调查信息准确性和全面性,同时也能够节约一定的成本。比如在关于品牌使用习惯,消费价值观等方面的调查,问卷设计者更需要考虑调查对象选择的灵活性和多样性,在这种情况下,设置多选题比设置单选题,往往更符合实际情况,所获得的信息量也更多,因而更具有决策参考价值。然而在现实中,由于多选题数据录入的复杂性,导致大数多调查者不愿意在问卷中设置多选题。综观目前相关文献,大部分将重点放在多选题如何分析和检验上,而对多选题数据处理的―数据的录入和转换探讨不够深入,以下内容主要难点――讨论多选题编码问题,以及如何使用“原始编码法”录入数据,再探讨如何利用SPSS自带的函数轻松、快速和准确地完成多选题的数据转换,将其转换为二分编码或分类编码。我们在SPSS中需要设置六列,即用六个变量来记录该多选题每一选项被选择的状况,我们在SPSS分别设如Q11A、Q11B、Q11C、Q11D、Q11E、Q11F六个变量,分别记录每一选项被选择的状况,甲选择了ACDF,我们就记为Q11A=1、Q11B=0、Q11C=1、Q11D=1、Q11E=0、Q11F=1。在实际的操作中,人们很少直接在SPSS中定义六个变量来记录六个选项被选择状况。而是先在SPSS只设置一个变量Q11采用连续输入法记录每一个选项被选择状态。比如,把Q11A-Q11F六个变量的值合并在一起,被试甲此题在变量Q11中录入选项的顺序”分的数据就变成为101101。我们把这种按照“别用“和“来表示每一选项的被选择状况的方法,称为0”1”二分编码法。同理,乙选择了BCE,那么乙此题在Q11变量录入的值为011010。设置一个变量来连续录入该多选题每一选项被选择状态而不采六个变量来分别录入每一选项的被选择的状态,可以提高数据录入效率,因为在SPSS某一变量单元格内输入值后,要转入下一个单元格进行新的输入,必须按“回车键(“,而转入右边单元格进行新的Enter”)”输入要按“键,这样,如果设置六个变量分别录入每一Tab”选项被选择状态,就需要按六次“键。然而每一多选题Tab”只设置一个变量连续录入每一选项被选择的状态,那么仅这一题数据录入就可省略5次Tab键。多选题结果的分类编码2、多选题分类编码目的是该多选题选项被选择时,被试选项选择的顺序也具有分析价值,这时需把被试每一次选择都单独设置成变量进行分析,这时选择顺序成为了分类变量,每个分类变量都有多个值作为回答者的答案代码。这些分类变量反映了被试对问题的看法,因此如果继续采用二分编码法进行单个分析就会丢失调查目的所需要的被试选择顺序信息。问题2:请按顺序依次选择出你买xxxx时考虑的首要因素是和其次因素是___(双选题)?A价格;B包装;C味道;一、SPSS处理多选题数据时认可的编码方式SPSS对多选题数据处理有一定的格式要求,因此在数据录入之前,我们应该了解多选题分析时SPSS要求的数据编码和排列格式。目前,SPSS中认可的多选题分析数据格式为二分编码或者分类变码。多选题结果的二分编码1、多选题二分编码法,其原理就是将多选题的每个选项都拆分成一个“是否”问题,即二项迫选问题,拆分出的二项迫选问题数目是该多选题的选项数。问题1:您选择xxxx时考虑的主要因素是什么?A价格;B包装;C味道;D知名度;E流程程度;F其它。假设甲选择了ACDF,乙选择了BCE,使用二分编码法,就相当于将问题变成以下格式,6个二项迫选问题。基金项目:本课题受西南大学国家重点学科重大项目(批准号:XGZ413062)资助。D知名度;E流程程度;F其它。总第100期TONGJIJIAOYU.19.统计教育StatisticalEducation假设甲选择了AD,乙选择了DA,对于二分编码来说,这两个答案数据录入都是一样的,都是100100,然而对于分类编码来说,这两者是不同的。每一个被试都选择有两个选项,即两个答案。我们分别为首要因素和其次因素分别设置在数据录入时,通常的做法是将一个变量,Q11v1和Q12v2。字母转换成数字录入,如A=1;B=2;C=3;D=4;E=5;F=6。那么甲此题数据录入是在Q11v1下录入1,在Q11v2下录入编制问卷数据录入程序有点得不偿失,在这种情况下,问卷录入者一般更愿意采用纯手工方式录入数据,但是录入多选题数据时,不管是采用二分编码还是分类编码形式,数据录入者都必须时刻保持精力高度集中,不断地在大脑中将选项原始的编码转化为二分编码或分类编码,再按键输入。这种方式不仅速度慢、耗费精力,而且还容易出错。方便、快捷、高效地手工录入数据的原理是先采用最常用的数据编排格式录入数据,即每一个被试是一行数据,问卷中每一个问题只设置一个变量录入数据,多选题也不例外,以问卷中选项原来的编码按照被试“选中的顺序”录入数据。如问题1,甲选中了ABDF,就直接输入ABDF。具体来说不管是在SPSS中还是在Excel中录入数据,多选题录入数据时,每一题也只设置一个变量,即一列,如Q1,录入时先不考虑二分编码或分类编码,只是按照被试选中顺序录入选项的名,如ABC,BCD,或采用数字123,234,注意:如果采用数字编码,多选题的选项数应小于10,如果大于10可以考虑将9以后的选项以字母代替,或全部采用字母编码输入。如果多选题中要求对选中的选项排序,如DCB,DAC等,也一定要按照被试写出的顺序录入数据,这样的方法我们称之为“原始编码录入方法”。“原始编码录入法”最大的优点不仅在于减少了数据录入时按键的数量,节约了时间,同时也避免了数据录入者在数据录入时大脑人工编码转换,减轻了脑力负担,让编码转换工作留给计算机来完成。比如,对第十题的多选题,原来的题项都是ABCDEF字母编码,如果录入时采用二分法编码,数据录入者在此题按键数量为6(编码数量,如110000)加1(按Tab用于向右换单元格)次。然而采用“原始编码录入法”,数据录入者在此题按键的数量为被试此题选中的选项数量(小于或等于6,如某被试选中abc,按键数量为3)加4,而乙此题数据录入在Q11v1下录入4,而在Q11v2下录入1。实际数据录入时,基于二分编码一个多选题选只设置一个变量同样的理由,采用分类编码录入多选题数据也是每一多选题只设置一个变量(如Q11)录入,这样,甲选择了AD,那么在Q11这个变量下输入14,而乙在Q11这个变量下录入41。多选题结果二分编码与分类编码的选用3、多选题二分编码与分类编码都是SPSS多选题数据处理认可的方式,对于调查者来说,在问卷录入时,究竟选择何种编码方式录入数据,与问卷调查者问卷调查目的有关。以上例问题1为例,如果调查者仅仅想了解该类商品六个属性每一种属性被选择的情况,那么采用二分编码法更简单些,它可以很方便地分析出每一选项被选择的比例。而对于问题2,如果继续采用二分编码法录入数据,那么就会丢失被试选项选择顺序的信息,然而,采用分类编码却可以保留顺序信息。从信息量的角度来说,分类编码获得的信息量大于二分编码。如上例问题2答案(既包含选项被选择状况信息也包含选项选择顺序信息)所包含的信息量大于问题1答案所包含的信息量(只包含选项被选择状况信息)。对于问题1来说,调查的目的只想知道六种属性被选择的状况,采用二分编码法来分析,那么从信息保全的角度来说,没有而对于问题2,调查者丢失任何信息,也达到了调查的目的。目的是不仅想知道六种属性被选择的状况,还想知道被试首要考虑的属性和其次要考虑的属性,那么,在这种情况下,只有采用分类编码法,才保留选项被选择的顺序信息。从经验的角度来说,如果不是定项选择,且没有要求调查者对所选择的选项作顺序排列时,采用二分编码法分析数据更方便。1(Tab键用于向右换单元格)的和,那么此题数据录入按键数量减少了3次。这种方法不仅使数据录入者按键的次数大大减少,更为重要的是在数据录入时,录入者无须费时费力进行编码转换,看到被试选中ABC就输入ABC,无须转按照此种数据录入方式完成整个数据录入后,化为111000。再利用SPSS自带的函数对所录入的原始数据进行编码转换,将其转换为二分编码或分类编码,使之符合SPSS多选题数据处理格式。二、多选题数据录入和“原始编码录入法”以上所提到的两种多选题数据录入编码方式,是目前大部分问卷录入者手工录入多选题数据时常采用的办法。然而,为了提高工作的效率,节省更多的时间和精力,我们应该探求更为灵活和方便的数据录入方式。数据录入的方法有多种。如果调查问卷的数量达1万份以上,可以采用光电扫描的方法进行数据录入,但前提是被试要在专用答题卡上作答。如果调查问卷的数量在1千份以上,建议调查者使用计算机程序语言编制一个数据录入程序,再进行手工录入被试选择的选项,这样可以大大减轻工作量,而且还可以减少数据录入错误。这两种录入方式,都是将录入的数据,通过计算机程序自动转化为二分编码或分类编码。调查者只需要根据自己调查目的,告诉程序员采用何种编码方式来输出数据,即是采用二分变量编码,还是采用分类法编码。如果调查的问卷数量在1千份以下,2008年第1期三、多选题数据录入后的转换利用SPSS中的INDEX函数将其转换为二分编码1、在SPSS中实现将“原始编码数据”转换成二分编码方式是利用Transform菜单下Compute命令来完成的,即在Compute命令对话框中调用INDEX函数。当用户点击Transform菜单下的Compute命令时,将会弹出如图1所示的Compute对话框。如要将问题事处的结果转换为二分变量,需要为每一个选项设置一个新的变量以存放每个选项被选择状态。设置新变量方式是在TargetVariable框中输入新的变量名,新变量的值是通过后面的NumericExpression栏中输入公式计算而来。比如在TargetVariable栏中输入Q11a变量来存放第一个选项被选择的状态。再在FunctionGroup中选择.20.TONGJIJIAOYU问题探讨题2,再点OK即可。做完这步后,我们还需要将这些字母转换为数字,因为点击SPSS进行多选题数据处理时,接受的方式是数值型的。Transform菜单下Recode中的intoSamevariables命令,这时,将弹出RecodeintoSameVariables对话框,选择要进行编码转换的变量,如本题我们先选择Q10v1至NumericVariables栏中,再点击OldandNewValues按钮,将弹出RecodeintoSameVariables:oldandNewValues对话框。通过设置这个对话框实现字母编码到数字编码转换,在Old图1Compute对话框Search,点击后在FunctionsandSpecialVariable下选择INDEX函数,再点击FunctionsandSpecialVariables左边向上的按钮,将INDEX函数输入NumericExpression中。将左侧的变量列表中的第11题点选至INDEX(a1,a2)函数a1的。然而再在括号外插入“位置中,再在a2的位置输入‘a’>,插入方式是点击小计算器面板中的“0”>”再输入0。再点击OK即可。具体操作见图INDEX(第11题,‘a’)>0,要特别注意,这儿表示字符串a的方式与其它程序不同,SPSS认可的字符串方式是单引号。利用SPSS中的SUBSTR函数将其转化为分类编码2、如前所述,之所以采用分类编码分析多选题数据,主要目的是调查者不仅想知道此多选题每一选项被选择的状况,也想知道被试先选了哪些选项,其次选择了哪些选项等。即被试选项选择的顺序具有分析价值。调查者规定此多选题被试选择几项,就设几个变量。如上例中的第11题(B),调查者规定选择两项,那么在数据转换时,我们先在Variablevalue栏的Value文本框中输入a,在NewValue栏文本框中输入1,意思是将字母a转换为1。再点击Add按钮,将其再依次将b转换为2,c转换至3,添加至Old---New栏中。d转换至4,e转换至5,f转换至6。最后点击Continue按钮,回到RecodeintoSameVariables对话框,再点击OK。但是,此处的数字格式依然是字符型,因为在定义Q10v1这个变量时,我们把这个变量类型设置为字符型,现在再次点击Dataview窗口左下角的VariableView,将Q10V1变量设置成Numeric类型,这时才真正将其转换成数字。Q10v2的转换也是如此。至此,多选题的数据录入和转换工作已经完成。而多选题的数据处理主要利用Analyzes菜单下的MultipleResponse命令来完成,首先通过DefineSets来定义变量集。将每个多选题的题项定义成变量集,然后再利用MultipleResponse中的Frequencies命令进行多选题的频数分析,以如果是分类编码还可以利及Crosstab命令进行交叉表分析。用Analyzes菜单下DescriptiveStatistics中的Frequencies命令进行频数分析。如需要进行卡方检验,则对数据作适当的变换即可。参考文献:view中设定两个变量Q10v1和Q10v2,由于最初数据录入时,是直接录入字母的,而SUBSTR函数也是字符型函数,其返回值也是字符型,所以在转换之前需要设两个字符型变量。操作方式是:点击左下角的VariableView,在Name列分别输入Q11v1和Q11v2,再点击该变量名的第二列(Type),在出现变量名类型选择的对话框中,选择String,并点击[1]王维山,赵晓康.化整为零:一种新的市场调查问卷设计思路[J].统计教育,2002,2:20-22.[2]丁立宏.问卷设计:科学与艺术的结合DD市场设计实务教程(四)[J].北京统计,1999,4:39-41.[3]刘德寰.关于问卷法的题型设计[J].社会会学研究,1995,2:23-32.[4]林汉生,杨丽,夏苏建,刘润幸,蔡铃.多选题答案的编码与SPSS中SUBSTR函数的使用[J].中国卫生统计,2001,18(6):371-373.OK。再点击左下角的DataView,回到数据窗口。具体转换方式同样是,点击Transform菜单下的Compute命令,在出现的Compute对话框中的TargetVariables栏中输入刚才设置的变量名Q11v1,,在FunctionGroup中选择String,点击后在FunctionsandSpecial再点击FunctionsandSpecialVariable下选择SUBSTR函数。Variables左边向上的按键,将SUBSTR函数输入NumericExpression中。将左侧变量列表中第11题点选至SUBSTR(a,b,c)函数a的位置中,在b的位置输入1,在c的位置输入1,即SUBSTR(问题1),再点击OK即可。这样就取出了问题1被试第一个问题即首要因素所做选择的值。以同样的方法完成问题2其次因素被选择的状况,在TargetVariables框中输入Q11v2,再在NumericExpression中输入SUBSTR问作者单位:西南大学心理学院/巢湖学院(责任编辑:潘莉)总第100期TONGJIJIAOYU.21.三亿文库包含各类专业文献、外语学习资料、专业论文、应用写作文书、中学教育、行业资料、35在SPSS中实现多选题数据录入_转换的新方法等内容。 
 一、多选题数据在 SPSS 中的录入方式 SPSS 软件中对于多选题答案的标准纪录方式...数据转化 成了 a、b、c、d、e 5 个新变量(以第一种数据录入方式)的数据,...  spss 多选题录入与分析 1 不限定选择项的录入及分析在市场调查和社会学调查等问卷设计过程中,通常会设计各种多选 题,甚至排序题,来进行信息的搜集,而这些多选题或...  多选题和排序题的SPSS处理 多选题和排序题的SPSS处理 SPSS 在问卷设计中,常见...其他学者也提出 了用某些函数或编程方法快速实现数据的录入,但最终都要转换为“...  托,继续琢磨 SPSS 中关于多项选择题的统计处理方法...[多选题] A 食品包括零食 B 电子产品 C 学习用品...所有有效数据录入完毕后就可以进行统计分析了,在此我...  SPSS 中多选题(复选题)的录入及统计分析 多选题,...托,继续琢磨 SPSS 中关于多项选择题的统计处理方法...在此我使用 SPSS17.0 进 行统计数据的描述与分析...  spss 多选题录入与分析 1 ---不限定选择项的录入及分析 不限定选择项的录入及分析
20:57 在市场调查和社会学调查等问卷设计过程中,通常会设计各种...  SPSS 中多选题(复选题)的录入及统计分析 多选题,...所有有效数据录入完毕后就可以进行统计分析了,在此我...SPSS多选题处理新方法 9页 免费
spss多选题的录入...  ps最常用的快捷键 PS抠图方法、技巧大集合1/2 相关文档推荐 SPSS数据录入操作步骤...SPSS多选题分析 5页 免费 频数分析法 9页 免费S​P​S​S​数​...}

我要回帖

更多关于 excel数据录入技巧 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信