本篇文章介绍的是基于Excel和SPSS的数据分析和数据可视化操作.大数据时代,我们每天接受的数据量是巨大的,只有分析数据之间的联系进而才可能得到商机和"钱"途,本篇文章将从最基础的概念入手到实际的对数据的分析实战,从Excel和SPSS两个方面对数据进行分析.
基于SPSS和Excel写了的调查数据分析
是用已收集数据.分析数据并进而由数据得出结论的一组概念.原则和方法,因而也有人称统计学为统计方法
SPSS和Excel
变量:用来描述总体中成员的某一特性
问卷组成:封面信(目的).指导语(如何填写问卷).问题.答案.编码几个部分组成
问题可分为开放式问题和封闭式问题:
编码:指的是将问题和答案用一个字母或者数字来代替
问卷的结构:开头,正文(调查信息和背景资料)和结尾(可以设置开放题,征询被调查者的意见或者感受,也可以是感谢语以及其他补充说明)三部分组成
1填空题(一般就是填数字的填空题,让调查者容易回答,容易填写的问题可以设置为填空题)
2.二项单选题:
问题的答案只有是和不是(或其他形式但是只有肯定和否定两种形式)
回答者根据自己的情况选择其一
3.多项单选题
给出的答案至少在两个以上,回答者根据自己的情况选择其中一种作为回答,这是各种社会调查问卷中采用最多的一种问题形式,其答案特别适合进行频率分析和交叉分析,在设计上,这种问题形式的关键之处是保证答案的穷尽性和互斥性
4.多项限选题
多项限选也称为限选不排序,与多项选一(多项单选题)有所不同的是,可以在所列举的多个答案中,要求回答者根据自己的情况选择若干个
5.多项排序选(后面处理这种问题是需要加权值进行处理的)
多项排序选也称为限选排序,这种题目可以是针对多项限选题(限选不排序)的不足而出现的一种问题类型,在一定程度上可以看成是多项单选题和多项限选题的一种结合.
6.多项任选题
多项任选也称为不限选.多项任选题是在所提供的的答案中,被调查者可以任意选择各种不同答案的一种问题形式.
7.矩阵题(表格题)
采用矩阵(表格)的形式将同一类型的若干个问题集中在一起,构成一个"大"问题矩阵题通常采用李克特量表
8.相倚问题
答案的设计
穷尽性和互斥性
穷尽性:表示了答案包括了所有可能的情况
互斥性:指的是答案之间不能交叉重叠或互相包含
量表
量表主要是用来测量人们的感觉或者主观判断,它的测量逻辑是假定有相同主观感觉的人会在一个由弱到强的连续线段(维度)的相同位置,标出自己的感觉.
(1)李克特量表 (答案类型在4~8个之间)
(2)博加德斯社会距离量表
(3)语义差异量表(要确定的是人们对于某一事件或者事务的感觉,先找到最强和最弱,然后分为不同的等级,一般为7分等级)
在统计分析之前,必须将问卷数据录入计算机,而在录入之前需要对录入的数据进行核对和清理
Excel技巧:
要改动多个单元格的值为同一个值时
在Ctrl选择多个单元格,写要修改的值然后按Ctrl+Enter确定.
1.单选题的录入(注意题目和答案都用字母或者数字表示)
2.多项单选题
3.多项限选题(两种处理方式:二分法和分类法):建议使用分类法,这样变量的取值比较少
二分法
二分法的关键是:把每个小答案都分为两份,选或者不选(选择这个小选项则用1表示,否则置空表示不选)
二分法:有几个选项就取多少个变量,每个变量有两个取值,一个是1,一个是空,做多限选的个数就是变量中最多能选择的个数.
分类法:
分类法:是只有三个(几项限选就是几个)变量,每个变量的取值都可以是任意的一个答案选项代表的数字或者字母.
相当于把答案分为了n类,每个变量的取值都可以是任意一个选项
二分法相当于把每个选项分为两类,选或者不选
4.多项不限选(推荐使用二分法)
在Excel中求均值.最大值.最小值
如果是处理填空题中的求均值,一般把一组数据中的组中值作为该组的度量的标准参与计算,这里可能会使用到if函数
在Excel中使用if函数 量表:
排序题:
- 数据有效范围的清理
- 对数据中的奇异值进行清理,例如:在数据录入中,性别男用1,女用2,那么3就属于奇异值
- 数据逻辑一致性的清理
- 在相倚问题和多项限选题中出现较多,如有问题1:您是否有手机,问题2:您的手机平均月费,那么就不能没有手机还有月费
- 数据质量的抽查
- 筛选出范围不合理的单列
- 在Excel中核对"大小适中"的数据
- 用自动筛选找出不合理的关联题
- “是否有手机"和"平均月费”
- 用高级筛选找出重复的记录
- 重复记录
简单筛选:仅仅只筛选出一个选项不符合范围的问卷(这样可能会导致我们需要多次筛选才能得到所有的不符合范围的问卷的编号)
步骤:
- 点击筛选
- 在标题中选择不合理的范围或者自己定义不合理范围的筛选条件
高级筛选出所有不符合范围的问卷
分为两种,
条件是或还是与(不符合一个就筛选出来还是全部不符合才筛选出来)
步骤:
- 复制要筛选的部分的列标题,粘贴(细节:和本来的数据之间至少隔3行)
- 写条件
- 与(全部不符合才筛选出来):与条件写在一行
- 或(不符合一个就筛选出来):不能写在同一行
- 点击高级筛选:将筛选结果复制到其他位置
- 列表区域:选择的就是我们原数据区域的(所有原数据区域)
- 条件区域:点击选择我们写的条件区域
- 复制到:指的是筛选结果复制到,点击选择一个单元格(因为我们不知道我们的筛选结果到底有多少),注意和条件区域也最少隔3行
避免录入数据时超出有效范围
- 选中要输入数据的区域
- 点击数据---->数据有效性(设置合适的数据有效性的允许值)
- 点击来源------>选中我们数据的来源
这样在数据录入时,我们就只能输入规定的数值
同时还可以设置出错警告来给出友好的提示信息.
对于"没有手机’'和"有平均月费"的问题,
1.我们可以通过多次普通筛选(在筛选基础上筛选)来得出结果
2.通过if函数标记处奇异值