数据分析软件SPSS及数据挖掘软件WEKA使用

现在的位置: 首页 > 综合 > 正文

RSS

数据分析软件SPSS及数据挖掘软件WEKA使用

2014年11月07日 ⁄ 综合 ⁄ 共 1901字 ⁄ 字号小中大 ⁄ 评论关闭

1. 说明
从数据表中读入数据，用SPSS进行数据处理，然后用WEKA进行数据分析。

2. EXCEL

1) 目的
用java将其它数据写入EXCEL

2) 读写excel的jar包jexcelapi从此处下载
http://www.andykhan.com/jexcelapi/download.html

3) java读写excel例程示例
http://www.javaeye.com/topic/55844
http://mengqingyu.javaeye.com/blog/440358

3. 数据分析软件SPSS（占据90%市场分额）

1) 目的
整理数据，分析数据，结果展示

2) 读入数据

a) 方法一：从excel中复制单元格，粘贴在SPSS中

b) 直接打开excel文件(*.xls)，注意因为版本原因，用java写的xls有的需要再用excel转存一下才能供SPSS使用

3) 操作数据

a) 数据处理

i. 修改字段类型
从SPSS左下角的进入Variable View选项卡，可改变字段的类型值
Meature数据量度: Scale(数值), Ordinal(可排序), Nominal(离散)

ii. 计算新变量
菜单Transform->Compute varliable，将根据现有列计算出新列

iii. 排序
菜单Transform->Rank cases生成新列，新列中是排序号

iv. 修改内容
菜单Transform->Record into xxx，根据某列数据通过某种算法产生新数据

v. 文件操作
菜单Data->Merge File

vi. 数据整理：
菜单Data->Select Cases，数据选择
菜单Data->Weight Cases，数据加权

b) 数据分析

i. 生成关系矩阵
菜单Analyze->Correlate->Bivariate，生成矩阵，数越大，相关性越大

ii. 生成K均值聚簇
菜单Analyze->Classify->K-Means cluster，将需计算的数据放入Variables，说明列放入Label Cases by，在Iterate中设置迭代次数，Number of clusters中输入簇数，选中Save中项，以生成列（记录属于哪个簇，与簇心的距离）

c) 数据描述，结果展示：
菜单Graphs

d) 注意：开始使用时，数据最好转成int型，以便于计算

4) 菜单说明
Data菜单：操作行
Transform菜单：操作列
Analyze菜单：数据分析，主要是聚类和分类方法

4. 数据挖掘软件WEKA

1) 目的
数据分析

2) 读入数据

a) 使用SPSS和Excel保存为csv文件(文本格式的数据文件)

b) 在预处理选项卡中用Open file打开csv文件，注意csv中不能含有特殊字符

c) WEKA中默认的文本格式为arff，也是一种文本格式的数据文件

3) 操作数据

a) 分类
选项卡Classify选择Choose->trees->J48或ID3 (ID3只能处理离散值)，生成决策树

b) 关联
选项卡Associate选择Choose->apriori，在按钮右侧通过点击设置支持度(lowerBoundMinSuport)，可信度(upperBoundMinSupport)，apriori需要离散化数据

5. 参考

1) 《spss数据统计分析与实践》pdf文档

【上篇】调试lib库的一些小技巧
【下篇】android的intent使用方法

作者: agogo

该日志由 agogo 于10年前发表在综合分类下，最后更新于 2014年11月07日.
转载请注明: 数据分析软件SPSS及数据挖掘软件WEKA使用 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

数据分析软件SPSS及数据挖掘软件WEKA使用

作者: agogo

书签

最新文章New

本站推荐

返回首页