现在的位置: 首页 > 综合 > 正文

数据分析软件SPSS及数据挖掘软件WEKA使用

2014年11月07日 ⁄ 综合 ⁄ 共 1901字 ⁄ 字号 评论关闭

 

1.    说明
从数据表中读入数据,用SPSS进行数据处理,然后用WEKA进行数据分析。

2.    EXCEL

1)        目的
java将其它数据写入EXCEL

2)        读写exceljarjexcelapi从此处下载
http://www.andykhan.com/jexcelapi/download.html

3)        java读写excel例程示例
http://www.javaeye.com/topic/55844
http://mengqingyu.javaeye.com/blog/440358

3.    数据分析软件SPSS(占据90%市场分额)

1)        目的
整理数据,分析数据,结果展示

2)        读入数据

a)         方法一:从excel中复制单元格,粘贴在SPSS

b)        直接打开excel文件(*.xls),注意因为版本原因,用java写的xls有的需要再用excel转存一下才能供SPSS使用

3)        操作数据

a)         数据处理

                                      i.              修改字段类型
SPSS左下角的进入Variable View选项卡,可改变字段的类型值
Meature
数据量度: Scale(数值), Ordinal(可排序), Nominal(离散)

                                    ii.              计算新变量
菜单Transform->Compute varliable,将根据现有列计算出新列

                                  iii.              排序
菜单Transform->Rank cases生成新列,新列中是排序号

                                   iv.              修改内容
菜单Transform->Record into xxx,根据某列数据通过某种算法产生新数据

                                     v.              文件操作
菜单Data->Merge File

                                   vi.              数据整理:
菜单Data->Select Cases,数据选择
菜单Data->Weight Cases,数据加权

b)        数据分析

                                      i.              生成关系矩阵
菜单Analyze->Correlate->Bivariate,生成矩阵,数越大,相关性越大

                                    ii.              生成K均值聚簇
菜单Analyze->Classify->K-Means cluster,将需计算的数据放入Variables,说明列放入Label Cases by,在Iterate中设置迭代次数,Number of clusters中输入簇数,选中Save中项,以生成列(记录属于哪个簇,与簇心的距离)

c)         数据描述,结果展示:
菜单Graphs

d)        注意:开始使用时,数据最好转成int型,以便于计算

4)        菜单说明
Data
菜单:操作行
Transform
菜单:操作列
Analyze
菜单:数据分析,主要是聚类和分类方法

4.    数据挖掘软件WEKA

1)        目的
数据分析

2)        读入数据

a)         使用SPSSExcel保存为csv文件(文本格式的数据文件)

b)        在预处理选项卡中用Open file打开csv文件,注意csv中不能含有特殊字符

c)         WEKA中默认的文本格式为arff,也是一种文本格式的数据文件

3)        操作数据

a)         分类
选项卡Classify选择Choose->trees->J48ID3 (ID3只能处理离散值),生成决策树

b)        关联
选项卡Associate选择Choose->apriori,在按钮右侧通过点击设置支持度(lowerBoundMinSuport),可信度(upperBoundMinSupport)apriori需要离散化数据

5.    参考

1)        spss数据统计分析与实践》pdf文档

 

抱歉!评论已关闭.