现在的位置: 首页 > 综合 > 正文

【gloomyfish】【原创】数据分析之 – 散点图

2013年07月31日 ⁄ 综合 ⁄ 共 3608字 ⁄ 字号 评论关闭

 

 一:什么是散点图
- What is a scatter plot

任何数据分析的第一步是图形化曲线显示数据,根据相互关系,图形曲线被称为散点图。散点图可以表示两个变量之间真实的关系强度,关系的趋势,是否存在Outliers

 

二:散点图的目的是什么

ü        
观察变量之间的关系,发现统计数据中是否存在问题,或者特殊值和感兴趣的数据

ü        
数据是如何被离散化的

ü        
通过眼睛观察是否存在Outliers

 

三:示例说明

一个人的肺活量和屏住呼吸时间的研究,一个人能屏住呼吸多久,一个研究者选择一组人作为研究对象,测量每个人的肺活量作为第一个变量,屏住呼吸时间作为第二个变量,研究者将使用散点图来描述数据,假设肺活量作为水平轴,屏住呼吸时间做为垂直轴。

 

四:代码实现

基于Java开源的数据图形显示组件-JFreeChart已经实现了离散图,只要我们提供数据即可

基于上面描述的演示如下:

 

 

 plot

  

 

五:相关性系数 correlation coefficient – R/r

r calculation

 

Relationship Between X and Y Axis

r = + 1.0

Strong - Positive

As X goes up, Y always also goes up

r = + 0.5

Weak - Positive

As X goes up, Y tends to usually also go up

r = 0

- No Correlation -

X and Y are not correlated

r = - 0.5

Weak - Negative

As X goes up, Y tends to usually go down

r = - 1.0

Strong - Negative

As X goes up, Y always goes down

 

本例中的r值为0.9814324978439516,显然肺活量跟屏住呼吸时间长短有很强的正相关性。

以下为源代码:

 

抱歉!评论已关闭.