现在的位置: 首页 > 综合 > 正文

大数据之我见

2019年03月11日 ⁄ 综合 ⁄ 共 969字 ⁄ 字号 评论关闭

现在大数据是个热词(buzzword),我也凑个热闹。现在前面不加个“大”字都不好意思说数据,大确实是大数据的特点之一。以前也有数据,为什么最近变大了呢?信息技术的发展,硬件的发展,网络技术的发展使海量数据的获取、存储、处理变得容易,所以数据变大了。”大“只是现在数据的一个特点,有mapreduce, hadoop, spark等工具来应对数据的大。 言必称hadoop等工具的人不见得真的懂数据分析,毕竟大数据之前我们也做数据分析,当时我们用抽样的方法(Sample)。

数据分析需要三个方面的知识,IT技能、数学和领域知识。 IT技能包括前面提到的hadoop,mapreduce等新工具的使用,还包括数据库、SQL等旧工具的使用,相对来说我认为不是最关键的技术。数学方面知识包括概率论数理统计、线性代数等数学分支,这些反而是我认为相对更重要的,一个数据科学家可以不会用hadoop,mapreduce等工具,但这些数学知识必知必会。做数据分析,数据不是最重要的,我们想由数据回答什么问题更重要。领域知识是用来提这些问题的。分析电子商务的商品数据,分析生物信息学的蛋白质和基因,分析行为经济学,需要不同的领域知识。所以说大数据分析团队需要具备这三个方面能力的成员。

数据分析有描述(Descriptive Statistics),推论(Statistics Inference),应用等几个层面。描述相对简单,推论、预测和应用起来就难了。所以说宣称自己是大数据专家的人,还要看他处于哪个层面。 

我觉得下面三句话对从事数据分析的人会很有用。一,相关不代表因果。二,洞察力比工具重要。三,问题比数据重要。

传统数据分析重视因果的分析,大数据分析往往不重视。在大数据分析中,相关可能比因果重要。我知道啤酒和尿布摆放在一起可以促进销量,不必要知道背后的原因。除了对相关和因果的追求不同外,大数据分析不同于普通数据分析的另外两个特点是大数据分析要效率不要精确(全体数据里可能包含错误数据,不可能全部剔除),要全体不要抽样。

我看了微信公众号CSDN大数据、数据客上的几篇文章,奥卡姆剃刀微博上的文章,还有霍普金斯大学关于数据科学的一门介绍性的公开课,归纳出上面的观点。自己对数据分析还是门外汉,本文目的是给自己绘个大的蓝图,而不是一开始就纠结到具体的工具上去。

 

抱歉!评论已关闭.