现在的位置: 首页 > 综合 > 正文

数据科学维恩图

2018年01月27日 ⁄ 综合 ⁄ 共 1786字 ⁄ 字号 评论关闭

原文:The Data Science Venn Diagram (2010-09-30) by
Drew Conway

数据科学维恩图拥有非营利性的知识共享许可

周一,我——谦卑地——加入了由纽约市在所有事物数据思维最复杂的思考家组成的组织,为帮助O’Reily组织他们即将到来的Strata会议,还参加了一个为期半天的非会议。突破会议真的是太棒了,参会人数满足了由专家驱使的突出的会上讨论的需求。我参加的最棒的会议之一是关注与数据科学教学相关的一些问题的会议,这也就不可避免的会有一场关于成为一名有能力胜任数据科学家所需技能的讨论。

 

正如我之前所说的,我认为“数据科学”这个词有一点用词不当,但我在参加完讨论之后却是满怀希望的;大部分原因是因为缺少关于此主题的课程的一致意见。定义这些技能的难处是实质和方法之间的界限很模糊,同时怎样区分黑客、统计学家、论题专家、他们的重叠部分和数据科学的适用处也是很不清楚的。

 

不管怎样,清楚的是如果要成为一名有能力的数据科学家,需要学习很多东西。不幸的是,一些简单的关于枚举的文章和教程都不能解决这个问题。因此,为了试图简化讨论,并向本来就有很多想法拥挤市场我提出了自己的想法——数据科学维恩图。

                                                                                                    

如何阅读数据科学维恩图

数据的主要颜色分别代表了:黑客技术、数学和统计知识和实质性的专业知识。

周一的时候我们用了很多时间讨论在大学里的“什么地方”可能有数据科学的课程。大部分对话都运用了修辞方式,因为每个人都熟知这些技能的跨学科的固有性质;但我为什么强调这三种技能?首先,他们都没有一个特定的学科,但更重要的是每一种技能,各自来说都非常有价值,但当其与另外一种相结合时,最好的情况是结合之后出现的只不过不是数据科学,而最坏的情况则是非常危险的。
不论好坏,数据是电子贸易形式的商品;因此,为了留在这个市场中,你需要黑客。不论怎样,这不需要有计算机科学背景——事实上——我遇到的许多令人印象深刻的黑客都没有学习过任何计算机科学课程。成为一个成功的数据黑客需要的黑客技能有:用命令行操作文本文件、理解向量化操作和算法思想。
一旦你已经获得和清理了数据,下一步是从中真正提取其内部的本质。为了能做到这一点,你需要应用一些合适的数学和统计方法,至少要熟知一些基础工具。这不是说必须要有统计学博士学位才能胜任数据科学家,但是的确需要知道普通最小二乘法回归是什么和怎样解。
第三个关键部分——实质——这是我的数据科学与已经写出来的内容存在分歧的地方。对于我来说,数据加上数学和统计只能给与你机器学习(如果你感兴趣,这的确很好),但对于数据科学,这不是很好。科学是发现和建立知识架构,这就要求要有一些关于世界和假设的积极的问题,并能收集数据和使用统计方法测试。另一方面,实质性的专业知识加上数学和统计知识就成了大多数的传统研究员。拥有博士学位的研究员花费了大量的时间来获取这些领域的专业知识,却花费很少的时间学习技术。其中部分是不因理解技术而奖励研究员的学术文化。也就是说,我遇到了许多渴望抗拒这种传统的年轻专业学术者和研究生。
最后再说说黑客技术加上实质性专业知识所组成的危险区域。这里我指的是那些“有足够知识成为危险分子”的人,这也是图中最棘手的区域。这个区域内的人完全有能力在其非常了解的领域提取和构建数据,甚至可能知道足够多的R去进行线性回归,并得到回归系数;但是他们缺少对于这些回归系数的理解。这是图中的短语“谎话,该死的谎话和统计”的出处,因为对于这两个技能的重叠部分,无论是无知还是怨恨,都给人们创建一个似乎合法的分析的能力,甚至不用理解他们是如何做到的或创建的是什么。幸运的是,如一直没有学习数学和统计,这就需要故意的无知去获取黑客技能和实质性专业知识。同样的,在危险区域内的人为数不多,然而,不需要很多就能造成很多的破坏。

我希望这个简明的维恩图为理解数据科学是什么和需要什么提供了一些清晰的思路。通过在更高的层次上考虑这些问题来防止讨论退化成对于细枝末节的讨论,比如特殊的工具或平台,我认为这些不利于讨论。

我确信我忽略了许多重要的东西,但再次重申下,我的目的不是为了一些具体的细节。和平时一样,欢迎大家留下评论。

同时也发布在dataists上

抱歉!评论已关闭.