当数据遇到挖掘

现在的位置: 首页 > 综合 > 正文

当数据遇到挖掘

2013年03月24日 ⁄ 综合 ⁄ 共 9005字 ⁄ 字号小中大 ⁄ 评论关闭

SAS软件有限公司资深顾问张磊博士

信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候，刷卡交易的信息和购物情况已经进入了银行和商场的数据库；当你拿起手机拨打电话的时候，话单的信息已经进入了电信运营商的数据库；当你在医院挂号就医的时候，门诊和处方的信息已经进入了医院的数据库；当你使用公交卡乘车的时候，购买车票的信息也已经进入了公交公司的数据库。各种的情况都在表明，信息无处不在，而且每时每刻都有大量新的信息在产生，如同上下班高峰期的人流，拥挤而又嘈杂。
这还只是一幅幅静止的画面，如果让我们以时间为胶片，把这些画面连接起来，更会真切地发现在最近的二三十年内，企业中积累的各种数据已经远远超乎我们的想像。就像观看一部科幻式的灾难片，日积月累的数据如同因全球变暖而不断上升的海平面，一步步逼近我们生存的陆地，那些我们曾经熟悉的大楼、公园、道路，则在一个个沉没……
是否觉得有些危言耸听？但是对于企业来说，这并不是一个神话。让我来举一个例子，你就可以看到数据量的急速增长给企业带来多么大的困扰和改变。萨姆·沃尔顿1918年出生于美国俄克拉何马的金菲舍镇，是一个土生土长的农村人，他7岁就开始送牛奶和报纸，另外还饲养兔子和鸽子出售，学费与生活费用大部分全靠自己打工筹措，取得了萨姆大学的商学士学位。1945年他退伍后，萨姆在阿肯色州的本顿维尔小镇开了一家廉价商店，这是一家典型的旧式杂货店，50英尺宽，100英尺深，面临前大街，位于市中心，向外远望看得到铁路。商店里有现金收银机，整个店堂每个柜台后面都有供店员走动的通道，店员们坐等着顾客上门。创业之初，客户非常少，萨姆可以记住那些熟客的名字，知道他们喜欢什么样的杂货商品，常用的是哪些品牌，什么商品最好卖，下个月应该进什么货等等。此时他对数据的处理分析只需通过纸笔就可以了。
经过几十年的锲而不舍的奋斗，萨姆的连锁店已经遍布全球，2006年的营收高达3511亿美元，超过美国石油巨头埃克森美孚公司，占据美国“财富”杂志世界五百强的榜首。萨姆的公司名字就叫做“沃尔玛”（WalMart）。
作为全球第一大的零售业巨头，今天的规模已远非当年创业时可比了，遍布14个国家，7131家连锁店，近200万员工，上亿的客户。每天大量的交易信息都在源源不断地传输到公司总部的数据仓库，数据容量超过了数百TB。如何从信息的海洋中发现营销机会，找到有利可图的客户，调整货物的摆放位置，协调物流的计划和调度等等问题，已经不能简单地根据人的经验、通过查看报表或者手工分析来获取答案，人们需要更加依赖于计算机的处理能力，需要更高级的分析技术来协助从海量数据中发现潜在的规律。
这种高级的分析技术之一就是数据挖掘，而数据挖掘领域里最典型的案例就是“啤酒与尿布”的故事。

1、三个小故事
故事一、啤酒与尿布
世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一，里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯，沃尔玛利对顾客的购物行为进行了购物篮分析，想知道顾客经常一起购买的商品有哪些，结果他们有了意外的发现：“跟尿布一起购买最多的商品竟是啤酒！”
这是数据挖掘技术对历史数据进行分析的结果，它符合现实情况吗？是否是一个有用的知识？是否有利用价值？
于是，沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析，揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式：一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
既然尿布与啤酒一起被购买的机会很多，于是沃尔玛就将尿布与啤酒并排摆放在一起，结果是尿布与啤酒的销售量双双增长。
按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。

故事二、犯罪的根源
格洛斯特郡是英格兰西部的一个郡，大约有五十多万人口。在有一段时间内，发生了多起抢劫案，民众不再感觉到安全，对郡警察局的舆论压力也陡然增加了，强烈要求及时破获这些案件，并避免案件的进一步发生。警方一方面在加快破案的同时，也在努力思考怎么样才可以降低发案率。
按照传统的做法，一般会采取这样的措施：锁定抢劫案的多发地区，加派警力进行巡逻，对行为异常的人员加强盘查等等。然而，格洛斯特郡警察局发现，这些措施的收效甚微，发案率依然居高不下，因为抢劫案的发案地点并不集中，分散在多个不同的街区，这让巡逻警力的安排显得捉襟见肘，难以全面顾及。
此时，来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息，通过利用数据挖掘等分析技术，揭示出最近这段时间的抢劫犯具有一些非常显著的特征：他们大多是没有固定住所，无家可归，而且也没有稳定的工作。另外，在很多抢劫案发生前，这些罪犯都吸食了毒品。正是在毒品的刺激作用下，他们失去了自控能力，临时见财起意，对单身女性或情侣实施抢劫。
新的发现给警察局带来了新的思路，警方当机立断，对原来的增加警力加强巡逻的做法进行了调整，改为采取如下措施：一是加强对无业人员和有吸毒前科人员的管理，并通过社会福利机构对他们实施救助；然后，加强了对毒品交易易发场所的严打和治理，从源头上掐断毒品的供应。
治理得到了良好的效果，抢劫案的发案率迅速降低，格洛斯特郡的人们又重新恢复了平静的生活。

故事三、电邮加新闻
Yahoo是第一家招募了首席数据官的公司，以验证对公司而言，数据的确是一笔真实而有战略意义的财富。目标是通过提供以客户为中心的数据平台和洞察力服务，激励用户积极参与，对营销方案进行创新，从而为消费者和卖家带来价值。Usama Fayyad博士是Yahoo的首席数据官，他在和KDnuggets的Gregory的访谈中介绍了一些Yahoo在数据挖掘方面的成功案例。
“产品整合：一个例子就是你今天在Yahoo电子邮箱上看到的，数据挖掘的可视结果。通过对用户使用行为的意外模式分析，我们发现在每次会话中，人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。我们把这个发现传达给Yahoo电子邮箱产品小组，他们首先想到的就是验证这种关系的影响：在一组测试用户的邮箱首页上显示一个新闻模块，其中的新闻标题被醒目显示。”
“对于象电子邮箱这种产品，最头痛的问题就是如何获取新的‘轻量级用户’，并推动他们的用量，使之变成‘重量级用户’。如果你做到了，那么流失率就会显著下降。实际上，在我们的试验中，最显著的一组流失率下降了40%。于是Yahoo立刻开发并完善了新闻模块，并嵌入Yahoo电子邮箱的首页，到现在，上亿的消费者都可以看到并使用这种产品。我喜欢提及这个故事，因为它很好地说明了我们产品团队的及时反应能力，也证明了在用户使用行为数据中蕴含着很多很多极具价值的潜在模式。”
“即时通信：我们对雅虎通（Instant Messenger）的使用情况进行了分析，以了解激励用量的关键因素是什么。结果发现，最重要的因素是让用户扩大他们的‘好友列表’，至少增加5个新的好友。据此Yahoo精心设计了相应的营销活动，鼓励用户增加好友列表中的好友数，从而显著激励了雅虎通的用量。”
“Yahoo首页的搜索框：一个简单的例子就是我们发现，在Yahoo的首页上，把搜索框放在居中的位置（而不是以前的左侧）将提高用户的用量。这样一方面可以促进用户的积极使用，对Yahoo来说也没有成本支出。这个结果的发现过程也很有趣，我们首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能，进一步探查发现两个浏览器在视觉上的唯一区别就是：二者中的搜索框位置不同！搜索框在Netscape浏览器中是居中放置，而在IE中则是靠近左侧。很不明显的差别，但却很重要。一般谁会想到呢？”

2、什么是数据挖掘？
关于什么是数据挖掘，很多学者和专家给出了不同的定义，以下我们列出几种常见的说法：
“简单地说，数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’，不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘：概念与技术》（J. Han and M. Kamber）
“数据挖掘就是对观测到的数据集（经常是很庞大的）进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》（David Hand, et al）
“运用基于计算机的方法，包括新技术，从而在数据中获得有用知识的整个过程，就叫做数据挖掘。”——《数据挖掘－－概念、模型、方法和算法》（Mehmed Kantardzic）
“数据挖掘，简单地说，就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》（Alex Berson, et al）
“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘：机遇与挑战》（John Wang）
而作为数据挖掘领域的华人第一人，韩家炜教授在《数据挖掘：概念与技术》的教学幻灯片中，给出一个更清晰的定义：“数据挖掘，就是从大型数据库中抽取有意义的（非平凡的，隐含的，以前未知的并且是有潜在价值的）信息或模式的过程。”
这里我们可以看到数据挖掘具有以下几个特点：
l         基于大量数据：并非说小数据量上就不可以进行挖掘，实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是，一方面过小的数据量完全可以通过人工分析来总结规律，另一方面来说，小数据量常常无法反映出真实世界中的普遍特性。
l         非平凡性：所谓非平凡，指的是挖掘出来的知识应该是不简单的，绝不能是类似某著名体育评论员所说的“经过我的计算，我发现了一个有趣的现象，到本场比赛结束为止，这届世界杯的进球数和失球数是一样的。非常的巧合！”那种知识。这点看起来勿庸赘言，但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。
l         隐含性：数据挖掘是要发现深藏在数据内部的知识，而不是那些直接浮现在数据表面的信息。常用的BI工具，例如报表和OLAP，完全可以让用户找出这些信息。
l         新奇性：挖掘出来的知识应该是以前未知的，否则只不过是验证了业务专家的经验而已。只有全新的知识，才可以帮助企业获得进一步的洞察力。
l         价值性：挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”，看起来神乎其神，却什么用处也没有。这只是一种误解，不可否认的是在一些数据挖掘项目中，或者因为缺乏明确的业务目标，或者因为数据质量的不足，或者因为人们对改变业务流程的抵制，或者因为挖掘人员的经验不足，都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明，数据挖掘的确可以变成提升效益的利器。
“数据挖掘”这个术语是在什么时候被大家普遍接受的，已经难以考证，大约在上世纪90年代开始兴起。其中还有一段趣话。在科研界，最初一直沿用“数据库中的知识发现”（即KDD，Knowledge Discovery in Database）。在第一届KDD国际会议中，委员会曾经展开讨论，是继续沿用KDD，还是改名为Data Mining（数据挖掘）？最后大家决定投票表决，采纳票数多的一方的选择。投票结果颇有戏剧性，一共14名委员，其中7位投票赞成KDD，另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊，做科研应该要有知识”，于是在科研界便继续沿用KDD这个术语。而在商用领域，因为“数据库中的知识发现”显得过于冗长，就普遍采用了更加通俗简单的术语——“数据挖掘”。
严格地说，数据挖掘并不是一个全新的领域，它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果，其它还包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术，机器学习中的决策树、神经网络等技术，数据库中的关联分析、序列分析等技术。
3、数据挖掘可以做什么？
数据挖掘的用处有很多，在这里我只想从技术和应用两个层面来简单谈谈。
从技术层面来说，按照数据挖掘产出的知识可以粗分为两大类：描述型挖掘和预测型挖掘。描述型挖掘是对现有数据的进一步精炼和归纳，从中抽取中更宏观的反映数据特征的概念描述。举个例子来说，某家银行有几百万客户，数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银行不可能清楚地了解每位客户是什么样的客户，客户的消费模式到底是怎样的？这时一般需要把全体客户进行细分，划分为几个客户群，而且这种划分可以保证具有相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群，银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型，它就是一种典型的描述型挖掘。
预测型挖掘，顾名思义，就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失，哪些客户对促销活动会积极响应，哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用，从而更快地见效。
从应用层面来说，数据挖掘可以应用到很多行业中，包括电信、银行、证券、保险、制造、因特网等等。抛开具体行业的特定应用不谈，在各个行业中一般都会把数据挖掘应用在客户关系管理（CRM）之中。在CRM中的数据挖掘应用，包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外，信用评分、欺诈侦测和文本挖掘等也是常见的应用。
客户细分已经在描述型挖掘的例子中予以阐述，不再赘言。
准确地评价客户价值是企业成功运营的关键。这里的客户价值不仅仅包括客户当前给企业带来的收入，还包括消耗在客户身上的各种成本，以及客户未来会给企业带来多少价值。把客户的当前价值和未来价值合起来就构成了对客户整个生命周期（从成为企业的客户到最终流失）价值的综合评价，即LTV（LifeTime Value）。当我们明确了解客户价值之后，就可以有针对性地区分对待，尽量留住高价值客户，推动中低价值的客户向高价值发展，并为不同价值的客户提供不同等级的服务。

[/url]
图：客户生命周期各阶段的数据挖掘应用
上图中给出了客户生命周期各个阶段中可以用到的数据挖掘，横轴为时间轴，纵轴则为客户在不同时间点给企业带来的利润。整个生命周期可以分为四阶段：起始期（从潜在客户变成新客户）、发展期（逐步扩大使用产品的范围和数量）、成熟期（对企业的利润贡献达到顶峰）、终止期（逐渐远去流失）。
在客户生命周期的不同阶段，数据挖掘可以帮我们做什么呢？在起始期，由于潜在客户尚未与企业有多少接触，对各种品牌和产品缺乏了解和认知，他还在观望，看看有没有适合自己的产品。此时潜在客户基本上还谈不上对企业有多高的忠诚度，我们可以运用数据挖掘技术来协助锁定目标潜在客户群，通过对现有客户和营销活动的分析，发现哪些人最有可能变成我们的客户，通过什么促销手段和渠道来更有效地打动他，并评价如果把他发展为客户之后会给企业带来多少收益。这种数据挖掘应用称为“客户获取”。
在发展期，客户对企业的产品和服务使用频率相对偏低，用量也不大，这时可以运用数据挖掘技术来激活睡眠客户，刺激用户购买更多不同的产品（交叉销售），或者扩大现有产品的购买量（提升销售）。数据挖掘技术中的关联分析可以帮助企业发现哪些产品之间的关联程度最高，预测技术可以帮助我们了解客户对特定营销活动是否会积极响应，聚类技术则可以帮助我们找到具有相似行为和偏好的客户群体，从而进一步推动客户向高价值客户发展。
在成熟期，客户对企业的利润贡献已经最大化。但这时企业不能躺在功劳簿上睡大觉，而应该居安思危，谨防优质客户的衰退和流失，及时对激烈的市场竞争作出反应。此时可以运用数据挖掘中的预测技术来及早发现哪些客户已经出现了异动，可能会流失，并采取有针对性的挽留行动。
实际上，在整个客户生命周期，我们都要不断对客户的行为和价值进行分析，随时掌握他们的偏好和异动，这样才能加强企业对客户的洞察力，对运营进行有力的指导和促进。而这些分析都是数据挖掘可以帮助我们做到的。

4、数据挖掘流程及主流工具
限于篇幅，本文并不想对数据挖掘的技术多加阐述，读者可以阅读一些经典教材来获得相应的知识，比如《数据挖掘：概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说，常用的数据挖掘技术包括：用于客户细分的聚类算法，用于交叉销售的关联分析和序列分析算法，用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法，用于互联网的文本挖掘和Web分析等等。
Eric King在“如何在数据挖掘上投资：避免预测型分析中昂贵的项目陷阱的框架”一文（发表于2005年10月的“DM Review”）中主张数据挖掘是一段旅程，而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素：

l         一个发现过程
l         具有灵活的框架
l         按照清晰定义的策略进行
l         包含多个检查点
l         多次定期的评估
l         允许在反馈环路中对函数进行调整
l         组织为叠代式的架构
很多数据挖掘工具的厂商都对这个过程进行了简化，使之更加清晰。SAS将数据挖掘过程划分为五个阶段：抽样（Sample），探索（Explore），处理（Manipulate），建模（Model），评估（Assess）。过去人们常用循环式的饮水器来比喻数据挖掘过程。水（数据）首先涌上第一层（分析阶段），形成漩涡（精炼和反馈），等到聚积了足够多“已经处理过”的水之后，就溢出来流到下一个更低的层中。不断地进行这种“处理”，直到水流到最低层。在那里它被抽回顶层，开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此，比如神经网络算法，就是在数据集上多次运行（epochs），直至发现最优解。
但使用饮水器来比喻数据挖掘过程还不算恰当，因为它没有反映出反馈环路，而反馈环路在数据挖掘过程中是很常见的。例如，通过数据评估可以发现异常的数据，从而要求从源系统中抽取更多的数据。或者，在建模之后，会发现需要更多的记录才能反映总体的分布。
“工欲善其事，必先利其器”。当企业打算运用数据挖掘来改善企业运营时，选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑（同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素）：
l         数据存取能力：能否访问各种类型的数据，数据接口的效率如何
l         数据准备能力：数据处理能力，包括抽样、过滤、变换、整合、探索等等
l         模型算法的广度和深度：是否支持各种挖掘算法，多模型的比较及部署
l         可视化能力：多种图形展示，交互操作
l         性能：软硬件平台支持，并行，多CPU，多线程，分布式架构
l         对各种用户和行业解决方案的支持能力
l         其它能力支持：中文支持，友好界面，批处理，API，元数据管理等
企业也可以参考第三方评估机构的评测结果，来选择数据挖掘工具，比较权威的评估机构包括Gartner、IDC等等。以下引用Gartner在2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容，向大家简单介绍主流的数据挖掘产品。
“最近，著名软件评测商Gartner对数据挖掘领域软件进行了评测，最终的结果是，SAS和SPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXEN和Portrait Software，作为远见卓识家而出现。挑战者是一片空白，其它的十余个厂商占据着利基市场。”

“在此项评测中，共有SAS、SPSS、KXEN、Portrait Software、Angoss Software、Unica、ThinkAnalytics、Fair Isaac、Infor CRM Epiphany等九家公司入选，这代表着当今的市场情况，在中国市场，主要的数据挖掘工具是SAS、KXEN和SPSS。”
在2006年第1季度的评估报告中，还曾包含Chordiant和Teradata等厂商。
评测的结果参见下图。评估标准主要划分为两个角度：执行力（纵轴）和视角完整性（横轴）。其中执行力的评估包括七个评估标准，分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准，分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。

[/url]
图： Gartner客户数据挖掘魔力象限（2007年第2季度）
在上图中，把主流的数据挖掘厂商划分为四个象限，分别是领导者（Leaders）、挑战者（Challengers）、远见卓识家（visionaries）和利基市场（niche players）。以下对数据挖掘领域内的两大领导厂商SAS和SPSS分别简要介绍。
SAS

在数据挖掘市场，SAS是最大的厂商，它有众多的分析师，最多的客户经验，是数据挖掘的传统标准工具，外包和服务提供商都非常熟悉SAS的产品。
SAS有最完整的数据准备和分析工具，很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS。
SAS拥有广泛的数据挖掘成功案例，从而让客户对SAS充满信心。
SPSS

SPSS在分析各种类型的数据有最广泛的视角（行为、人口统计学、调查、非结构化数据等）。试图充分利用多种数据类型（尤其网页，流量，文本，调查）的企业应该考虑SPSS。
SPSS对于模型管理环境有最好的视角，这可以更好的管理几个数据挖掘工具的结果。

【上篇】HTTP协议详解
【下篇】开源日志系统比较

作者: degrade

该日志由 degrade 于11年前发表在综合分类下，最后更新于 2013年03月24日.
转载请注明: 当数据遇到挖掘 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

当数据遇到挖掘

作者: degrade

书签

最新文章New

本站推荐

返回首页