现在的位置: 首页 > 综合 > 正文

数据挖掘的十大错误现象(翻译)

2014年01月18日 ⁄ 综合 ⁄ 共 953字 ⁄ 字号 评论关闭


如果你有下列行为之一,那你就犯错误了:You've made a mistake if you…
0. 缺少数据Lack Data
1.
热衷于训练Focus on Training

  在癌症检测的项目中,医生和研究人员在使用神经网络训练数据时惊奇发现:训练长时间(几周或几天)的训练对结果的提高是有限的,更多时候会有更糟糕的评估结果。
2.
依赖于一种技术Rely on One Technique

"To a little boy with a hammer, all the world's a nail."
(如果一个人拥有一把锤子,那么全世界都是钉子)
For best work, need a whole
toolkit.(为了更好的工作,需要一整个工具箱)
3. 问错误的问题(即试图达到一个错误的目标)Ask the Wrong Question

a)项目目标

在电话欺诈检测的项目中,不要试图去分类一般呼叫的欺诈和非欺诈,而是要标注每一个账户的正常行为,

然后标记离群,就会取得成功

b)模型目标

例如在员工股份分红中,大多数研究者热衷于平方差,因为这样简单方便。但是我们应该让计算机做对系统最有帮助的,而不是最容易的。
4.
仅听从于数据Listen (only) to the Data
5. 接受(容忍)漏洞Accept Leaks from the Future
6.
认为烦人的实例不重要  Discount Pesky Cases
7.推断 Extrapolate

试图从最初的几次试验就获得太多的信息

在发现巨大错误还很难去除不正确的想法

维度祸根:低维度中的直觉在高维度中用处不大
8. 回答每一个询问(这里为输入更合适)Answer Every
Inquiry
不知道是一个有用的模型输出状态 "Don't Know" is a useful model output state

 能够估计到每个输出的不确定性      Could estimate the uncertainty for each output

9. 随意采样 Sample Casually
10.太迷信所谓最佳模型   Believe the Best Model

a)我们并不总是需要可解释性,模型可以是有用的但不具有"正确性"和可解释性

b)通常,许多相似的变量可以用,而且所谓最好模型的特定结构可能变化复杂。但是结构简单不等于功能简单,一些竞争模型往往看起来不同
(简单),但能够同样工作。

抱歉!评论已关闭.