现在的位置: 首页 > 综合 > 正文

2014 百度笔试 机器学习及数据挖掘

2014年09月05日 ⁄ 综合 ⁄ 共 1943字 ⁄ 字号 评论关闭

今天是6月18号。下午两点参加了百度的机器学习及数据挖掘实习生笔试,感觉要跪了。。

   首先说下笔试人数,有2个北航、4个北邮、1个北理、1个北大,北大的貌似没来,然后LZ又深深地感到在IT圈北邮真尼玛是高端人才基地。最近参加了一些笔试,北邮到哪都是一大波一大波(大波?尴尬是一大拨)。

   一共有三套题,第一套是关于机器学习和数据挖掘的。第二套是Python,第三套是大杂烩(C++、数据结构、还有一个不知所以然、Linux/Windows、TCP/IP)。第一套是必做题,第二套和第三套是选择一套,答题时间为2个小时,我选择了大杂烩,这里就不讲大杂烩了,被大杂烩深深地伤害了。。

   第一套关于机器学习和数据挖掘,一共九个题,尼玛,这九个题中大部分竟然是2013年网易机器学习笔试题。。不信?你看,网易笔试题,注意这里面前半部分是百度笔试题,后半部分才是网易的。

   废话待会再说,先上题。

   1、什么是拟合和过拟合的?如何避免?

   这个题比较简单了,不过之前接触的都是过拟合概念,欠拟合再简单不过了,就是本来模型该是复杂的,你却用一个简单地来糊弄人。不过平常没听过欠拟合概念,一下子懵了,就瞎写了一下。回来一看,原来这么操蛋。。下面是过拟合和欠拟合的两个文字表示和公式解释的链接,嗯,挺好的。

   过拟合与欠拟合

   线性回归、逻辑回归、各种回归的学习

2+3、决策树:1、父节点与子节点的熵值大小比较;2、终止条件

这个东西很恶心啊,之前只是看了一下什么是决策树就完了,了解程度仅限于大家都知道的这张图片

至于为什么根节点是样本的的这个属性,而不是另外一个属性等问题就这么被我选择性的我忽略了,然后在笔试中惨遭失利,回来后,恶补了一下这块的知识,才发现它的博大精深。

这里给出两个不错的链接,分别是决策树ID3算法与C4.5算法的图文并茂+例子介绍:

ID3算法

C4.5决策树

4、推导朴素贝叶斯分类P(c|d),文档d(由若干word组成),求该文档属于类别c的概率,并说明公式中哪些概率可以利用训练集计算得到

这个问题是算是简单地了。下面我粘出我写的东西

5、KMeans怎么选择聚类中心?如果存在空块怎么办?

拿到这个题后,感觉有什么不对,什么是空块?一个空类?后来一想是不是只有指定的聚类中心而无依附样本?以前也没听说过,我就这样理解了,然后是这样处理的:将该类撤掉,把聚类中心加入到离其最近的类中,然后为了保证类的数目的不变,将最大的一个类分离成两个类,当时是这样写的,回来上网一搜,原来是这样的,原来搜不到。。百度和google上都找不到空块的概念,只好作罢。

6、线性SVM算法的基本原理?核函数干什么用的?

这个题就有意思了,那么多公式谁能记得住啊,就画了个图,然后balabalaba一堆,然后又画个图,无法直接线性分类的图,即你中有我,我中有你那种,然后说一下核函数正是处理这样的情况,把不可分空间映射到高维可分空间,然后用前面的线性SVM就可以了。

7、第七题是一个关于数据挖掘中关联规则的案例,MD,以前听都没听过关联规则,然后交了白卷,回来上网一查,原来关联规则这么好使以及强大呢,我肯定说不清楚的,还是附一个我认为特别好的链接吧,图文并茂+案例。。

数据挖掘中关联规则的挖掘

8、给定两个特征向量,你知道哪些计算这两个向量相似度/相一度的方法?

失败啊,彻底的失败啊。大家都知道欧氏距离这是肯定的,MD,我只写了欧氏距离,尽管知道马氏距离,但是没写,回来一查,这么多距离度量方法呢。

向量的相似度计算

9、给你200万个2000万维的训练集,给出一套完整合理的分类方案。

这个就是很开放的题了,不知道是不是随便写都可以,我先分析分析样本的特征,分析完后说,应该用PCA降维,然后拿100万样本进行训练SVM分类器(RBF核,因为这个核好用),然后选择分类错误的样本,放到训练集中重新训练,这样一直迭代,到精度达到指定要求为止,如果精度一直不高,改变PCA降维阈值,增加降维后向量的维数,重新训练-测试。。


好的,这就是机器学习与数据挖掘中的9道题目,后面几道可能顺序有误。这几道题目大都是根据数据挖掘10大经典算法来出题的,基础是有多么的重要。。

参加这次笔试,就我答题这B样,是没戏了,后面的大杂烩你们不知道我有多惨。不过感觉这次收获特别大,知道自己有很多不会的地方了,回来查漏补缺,当你这种查漏补缺的次数多了,你就有了长足的进步了,所以每一次笔试都是一次珍贵的机会啊。。

另外,在上网查阅资料的过程中(主要就是博客),感觉cnblog上的博客都是专家写的,而csdn上的博客都是像我这样半吊子写的,你们应该能注意到我上面贴的链接基本都是cnblog的,人家专业啊。

行了,写完了,感谢大家看了这么多废话。

抱歉!评论已关闭.