现在的位置: 首页 > 综合 > 正文

毕业两年来做过的项目

2013年10月04日 ⁄ 综合 ⁄ 共 643字 ⁄ 字号 评论关闭

0、网页数据提取,基于手工定制的模板,有一定得容错性。不过应用的界面不够好。总体来说,大刚网页提取程序更胜一筹。

1、使用状态机匹配网页中的地址和电话。借助大量抓取google的搜索结果。问题是:google上面的数据大量过期了。
2、小型的lucene搜索,主要是搜索英文的内容。 C#实现 ,单机 ,windows 服务。现在看起来这个应用太小了;

     而且很多东西应该做为独立的服务。
3、oracle 空间数据库搜索。小规模地图应用,点、线的搜索。简单oracle优化。
4、svm 人群分类
5、线性回归用于回归预测。tree net 特征提取,gbdt 分类,。
6、超大数据的hadoop 聚类。层次聚类方法。
7、fp growth 共现挖掘。
8、基于词典的数据压缩(hadoop)
9、搜索词的挖掘与应用……

10、excel 数据分析,分析相关度,回归分析等等。也看了R语言,但是也没有看完。

    

     2008年8月开始,逐渐熟悉了linux的开发环境,学会了使用vim,python,linux c++,awk,eclipse,更先进的机器学习方法。记得刚到淘宝时,每天回到宾馆就到头大睡,直到晚上2、3点起来再洗脸洗脚的日子。

 

最大的成长是:对应用模块的划分;业务逻辑的划分;应用架构的感受;价值观的改变;文档的规范化;代码的规范化……

终于满足了自己的愿望,可以操作超大的数据量;正规的管理环境;一流的企业文化。

最近的培训也比较多,有机会整理自己的得失。不能总是低着头忙着赶路,也要停下来思考一下。

 

抱歉!评论已关闭.