现在的位置: 首页 > 综合 > 正文

c#中文分词学习材料

2018年04月03日 ⁄ 综合 ⁄ 共 1139字 ⁄ 字号 评论关闭

ICTCLAS

其他资源
1名称:ShootSearch 中文分词组件(c#开源)
地址:http://gforge.osdn.net.cn/frs/?group_id=96
评价:一个完整可用的中文分词组件。包含中英文,数字混合识别,非常感谢开发者的共享;其中人名基于简单的"姓+名"的识别方式,并不可靠。基于正向最大匹配算法,准确性不是很高。另外的整个组件的架构和代码质量比较一般。但基于国内.net开发者的现状。能做到这个程度而且还是开源的,已属不易。

2名称:Mini分词器(Java开源)
地址:http://sourceforge.net/projects/wordsegment/
评价:仅仅是一个demo,而且只考虑"中文"切分,不过这个demo提供了一个很好原型,架构和设计思想都值得借鉴。而且还提供了详细的中文设计文挡。实属不可多得的参考资料.

3名称:中文信息处理基础
地址:http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
评价:北大中文系语言学专业研究生课程,做中文分词不得不看。而且还提供了很不错的语言素材资料。

其他比较零散的资料,意义不是很大。 能把上面三份资料完全研习好,估计开发的分词程序已经比较准确了。到目前为止,ME也没把"中文信息处理基础"看完.想看完,估计我得先去 "数据结构自考网站" 把算法基础打好再说。

4KTDictSeg
http://www.cnblogs.com/eaglet/tag/%e5%88%86%e8%af%8d/

5.http://www.cnblogs.com/kwklover/archive/2007/03/19/679327.html

转载自:http://ruyu108.blog.163.com/blog/static/10123108200992262747545/

抱歉!评论已关闭.