现在的位置: 首页 > 综合 > 正文

NLP开源软件

2013年11月18日 ⁄ 综合 ⁄ 共 1962字 ⁄ 字号 评论关闭

一、分词

1、  ICTCLAS

http://www.ictclas.org/包含分词、词性标注功能, C++编写,提供Java借口,业界比较出名。

2、  Ansj中文分词

http://www.ansj.org/    分词 词性等  Java,为ICTCLAS重新实现版本

 

以下三个为Lucene提供的中文分词模块

3、  IKAnalyzer

http://code.google.com/p/ik-analyzer/  Java编写

4、  paoding

http://code.google.com/p/paoding/  Java

5、  imdict-chinese-analyzer

http://code.google.com/p/imdict-chinese-analyzer/   Java   HHMM分词模型

6、  Stanford Word Segmenter

http://nlp.stanford.edu/software/segmenter.shtml

 

二、词性标注

1、  Stanford POS Tagger

 http://nlp.stanford.edu/software/tagger.shtml

2、  TreeTagger

 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

3、  TnT

http://www.coli.uni-saarland.de/~thorsten/tnt/

4、  ICTCLAS支持中文词性标注

 

三、句法分析

Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml

Berkeley Parser http://nlp.cs.berkeley.edu/Main.html#Parsing

Charniak Parser http://www.cs.brown.edu/~ec/

 

依存分析

Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml

MSTparser http://www.ryanmcd.com/MSTParser/MSTParser.html

MaltParser  http://www.maltparser.org/

四、命名实体识别

Stanford NER  http://nlp.stanford.edu/software/CRF-NER.shtml

五、语义角色标注

Illinois Semantic Role Labeler (SRL) http://cogcomp.cs.illinois.edu/page/software_view/SRL

六、综合应用

1、  LTP http://ir.hit.edu.cn/ltp/ 

哈工大语言技术平台,LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。

包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注等模块,C++编写

2、  FudanNLP  http://code.google.com/p/fudannlp/ 

Java编写

信息检索: 文本分类 新闻聚类

中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别

结构化学习: 在线学习 层次分类 聚类 精确推理

3、  Stanford CoreNLP 

http://nlp.stanford.edu/software/corenlp.shtml

包括词性标注、命名实体识别、句法分析和指代消解功能

4、ClearNLP  https://code.google.com/p/clearnlp/

This project provides several NLP tools such as a dependency parser,a semantic role labeler, a penn-to-dependency converter, a prop-to-dependencyconverter, and a morphological analyzer.

All tools are written in Java and developed by the ComputationalLanguage and EducAtion Research (CLEAR) group at the University of Colorado atBoulder.

 

cleartk    http://code.google.com/p/cleartk/

 

  

【上篇】
【下篇】

抱歉!评论已关闭.