比较lucene各种英文分析器Analyzer

现在的位置: 首页 > 综合 > 正文

RSS

比较lucene各种英文分析器Analyzer

2011年07月15日 ⁄ 综合 ⁄ 共 3041字 ⁄ 字号小中大 ⁄ 评论关闭

比较常用的几种英文分析器，他们之间的区别见程序中的注释。
SimpleAnalyzer
StandardAnalyzer
WhitespaceAnalyzer
StopAnalyzer

package analyzer;

import java.io.Reader;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.SimpleAnalyzer;

import org.apache.lucene.analysis.StopAnalyzer;

import org.apache.lucene.analysis.StopFilter;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.analysis.WhitespaceAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class TestAnalyzer {

private static String testString1 = "The quick brown fox jumped over the lazy dogs";

private static String testString2 = "xy&z mail is - xyz@sohu.com";

public static void testWhitespace(String testString) throws Exception{

Analyzer analyzer = new WhitespaceAnalyzer();

Reader r = new StringReader(testString);

Tokenizer ts = (Tokenizer) analyzer.tokenStream("", r);

System.err.println("=====Whitespace analyzer====");

System.err.println("分析方法：空格分割");

Token t;

while ((t = ts.next()) != null) {

System.out.println(t.termText());

}

public static void testSimple(String testString) throws Exception{

Analyzer analyzer = new SimpleAnalyzer();

Reader r = new StringReader(testString);

Tokenizer ts = (Tokenizer) analyzer.tokenStream("", r);

System.err.println("=====Simple analyzer====");

System.err.println("分析方法：空格及各种符号分割");

Token t;

while ((t = ts.next()) != null) {

System.out.println(t.termText());

}

public static void testStop(String testString) throws Exception{

Analyzer analyzer = new StopAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====stop analyzer====");

System.err.println("分析方法：空格及各种符号分割,去掉停止词，停止词包括 is,are,in,on,the等无实际意义的词");

//停止词

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

public static void testStandard(String testString) throws Exception{

Analyzer analyzer = new StandardAnalyzer();

Reader r = new StringReader(testString);

StopFilter sf = (StopFilter) analyzer.tokenStream("", r);

System.err.println("=====standard analyzer====");

System.err.println("分析方法：混合分割,包括了去掉停止词，支持汉语");

Token t;

while ((t = sf.next()) != null) {

System.out.println(t.termText());

}

public static void main(String[] args) throws Exception{

// String testString = testString1;

String testString = testString2;

System.out.println(testString);

testWhitespace(testString);

testSimple(testString);

testStop(testString);

testStandard(testString);

}

【上篇】高考前鼓励自己的话
【下篇】用伪随机数生成器Random生成随机数序列

作者: csutj

该日志由 csutj 于13年前发表在综合分类下，最后更新于 2011年07月15日.
转载请注明: 比较lucene各种英文分析器Analyzer | 学步园 +复制链接

抱歉!评论已关闭.

学步园

比较lucene各种英文分析器Analyzer

作者: csutj

书签

最新文章New

本站推荐

返回首页