All About Programming: lucene4.7 分词器（三）

lucene4.7 分词器（三）

分析器类型	基本介绍
WhitespaceAnalyzer	以空格作为切词标准，不对语汇单元进行其他规范化处理
SimpleAnalyzer	以非字母符来分割文本信息，并将语汇单元统一为小写形式，并去掉数字类型的字符
StopAnalyzer	该分析器会去除一些常有a,the,an等等，也可以自定义禁用词
StandardAnalyzer	Lucene内置的标准分析器,会将语汇单元转成小写形式，并去除停用词及标点符号
CJKAnalyzer	能对中，日，韩语言进行分析的分词器，对中文支持效果一般。
SmartChineseAnalyzer	对中文支持稍好，但扩展性差

评价一个分词器的性能优劣，关键是看它的切词效率以及灵活性，及扩展性，通常情况下一个良好的中文分词器，应该具备扩展词库，禁用词库和同义词库，当然最关键的是还得要与自己的业务符合，因为有些时候我们用不到一些自定义词库，所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的，但是对于solr的支持就不够好了，需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本，并对扩展词库，禁用词库，同义词库完全支持，而且在solr里面配置很简单，只需要在schmal.xml进行简单配置，即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能，如果你想使用，得需要自己修改下源码了，不过即使自己修改扩展同义词也是非常容易的。
第二步，测试扩展词库，使三劫为一个词，散仙为一个词,需要在同义词库里添加三劫,散仙（注意是按行读取的）,注意保存的格式为UTF-8或无BOM格式即可
下面给出扩展同义词部分的源码，有兴趣的道友们，可以参照借鉴下。

public class IKSynonymsAnalyzer extends Analyzer {

    @Override

    protected TokenStreamComponents createComponents(String arg0, Reader arg1) {

        Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词

        Map<String, String> paramsMap=new HashMap<String, String>();

        paramsMap.put("luceneMatchVersion", "LUCENE_43");

        paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");

        SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);

         SolrResourceLoader loader=    new SolrResourceLoader("");

        try {

            factory.inform(loader);

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

}

        return new TokenStreamComponents(token, factory.create(token));

}

}

Please read full article from lucene4.7 分词器（三）

lucene4.7 分词器（三）

No comments:

Post a Comment

Labels

Popular Posts