lucene4.7 分词器(三)
评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,通常情况下一个良好的中文分词器,应该具备扩展词库,禁用词库和同义词库,当然最关键的是还得要与自己的业务符合,因为有些时候我们用不到一些自定义词库,所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的,但是对于solr的支持就不够好了,需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本,并对扩展词库,禁用词库,同义词库完全支持,而且在solr里面配置很简单,只需要在schmal.xml进行简单配置,即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能,如果你想使用,得需要自己修改下源码了,不过即使自己修改扩展同义词也是非常容易的。
第二步,测试扩展词库,使三劫为一个词,散仙为一个词,需要在同义词库里添加三劫,散仙(注意是按行读取的),注意保存的格式为UTF-8或无BOM格式即可
下面给出扩展同义词部分的源码,有兴趣的道友们,可以参照借鉴下。
Please read full article from lucene4.7 分词器(三)
分析器类型 | 基本介绍 |
WhitespaceAnalyzer | 以空格作为切词标准,不对语汇单元进行其他规范化处理 |
SimpleAnalyzer | 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符 |
StopAnalyzer | 该分析器会去除一些常有a,the,an等等,也可以自定义禁用词 |
StandardAnalyzer | Lucene内置的标准分析器,会将语汇单元转成小写形式,并去除停用词及标点符号 |
CJKAnalyzer | 能对中,日,韩语言进行分析的分词器,对中文支持效果一般。 |
SmartChineseAnalyzer | 对中文支持稍好,但扩展性差 |
评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,通常情况下一个良好的中文分词器,应该具备扩展词库,禁用词库和同义词库,当然最关键的是还得要与自己的业务符合,因为有些时候我们用不到一些自定义词库,所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的,但是对于solr的支持就不够好了,需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本,并对扩展词库,禁用词库,同义词库完全支持,而且在solr里面配置很简单,只需要在schmal.xml进行简单配置,即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能,如果你想使用,得需要自己修改下源码了,不过即使自己修改扩展同义词也是非常容易的。
第二步,测试扩展词库,使三劫为一个词,散仙为一个词,需要在同义词库里添加三劫,散仙(注意是按行读取的),注意保存的格式为UTF-8或无BOM格式即可
下面给出扩展同义词部分的源码,有兴趣的道友们,可以参照借鉴下。
public
class
IKSynonymsAnalyzer
extends
Analyzer {
@Override
protected
TokenStreamComponents createComponents(String arg0, Reader arg1) {
Tokenizer token=
new
IKTokenizer(arg1,
true
);
//开启智能切词
Map<String, String> paramsMap=
new
HashMap<String, String>();
paramsMap.put(
"luceneMatchVersion"
,
"LUCENE_43"
);
paramsMap.put(
"synonyms"
,
"E:\\同义词\\synonyms.txt"
);
SynonymFilterFactory factory=
new
SynonymFilterFactory(paramsMap);
SolrResourceLoader loader=
new
SolrResourceLoader(
""
);
try
{
factory.inform(loader);
}
catch
(IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return
new
TokenStreamComponents(token, factory.create(token));
}
}
No comments:
Post a Comment