Similarity主要是定义document和terms之间的相关性,Lucene里面也是集成了好几种在IR领域常见的similarity measure,这些类都继承Similarity,这里zhangdx也是先用一个图列出这些集成的Similarity Measure之间的继承关系
然后我们普及一下每一个Similarity的知识
- BM25Similarity,可以算是跟tf-idf一类路子,具体的公式如下
- MultiSimilarity : 对多个Similarity的结果进行整合
- PerFieldSimilarityWrapper : 对不同的Field使用不同的Similarity,这是一个抽象类,具体的实现需要由用户来定义
- SimilarityBase,抽象类,把公共的部分提取出来,子类只需要实现score和toString
- DFRSimilarity : Divergence from randomness
- IBSimilarity : information-based model
- LMSimilarity : language modeling
- TFIDFSimilarity,最经典的similarity,也是Lucene默认的实现
参考资料
Read full article from Lucene学习笔记之Similarity(Similarity in Lucene) | Something Technical
No comments:
Post a Comment