Lucene4.3进阶开发之日照光华(十四)- CustomScoreQuery



Lucene4.3进阶开发之日照光华(十四)- CustomScoreQuery
上次介绍的评分主要是围绕着DefaultSimilarity这个类来介绍的,其实这个类控制评分的方式更加倾向于底层控制,而散仙下文要介绍的CustomScoreQuery这个类,则更加倾向于应用层面的控制。 

在一份论坛的索引里面有帖子的标题和帖子发布的日期(为了简化程序,假设按年来记录的),这个时候有如下需求,要求我们检索标题时,不仅要检索出与关键词最相关的帖子,而且还得是年份距现在相距不远的帖子,进行提拔加权,综上所述,这里面有2个关键因素,第一内容相关,
第二,近期时间的日期拥有的更高的加权。可以看出那么这个文档的评分是要结合这两个因素来完成最后的总的评分。

到这里可能有些人就会有疑问,为什么不对检索完的内容,按时间排序降序排序呢,这里可能会出现一个问题,如果是硬性的按时间降序排序,可能会破坏评分机制,因为默认的排序是按照评分降序排的,如果按照时间排序可能就会破坏原有的顺序,所以这个时候就需要我们统一下方式,要么用评分的方式来解决问题,那么用排序的问题来解决,显然统一评分的方式会更加适合这个场景。 


我们可以采取两种方式,来完成这个方式,下面看第一种方式:基于CustomScoreProvider的方式, 我们统一对2010年的帖子加权为2,默认是与原来的评分是相乘的关系

  1. public class MyScoreProvider extends CustomScoreProvider {  
  2.     AtomicReaderContext reader=null;  
  3.     public MyScoreProvider(AtomicReaderContext context) {  
  4.         super(context);  
  5.         reader=context;  
  6.     }  
  7.     @Override  
  8.     public float customScore(int doc, float subQueryScore, float valSrcScore)  
  9.             throws IOException {  
  10.         //FieldCache.DEFAULT.getTerms(reader.reader(), "date");  
  11.         //从域缓存里面加载索引字段的信息  
  12.       Ints ints=FieldCache.DEFAULT.getInts(reader.reader(), "date"false);  
  13.        int date=ints.get(doc);  
  14.        float ss=1;//判断加权   
  15.        if(date==2010){  
  16.            ss=2;  
  17.        }  
  18.        /* 
  19.          * 通过得分相乘放大分数 
  20.          * 此处可以控制与原有得分结合的方式,加减乘除都可以 
  21.          * **/  
  22.         return  subQueryScore*valSrcScore*ss;  
  23.     }  
  24. }

  1. public class MyQuery extends CustomScoreQuery {  
  2.     public MyQuery(Query subQuery) {  
  3.         super(subQuery);  
  4.     }   
  5.     protected CustomScoreProvider getCustomScoreProvider(  
  6.             AtomicReaderContext context) throws IOException {  
  7.         return new MyScoreProvider(context);  
  8.     }  
  9. }

  1. QueryParser p=new QueryParser(Version.LUCENE_44, "name"new IKAnalyzer(true));  
  2.    Query query=p.parse(temp);  
  3. MyQuery myq=new MyQuery(query);  
  4.    TopDocs top=searcher.search(myq, 10); 
介绍第二种方式基于FunctionQuery的方式,这种方式需要我们自己重写ValueSource,来完成.
  1. QueryParser p=new QueryParser(Version.LUCENE_44, "name"new IKAnalyzer(true));  
  2.         Query query=p.parse(temp);  
  3.         /* 
  4.          *  
  5.          * 引用自己的 
  6.          * 评分query 
  7.          * **/  
  8.          CustomScoreQuery csq=new CustomScoreQuery(query,new FunctionQuery(new ScoreFunction()));  
  9.         TopDocs top=searcher.search(csq, 10);  
除了,得分方式的不一样,我们发现对结果的排序都是一样的,由此,我们可以灵活选择我们所需要的方式,来完成我们的业务
Please read full article from Lucene4.3进阶开发之日照光华(十四)- CustomScoreQuery

No comments:

Post a Comment

Labels

Algorithm (219) Lucene (130) LeetCode (97) Database (36) Data Structure (33) text mining (28) Solr (27) java (27) Mathematical Algorithm (26) Difficult Algorithm (25) Logic Thinking (23) Puzzles (23) Bit Algorithms (22) Math (21) List (20) Dynamic Programming (19) Linux (19) Tree (18) Machine Learning (15) EPI (11) Queue (11) Smart Algorithm (11) Operating System (9) Java Basic (8) Recursive Algorithm (8) Stack (8) Eclipse (7) Scala (7) Tika (7) J2EE (6) Monitoring (6) Trie (6) Concurrency (5) Geometry Algorithm (5) Greedy Algorithm (5) Mahout (5) MySQL (5) xpost (5) C (4) Interview (4) Vi (4) regular expression (4) to-do (4) C++ (3) Chrome (3) Divide and Conquer (3) Graph Algorithm (3) Permutation (3) Powershell (3) Random (3) Segment Tree (3) UIMA (3) Union-Find (3) Video (3) Virtualization (3) Windows (3) XML (3) Advanced Data Structure (2) Android (2) Bash (2) Classic Algorithm (2) Debugging (2) Design Pattern (2) Google (2) Hadoop (2) Java Collections (2) Markov Chains (2) Probabilities (2) Shell (2) Site (2) Web Development (2) Workplace (2) angularjs (2) .Net (1) Amazon Interview (1) Android Studio (1) Array (1) Boilerpipe (1) Book Notes (1) ChromeOS (1) Chromebook (1) Codility (1) Desgin (1) Design (1) Divide and Conqure (1) GAE (1) Google Interview (1) Great Stuff (1) Hash (1) High Tech Companies (1) Improving (1) LifeTips (1) Maven (1) Network (1) Performance (1) Programming (1) Resources (1) Sampling (1) Sed (1) Smart Thinking (1) Sort (1) Spark (1) Stanford NLP (1) System Design (1) Trove (1) VIP (1) tools (1)

Popular Posts