IR已死?IR永生



IR已死?IR永生

前几天,SIGIR主席Charlie Clarke在从主席位置退下来的时候发表了一个 Note ,大意是说,从今年SIGIR的投稿量来看,SIGIR已经在衰退。然后有人就发出了IR作为一个领域也在衰退的现实性和可能性。

那么,这篇短文就是从积极的态度来探讨一下,IR领域的一些可能的新的发展方向,起到抛砖引玉的作用。

  1. 从传统的Relevance Theory到User Engagement Optimization
    熟悉IR的人应该知道,传统的,诞生于上世纪60-70年代IR核心理论,Relevance Theory(如Probability Ranking Principle,Binary Independent Model以及后来的BM 25,Relevance Model等等)都基于有一个普遍的,全部用户通用的Relevance Label。这套理论催生了类似于TREC这样的数据测试系统。那么今天来看,这样的理论模型已经离现在的IR系统相去甚远。对于每一个Query,一个Document是否是Relevant的将不是一个固定的值,而是一个从用户出发的动态的概念。传统的,需要编辑来标注数据的模式应该成为历史,而转向全面优化用户喜好度的模型和数据评价体系。这个方向将会和Recommendation交融,为现在工业界已经很火热的方向Search & Discovery奠定理论基础和实践方法。
  2. Session or Beyond Optimization
    用户和系统交互很多时候有非常复杂的目的。而达到这些目的需要多轮交互,比如订行程,比如找房子。现在的IR系统因为这个Relevance Label是基于Query-Document Pair的,因此,从根本上就没有办法来定义跨过单个页面的Relevancy,没法针对这样的Use Case进行优化。那么经常的场景就是,用户开启很多个浏览器窗口来回查找,花费很多时间。当然,这部分工作已经有很多尝试,不过大部分都是基于Classic Relevance Theory的,因此也很难优化真正的用户体验。如何真正建立起一套跨却Page或者Session或者Task的优化方案是这方面发展的重要课题。
  3. Conversational UI
    这部分很火热,其实里面包装着NLP,QA等等旧酒。关键问题就是,如何在Messaging这个平台下做到搜索。这时,"搜索"界面需要理解上下文关系,需要去理解用户的喜好,还需要在能够做Task的时候,切换到Task-Oriented的场景下,来进行优化。


Read full article from IR已死?IR永生


No comments:

Post a Comment

Labels

Algorithm (219) Lucene (130) LeetCode (97) Database (36) Data Structure (33) text mining (28) Solr (27) java (27) Mathematical Algorithm (26) Difficult Algorithm (25) Logic Thinking (23) Puzzles (23) Bit Algorithms (22) Math (21) List (20) Dynamic Programming (19) Linux (19) Tree (18) Machine Learning (15) EPI (11) Queue (11) Smart Algorithm (11) Operating System (9) Java Basic (8) Recursive Algorithm (8) Stack (8) Eclipse (7) Scala (7) Tika (7) J2EE (6) Monitoring (6) Trie (6) Concurrency (5) Geometry Algorithm (5) Greedy Algorithm (5) Mahout (5) MySQL (5) xpost (5) C (4) Interview (4) Vi (4) regular expression (4) to-do (4) C++ (3) Chrome (3) Divide and Conquer (3) Graph Algorithm (3) Permutation (3) Powershell (3) Random (3) Segment Tree (3) UIMA (3) Union-Find (3) Video (3) Virtualization (3) Windows (3) XML (3) Advanced Data Structure (2) Android (2) Bash (2) Classic Algorithm (2) Debugging (2) Design Pattern (2) Google (2) Hadoop (2) Java Collections (2) Markov Chains (2) Probabilities (2) Shell (2) Site (2) Web Development (2) Workplace (2) angularjs (2) .Net (1) Amazon Interview (1) Android Studio (1) Array (1) Boilerpipe (1) Book Notes (1) ChromeOS (1) Chromebook (1) Codility (1) Desgin (1) Design (1) Divide and Conqure (1) GAE (1) Google Interview (1) Great Stuff (1) Hash (1) High Tech Companies (1) Improving (1) LifeTips (1) Maven (1) Network (1) Performance (1) Programming (1) Resources (1) Sampling (1) Sed (1) Smart Thinking (1) Sort (1) Spark (1) Stanford NLP (1) System Design (1) Trove (1) VIP (1) tools (1)

Popular Posts