Lucene4.3进阶开发之高山流水(十六) - FileSwitchDirectory



Lucene4.3进阶开发之高山流水(十六)
本篇来看下Lucene中一个特殊的Directory的实现之FileSwitchDirectory,顾名思义,从字面上的意思来理解是一个基于文件目录切换的一个实现,实际上也正是如此。

那么,此类的作用是什么呢? 我们都知道lucene的索引文件是非常松散灵活的,各个文件格式之间相互独立而又有联系,在Lucenen检索的时候,会并行的打开所有的段文件,然后合并结果集至一个公共队列里返回。

Lucene的Directory基类,提供了非常丰富的子类实现,为什么如此呢,其实跟不同的操作系统和平台有紧密的联系,所以在我们的代码里,经常会使用FSDirectory的静态方法来打开一个能在我们所使用的平台上发挥最大优势的Directory,在源码里我们可以发现这个方法里面是对主流的操作系统进行了判断和选择后,会给我们返回一个合适的Directory,可能这个方法在不同的操作平台上返回不一样的Directory的实现,这一点是很正常的。 


FileSwitchDirectory的出现,可以使我们组合不同Directory的优点,来充分利用我们的系统资源,我们都知道使用内存索引RAMDirectory来访问索引其速度和效率都是非常优异的,然后,有时候我们的数据量大的惊人,以至于内存中根本放不下这个索引文件,那么这时候我们既想获取高效的索引访问性能,又想获取读取和检索大索引的优异的并发性能,这时候我们怎么做呢?

这时候就是该FileSwitchDirectory大显身手的时候了,利用这个类,我们可以轻而易举的结合任意2个Directory的优异点,来为我们所用

  1.    * @param primaryExtensions 由主索引负责打开的文件 
  2.    * @param primaryDir 主索引目录 
  3.    * @param secondaryDir 从索引目录 
  4.    * @param doClose 是否在关闭时关闭所有Directory的资源 
  5.    * **/  
  6.   public FileSwitchDirectory(Set<String> primaryExtensions, Directory primaryDir, Directory secondaryDir, boolean doClose) {  
  7.     this.primaryExtensions = primaryExtensions;  
  8.     this.primaryDir = primaryDir;  
  9.     this.secondaryDir = secondaryDir;  
  10.     this.doClose = doClose;  
  11.     this.lockFactory = primaryDir.getLockFactory();  
  12.   } 

一般情况下我们会将fdt和fdx文件放在NIODirectory里,因为这两个文件分别存储的是文档的正向信息包含具体的term,fdx文件是fdt文件的一个索引文件,实际上在后来,所有的文本数据都会保存在fdt里,索引在索引非常大的时候,这两个文件是最占容量的,所以我们选择将此放入NIO中,由此来访问大索引信息,其他的一些段信息文件,字典文件,放入内存索引中由此来获取更高的检索效率。 
  1.        //添加放置在nio文件里的索引文件  
  2.        Set<String> files=new HashSet<>();  
  3.        files.add("fdt");  
  4.        files.add("fdx");  
  5.        
  6.        Directory d1=FSDirectory.open(new File(path));//装载磁盘索引  
  7.        RAMDirectory map=new RAMDirectory(d1,IOContext.READ);//放置内存索引  
  8.        NIOFSDirectory nio=new NIOFSDirectory(new File(path));//基于并发大文件的NIO索引  
  9.        FileSwitchDirectory fsd=new FileSwitchDirectory(files,nio,map,true); //切换实现  
  10.        for(String s:fsd.listAll()){  
  11.            //System.out.println(s);  
  12.            System.out.println("文件:"+s+"  读取类型: "+fsd.getDirectory(s));  
  13.               
  14.        } 
由输出结果,我们可以看出除了fdt文件和fdx文件是从NIO里打开的,其他的都会被加载到RAM里,与我们预期的假设是一致的。
最后我们来简单分析下,Lucene是如何实现索引的动态的切换?

实际上在程序一开始启动时,是打开了2个Directory,然后通过FileSwitchDirectory 组装在了一起,在一个检索请求发来时,会选择具体的索引文件打开并读取,此时就是切换目录的时候.

  1.   public Directory getDirectory(String name) {  
  2.     String ext = getExtension(name);  
  3.     if (primaryExtensions.contains(ext)) {//在初始化的集合里判断  
  4.       return primaryDir;//true,将会从主索引加载  
  5.     } else {  
  6.       return secondaryDir;//false将会从从索引加载  
  7.     }  
  8.   } 
其实,就是在启动的时候打开了同一份索引的2个不同的Directory的实现,然后通过FileSwitchDirectory 这个类,来动态的完成的索引切换的过程。 
Please read full article from Lucene4.3进阶开发之高山流水(十六)

No comments:

Post a Comment

Labels

Algorithm (219) Lucene (130) LeetCode (97) Database (36) Data Structure (33) text mining (28) Solr (27) java (27) Mathematical Algorithm (26) Difficult Algorithm (25) Logic Thinking (23) Puzzles (23) Bit Algorithms (22) Math (21) List (20) Dynamic Programming (19) Linux (19) Tree (18) Machine Learning (15) EPI (11) Queue (11) Smart Algorithm (11) Operating System (9) Java Basic (8) Recursive Algorithm (8) Stack (8) Eclipse (7) Scala (7) Tika (7) J2EE (6) Monitoring (6) Trie (6) Concurrency (5) Geometry Algorithm (5) Greedy Algorithm (5) Mahout (5) MySQL (5) xpost (5) C (4) Interview (4) Vi (4) regular expression (4) to-do (4) C++ (3) Chrome (3) Divide and Conquer (3) Graph Algorithm (3) Permutation (3) Powershell (3) Random (3) Segment Tree (3) UIMA (3) Union-Find (3) Video (3) Virtualization (3) Windows (3) XML (3) Advanced Data Structure (2) Android (2) Bash (2) Classic Algorithm (2) Debugging (2) Design Pattern (2) Google (2) Hadoop (2) Java Collections (2) Markov Chains (2) Probabilities (2) Shell (2) Site (2) Web Development (2) Workplace (2) angularjs (2) .Net (1) Amazon Interview (1) Android Studio (1) Array (1) Boilerpipe (1) Book Notes (1) ChromeOS (1) Chromebook (1) Codility (1) Desgin (1) Design (1) Divide and Conqure (1) GAE (1) Google Interview (1) Great Stuff (1) Hash (1) High Tech Companies (1) Improving (1) LifeTips (1) Maven (1) Network (1) Performance (1) Programming (1) Resources (1) Sampling (1) Sed (1) Smart Thinking (1) Sort (1) Spark (1) Stanford NLP (1) System Design (1) Trove (1) VIP (1) tools (1)

Popular Posts