Lucene4.3进阶开发之二渡天劫( 五) - IndexWriter
IndexWriterConfig保存了一些运行时的配置参数,这些参数会在程序运行期间一直存在,所以在大多数时候我们只需要一份单例的IndexWriterConfig即可,而IndexWriterConfig又是Lucene内部实现的线程安全的类,所以在一些需要同步的场景时,我们没必要给IndexWriterConfig在应用外围,在加上自己的线程安全逻辑,IndexWriterConfig里面的IndexWriterConfig.setRAMBufferSizeMB(double)方法和IndexWriterConfig.setMaxBufferedDocs(int)).方法,是2个比较重要的调优方法,一般情况下,我们可以根据自己服务器的配置,来适当的加大这个参数的比值,通过更大的参数,来实现更给力的批处理添加,当然这个也得根据我们的实际环境以及磁盘IO等等来定。
IndexWriter是负责创建和维护索引的重要的类,一些配置信息的获取主要来自IndexWriterConfig类,另外我们还需要一个文件目录来存放索引.
IndexWriter是一个重要的索引管理类,不仅仅是因为它提供基于操作索引的增删改查的能力,而且一个很重要的表现就是,它具有二阶段提交的事务功能,看源码我们就会发现它实现2个接口,一个Closeable接口和TwoPhaseCommit接口:
addIndexes(IndexReader... readers) 这个方法,因为lucene默认的任何时候都只能单线程写的局限性,所以在大批量建索引的时候,这可能是一个影响的性能的环节,所以建议使用多个线程建索引,分别建在不同的目录,那么最后就存在一个问题,我们怎么合并索引? 这个时候就是这个方法大显身手的时候了,使用它可以建多份索引合并成一份索引,或许你还想提升性能,你也可以开启复合索引,但这个针对少写多读的场景是非常适合 的,如果更新频繁,那么并不适合使用复合索引。另外一个forceMerge(int maxNumSegments) 这个方法,是合并索引里面段文件的方法,通过合并一些小段,可以用来,压缩空间,同样的对于提升性能也是有一定效果的,注意这个参数并不是意味着越小越好,当我们索引很大的时候,合并成多个段,也是一个不错的选择。
Please read full article from Lucene4.3进阶开发之二渡天劫( 五) - IndexWriter
IndexWriterConfig保存了一些运行时的配置参数,这些参数会在程序运行期间一直存在,所以在大多数时候我们只需要一份单例的IndexWriterConfig即可,而IndexWriterConfig又是Lucene内部实现的线程安全的类,所以在一些需要同步的场景时,我们没必要给IndexWriterConfig在应用外围,在加上自己的线程安全逻辑,IndexWriterConfig里面的IndexWriterConfig.setRAMBufferSizeMB(double)方法和IndexWriterConfig.setMaxBufferedDocs(int)).方法,是2个比较重要的调优方法,一般情况下,我们可以根据自己服务器的配置,来适当的加大这个参数的比值,通过更大的参数,来实现更给力的批处理添加,当然这个也得根据我们的实际环境以及磁盘IO等等来定。
IndexWriter是负责创建和维护索引的重要的类,一些配置信息的获取主要来自IndexWriterConfig类,另外我们还需要一个文件目录来存放索引.
- IndexWriter writer=new IndexWriter(directory, writerConfig);
- public class IndexWriter implements Closeable, TwoPhaseCommit{
方法名 | 描述 |
addDocument(Iterable<? extends IndexableField> doc) | 添加一个doc |
addDocument(Iterable<? extends IndexableField> doc, Analyzer analyzer) | 添加一个doc,使用指定的分词器 |
addDocument(Iterable<? extends IndexableField> doc, Analyzer analyzer) | 基于Directory的合并索引 |
addIndexes(IndexReader... readers) | 基于IndexReader的合并索引 |
deleteAll() | 删除所有的索引 |
deleteDocuments(Query... queries) | 删除doc数据,来自多个query的结果 |
deleteDocuments(Query query) | 删除doc数据,来自一个query的结果 |
deleteDocuments(Term term) | 删除doc数据,来自一个term |
flush(boolean triggerMerge, boolean applyAllDeletes) | 刷新缓冲区到磁盘上 |
forceMerge(int maxNumSegments) | 合并段文件 |
maxDoc() | 返回文档总数不包含已经删除的 |
numDocs() | 返回文档总数包含已经删除的 |
rollback() | 在没有进行最终提交前,回滚数据 |
updateDocument(Term term, Iterable<? extends IndexableField> doc) | 更新一个doc,实际上是先删除后添加的策略 |
tryDeleteDocument(IndexReader readerIn, int docID) | 基于docid的删除方法,注意indexreader必须使用的是最新的,也就是基于近实时的,这样保证删除不会发生意外 |
waitForMerges() | 阻塞程序直至合并完成 |
Please read full article from Lucene4.3进阶开发之二渡天劫( 五) - IndexWriter
No comments:
Post a Comment