lucene4.7 分页(五)
我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。其实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也是一样,既然有一个docid的存在,那么上面的需求就很简单了。
方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。
IndexReader reader=DirectoryReader.open(directory);
//读取目录
IndexSearcher search=
new
IndexSearcher(reader);
//初始化查询组件
for
(
int
i=
0
;i<reader.numDocs();i++){
//numDocs可能很大
Document doc=search.doc(i);
//依次获取每个docid对应的Document
//可以在此部,做个批量操作,加快写入速度
}
ucene的分页,总的来说有两种形式,总结如下图表格。(如果存在不合适之处,欢迎指正!)
编号 | 方式 | 优点 | 缺点 |
1 | 在ScoresDocs里进行分页 | 无需再次查询索引,速度很快 | 在海量数据时,会内存溢出 |
2 | 利用SearchAfter,再次查询分页 | 适合大批量数据的分页 | 再次查询,速度相对慢一点,但可以利用缓存弥补 |
在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:
TopDocs all=search.search(
new
MatchAllDocsQuery(),
50000
);
int
offset=
0
;
//起始位置
int
pageSize=
30
;
//分页的条数
int
total=
30
;
//结束条数
int
z=
0
;
while
(z<=
50
){
//总分页数
System.out.println(
"=============================="
);
pageScoreDocs(offset,total,search, all.scoreDocs);
//调用分页打印
offset=(z*pageSize+pageSize);
//下一页的位置增量
z++;
//分页数+1;
total=offset+pageSize;
//下一次的结束分页量
}
public
void
pageScoreDocs(
int
offset,
int
total,IndexSearcher searcher,ScoreDoc[] doc)
throws
Exception{
//System.out.println("offset:"+offset+"===>"+total);
for
(
int
i=offset;i<total;i++){
//System.out.println("i"+i+"==>"+doc.length);
if
(i>doc.length-
1
){
//当分页的长度数大于总数就停止
break
;
}
else
{
Document dosc=searcher.doc(doc[i].doc);
System.out.println(dosc.get(
"name"
));
}
}
最后我们来看下使用SearcherAfter进行分页的方式,代码如下:
int
pageStart=
0
;
ScoreDoc lastBottom=
null
;
//相当于pageSize
while
(pageStart<
10
){
//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
TopDocs paged=
null
;
paged=search.searchAfter(lastBottom,
new
MatchAllDocsQuery(),
null
,
30
);
//查询首次的30条
if
(paged.scoreDocs.length==
0
){
break
;
//如果下一页的命中数为0的情况下,循环自动结束
}
page(search,paged);
//分页操作,此步是传到方法里对数据做处理的
pageStart+=paged.scoreDocs.length;
//下一次分页总在上一次分页的基础上
lastBottom=paged.scoreDocs[paged.scoreDocs.length-
1
];
//上一次的总量-1,成为下一次的lastBottom
}
No comments:
Post a Comment