All About Programming: 如何将Lucene索引写入Hadoop2.x？

如何将Lucene索引写入Hadoop2.x？
写入2.x的Hadoop相对1.x的Hadoop来说要简单的说了，因为默认solr(4.4之后的版本)里面自带的HDFSDirectory就是支持2.x的而不支持1.x的，使用2.x的Hadoop平台，可以直接把solr的corejar包拷贝到工程里面，即可使用建索引

散仙，是在eclipse上使用eclipse插件来运行hadoop程序，具体要用到的jar包，除了需要用到hadoop2.2的所有jar包外，还需增加lucene和solr的部分jar包.

检索数据时，第一次检索往往比较慢，第一次之后因为有了Block Cache，所以第二次，检索的速度非常快，当然这也跟你机器的配置有关系.

为什么要使用Hadoop建索引？使用Hadoop建索引可以利用MapReduce分布式计算能力从而大大提升建索引的速度，这一点优势很明显，但美中不足的是在Hadoop上做检索，性能却不怎么好，虽然有了块缓存，但是如果索引被按64M的块被切分到不同的节点上，那么检索的时候，就需要跨机器从各个块上扫描，拉取命中数据，这一点是很耗时的，目前，据散仙所知，还没有比较好的部署在Hadoop上的分布式检索方案，但毫无疑问的是建索引的能力，确实很给力，后面散仙会写如何使用MapReduce来并行构建Lucene索引
Please read full article from 如何将Lucene索引写入Hadoop2.x？

如何将Lucene索引写入Hadoop2.x？

No comments:

Post a Comment

Labels

Popular Posts