All About Programming: Lucene4 入门(2)–Field类及辅助类说明

二、Field类

1、类的说明

在一般情况下为Document对象创建一个Field对象会使用它的子类，比如：

IntField,LongField, FloatField, DoubleField, BinaryDocValuesField, StringField, TextField

, NumericDocValuesField, SortedDocValuesField, StoredField。而不是使用它自己。

一个Field是Document的一部分，每一个Field有三部分组成，分别是：名称、类型和值。值可以是文本（String类型，Reader类型或者是预分享的TokenStream）,二进制（byet[]）,或者是数字（一个 Number类型）Field是可以存储在索引中的，以便日后返回这个文档。

需要注意的是：这个Field 是一个实现了IndexableFieldType接口的类，

修改IndexableFieldType的状态将影响字段的使用。强烈建议不要在实例化

Field对象后修改它。可以通过在创建Field的配置类FieldType时调用FieldType的

方法freeze().该方法的解释是：阻止未来改变，推荐在创建FieldType对象时调用，去预防无意的状态改变。

在Field子类中设置FieldType时都调用了freeze()方法，代码如下：

TYPE_NOT_STORED.setIndexed(true);

TYPE_NOT_STORED.setOmitNorms(true);

TYPE_NOT_STORED.setIndexOptions(IndexOptions.DOCS_ONLY);

TYPE_NOT_STORED.setTokenized(false);

TYPE_NOT_STORED.freeze();

上面是StringField中的一段代码，代码的最后调用了freeze()方法。

内部类

Field类里面还包含三个枚举类型的内部类，分别是：Store、Index和

TermVector，其中Index和TermVector在4.4版本中也是不赞成使用的，那我们就光看Store吧，它包含两个枚举值，YES和NO,就是表示Field是否存储时使用。

StringField类

1、类的概述：

StringField是Field类的一个子类，其实就是在原有Field类的基础上添加了FieldType字段，官方说明是：一个索引但不分词的Field，通过构造传过来的String值会是一个单独的Token，也就是会把这个字符串当成一个完整的词来进行索引，官方还举了一些例子，如：一个地名或ID还有path(路径)都不需要分词。你打算使用排序或访问通过字段缓存。

2、 StringField类的源码

通过看这个类的源码你会一目了然

StringField定义了两个FieldType对象

一个为索引存储但不分词。另一个是索引不存储不分词，

这两个都是通过一个静态代码块儿来完成初始化的，通过看这个FieldType对象的设置，我们以后要定义FieldType时就可以参考这个了。

TextField类的概述

跟StringField一样，TextField类也是一个Field类的子类，也是包含了多个FieldType对象，官方说明是：这个Field是一个索引分词，不包含term vectors，例如将被用到“body”属性，包含大量文本的Document中。

StoredField类

1、类概述

同StringField类一样，官方说明是：一个字段的值被存储，所以可以通过

IndexSearcher.doc和IndexReader.document获得这个Field的值。

NumericDocValuesField类

1、类概述

官方概述：这个Field用于每个Document添加一个long类型的值用于评分、排序或者索引值，例子如下：

document.add(new NumericDocValuesField(name, 22L));

如果你需要去存储这个值，你应该添加一个单独的StoredField实例。

从源码也可以看出它是不存储的。

十一、FieldType类

1、类的概述

该类主要是配置Field类来使用的，例如：是否储存，是否索引，是否分词等。

还有一个重要的方法freeze()，用来阻止Field在实例化后完成前修改。

2、内部类

FieldType类包含一个内部的枚举类型NumericType来表示数字类型，值分别是，INT,LONG,FlOAT,DOUBLE。

3、 FieldType还用到了一个IndexOptions枚举类型，他有四个值，分别是：

DOCS_ONLY

文档只包含索引，位置和词频将忽略，查询短语和位置信息将引起异常

DOCS_AND_FREQS

文档只包含索引和词频，位置将忽略，这个可以正常评分，查询短语和位置也将引发异常

DOCS_AND_FREQS_AND_POSITIONS

文档包含索引位置和词频，这是一个典型的默认为全文搜索:全部启用评分和位置查询的支持。

DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS

文档包含索引、位置、词频和偏移量。

Please read full article from Lucene4 入门(2)–Field类及辅助类说明

Lucene4 入门(2)–Field类及辅助类说明

No comments:

Post a Comment

Labels

Popular Posts