Chinese Emergency Corpus
简称CEC
,中文名称为中文突发事件语料库
,是根据上海大学刘宗田教授所提出的《面向事件的本体研究》由人工标注所构建完成,目前整个语料库在重新进行了编码转换、XML格式化、错误修复之后托管在GitHub上了,地址点我。
事件的定义是什么
事件
指在某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情。形式上,事件可表示为e
,定义为一个六元组:e ::= (A, O, T, P, S, L)
其中,事件六元组中的元素称为事件要素,分别表示动作(Action)、对象(Object)、时间(Time)、地点(Place)、状态(Status)、语言表现(Language Expressions)。
- A(动作):A表示事件所包含的动作或动作序列的集合,在文本中,动作通常是作为识别一个事件的触发词
- O(对象):O表示一个事件中的对象集合,包括事件中所有的参与者和涉及到的对象。对象可分别是动作的施动者(主体)和受动者(客体)
- T(时间):T表示事件发生的时刻或时间段,时间分为绝对时间和相对时间,两类时间都可以通过计算转换成形如[t1,t2]的序偶表示,以此描述事件的开始、发展和结束时间,当开始时间和结束时间一样时,表示事件发生在瞬间
- P(地点):表示事件发生的地点;例如:在小池塘里游泳, 场所:小池塘, 场所特征:水中
- S(状态):表示事件发生过程中对象的状态集合,由事件发生的前置条件、后置结果集合组成。前置条件指为进行该事件, 各要素应当或可能满足的约束条件, 它们可以是事件发生的触发条件;中间断言指事件发生过程的中间状态各要素满足的条件;事件发生后,事件各要素将引起变化或者各要素状态的变迁, 这些变化和变迁后的结果, 将成为事件的后置条件。
- L(语言表现):事件的语言表现规律, 包括核心词集合、核心词表现、核心词搭配等。核心词是事件在句子中常用的标志性词汇。核心词表现则为在句子中各要素的表示与核心词之间的位置关系。核心词搭配是指核心词与其他词汇的固有的搭配。可以为事件附上不同语言种类的表现, 例如中文、英文、法文等等。
在事件的六个要素中,前五个要素是事件的内在要素。
Read full article from 一种面向突发事件的文本语料自动标注方法 | IT草根
No comments:
Post a Comment