一种面向突发事件的文本语料自动标注方法 | IT草根



一种面向突发事件的文本语料自动标注方法 | IT草根

Chinese Emergency Corpus简称CEC,中文名称为中文突发事件语料库,是根据上海大学刘宗田教授所提出的《面向事件的本体研究》由人工标注所构建完成,目前整个语料库在重新进行了编码转换、XML格式化、错误修复之后托管在GitHub上了,地址点我

事件的定义是什么

事件指在某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情。形式上,事件可表示为e,定义为一个六元组:e ::= (A, O, T, P, S, L)其中,事件六元组中的元素称为事件要素,分别表示动作(Action)、对象(Object)、时间(Time)、地点(Place)、状态(Status)、语言表现(Language Expressions)。

  • A(动作):A表示事件所包含的动作或动作序列的集合,在文本中,动作通常是作为识别一个事件的触发词
  • O(对象):O表示一个事件中的对象集合,包括事件中所有的参与者和涉及到的对象。对象可分别是动作的施动者(主体)和受动者(客体)
  • T(时间):T表示事件发生的时刻或时间段,时间分为绝对时间和相对时间,两类时间都可以通过计算转换成形如[t1,t2]的序偶表示,以此描述事件的开始、发展和结束时间,当开始时间和结束时间一样时,表示事件发生在瞬间
  • P(地点):表示事件发生的地点;例如:在小池塘里游泳, 场所:小池塘, 场所特征:水中
  • S(状态):表示事件发生过程中对象的状态集合,由事件发生的前置条件、后置结果集合组成。前置条件指为进行该事件, 各要素应当或可能满足的约束条件, 它们可以是事件发生的触发条件;中间断言指事件发生过程的中间状态各要素满足的条件;事件发生后,事件各要素将引起变化或者各要素状态的变迁, 这些变化和变迁后的结果, 将成为事件的后置条件。
  • L(语言表现):事件的语言表现规律, 包括核心词集合、核心词表现、核心词搭配等。核心词是事件在句子中常用的标志性词汇。核心词表现则为在句子中各要素的表示与核心词之间的位置关系。核心词搭配是指核心词与其他词汇的固有的搭配。可以为事件附上不同语言种类的表现, 例如中文、英文、法文等等。

在事件的六个要素中,前五个要素是事件的内在要素。


Read full article from 一种面向突发事件的文本语料自动标注方法 | IT草根


No comments:

Post a Comment

Labels

Algorithm (219) Lucene (130) LeetCode (97) Database (36) Data Structure (33) text mining (28) Solr (27) java (27) Mathematical Algorithm (26) Difficult Algorithm (25) Logic Thinking (23) Puzzles (23) Bit Algorithms (22) Math (21) List (20) Dynamic Programming (19) Linux (19) Tree (18) Machine Learning (15) EPI (11) Queue (11) Smart Algorithm (11) Operating System (9) Java Basic (8) Recursive Algorithm (8) Stack (8) Eclipse (7) Scala (7) Tika (7) J2EE (6) Monitoring (6) Trie (6) Concurrency (5) Geometry Algorithm (5) Greedy Algorithm (5) Mahout (5) MySQL (5) xpost (5) C (4) Interview (4) Vi (4) regular expression (4) to-do (4) C++ (3) Chrome (3) Divide and Conquer (3) Graph Algorithm (3) Permutation (3) Powershell (3) Random (3) Segment Tree (3) UIMA (3) Union-Find (3) Video (3) Virtualization (3) Windows (3) XML (3) Advanced Data Structure (2) Android (2) Bash (2) Classic Algorithm (2) Debugging (2) Design Pattern (2) Google (2) Hadoop (2) Java Collections (2) Markov Chains (2) Probabilities (2) Shell (2) Site (2) Web Development (2) Workplace (2) angularjs (2) .Net (1) Amazon Interview (1) Android Studio (1) Array (1) Boilerpipe (1) Book Notes (1) ChromeOS (1) Chromebook (1) Codility (1) Desgin (1) Design (1) Divide and Conqure (1) GAE (1) Google Interview (1) Great Stuff (1) Hash (1) High Tech Companies (1) Improving (1) LifeTips (1) Maven (1) Network (1) Performance (1) Programming (1) Resources (1) Sampling (1) Sed (1) Smart Thinking (1) Sort (1) Spark (1) Stanford NLP (1) System Design (1) Trove (1) VIP (1) tools (1)

Popular Posts