[发明专利]一种中文事件的抽取方法及系统有效
申请号: | 201210182651.8 | 申请日: | 2012-06-05 |
公开(公告)号: | CN102693219A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 抽取 方法 系统 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及一种中文事件的抽取方法及系统。
背景技术
事件抽取是信息抽取的主要形式之一,它是从大量的自然文本中抽取人们感兴趣的结构化事件信息,如什么人,什么地方,什么时间,做了什么事。
目前,中文事件的抽取方法主要是通过对一些英文事件抽取方法和技术的借鉴来实现,希望通过移植这些方法和技术,达到中文事件抽取的目的,虽然这种方法取得了不错的成果,但中文本身的特点决定了完全照搬英文事件抽取方法不足以很好地解决中文事件的抽取。
发明内容
有鉴于此,本发明提供了一种中文事件抽取方法及系统,用以解决针对英文的事件抽取方法并不能很好地解决中文事件抽取的问题。其技术方案如下:
一种中文事件抽取方法,包括:
A:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
B:依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
C:根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
D:利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
E:依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
F:利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
所述步骤A中具体为:
A1:将待抽取事件的本文划分为一个个的句子,得到初始句子集合;
A2:将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合;
A3:识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合;
A4:对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
步骤B具体为:
B1:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合;
B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B3:对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词;
步骤B2、B3和B4的执行顺序没有明确限定。
步骤C具体为:
C1:将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合;
C2:对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除;
C3:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除;
C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除;
步骤C2、C3和C4的执行顺序没有明确限定。
步骤D具体为:
D1:根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210182651.8/2.html,转载请声明来源钻瓜专利网。