[发明专利]一种中文事件的抽取方法及系统有效
申请号: | 201210182651.8 | 申请日: | 2012-06-05 |
公开(公告)号: | CN102693219A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 抽取 方法 系统 | ||
1.一种中文事件抽取方法,其特征在于,包括:
A:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
B:根据中文标记语料库的训练集合以及词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
C:根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
D:利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
E:依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
F:利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含利用所述最大熵分类模型所识别类别的事件,得到事件集合。
2.根据权利要求1所述的方法,其特征在于,步骤A中具体为:
A1:将待抽取事件的本文划分为一个个的句子,得到初始句子集合;
A2:将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合;
A3:识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合;
A4:对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
3.根据权利要求1或2所述的方法,其特征在于,步骤B具体为:
B1:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合;
B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B3:对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词;
步骤B2、B3和B4的执行顺序没有明确限定。
4.根据权利要求3所述的方法,其特征在于,步骤C具体为:
C1:将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合;
C2:对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除;
C3:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于所述训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除;
C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除;
步骤C2、C3和C4的执行顺序没有明确限定。
5.根据权利要求4所述的方法,其特征在于,步骤D具体为:
D1:根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合;
D2:根据预先选择的触发词特征,从所述第二句子集合中抽取所述候选触发词集合中每个触发词的特征,构成测试特征集合;
D3:将所述训练特征集合和所述测试特征集合输入最大熵分类器,所述最大熵分类器计算所述测试特征集合中每个触发词的可信度,得到带有可信度的触发词第一集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210182651.8/1.html,转载请声明来源钻瓜专利网。