[发明专利]基于关键词和动词依存的中文实体关系抽取方法有效
| 申请号: | 201811124153.1 | 申请日: | 2018-09-26 |
| 公开(公告)号: | CN109241538B | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 许青青;谢赟;韩欣;卓建飞 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F40/211 |
| 代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 张恒 |
| 地址: | 200233 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 关键词 动词 依存 中文 实体 关系 抽取 方法 | ||
本发明公开了一种基于关键词和动词依存的中文实体关系抽取方法,以大规模非结构化自由文本为目标文本,首先对文本进行分词、抽取关键词,形成文本关键词词库;然后对文本进行分句、分词、词性标注、命名实体识别、依存句法分析处理,结合命名实体词库和关键词词库构建实体语料库;根据中文句子构成特点、句法结构以及词语间的依存关系从动词出发构建实体关系句法规则,再对文本中每个句子进行关系句法规则的匹配;最后输出关系三元组,得到文本关系三元组集合。本发明能够使大规模中文文本的实体关系抽取更加有效,更加精确。
技术领域
本发明涉及中文实体关系抽取方法,尤其涉及一种基于关键词和动词依存分析的大规模自由文本抽取方法。
背景技术
随着互联网信息技术的飞速发展,互联网上的文本信息呈现爆炸式增长。如何从大规模的文本信息中快速而准确地抽取人们需要的信息成为研究的热点。因此,信息抽取技术应运而生。实体关系抽取作为信息抽取的重要组成部分,其目的在于从自然语言文本挖掘出实体间的语义关联,不仅有助于领域本体的建立,促进知识图谱的构建,而且通过对实体间的语义信息深入挖掘与分析能够进一步理解用户的搜索意图,从而为用户提供更加精准的搜索服务,提高用户搜索体验。
传统的中文实体关系抽取面向的是特定领域文本的、限定关系类别、限定实体类别等的抽取,常用的方法是基于有监督的机器学习方法。这种有监督的实体关系抽取方法需要人工标注关系语料库,预定义关系类型,但面对现实中海量的非结构化、跨领域的中文文本,很多时候难以预先确定实体关系类型,所以有监督的机器学习方法在实体关系抽取中遇到了严峻挑战。因此,面对大规模自由文本,开放式无监督的关系抽取方法受到越来越多的关注。
现有开放式无监督关系抽取方法主要有基于聚类算法、基于启发式规则和基于句法分析的实体抽取方法。其中,基于聚类的实体关系抽取方法是通过距离、位置等限制获得实体对,再运用某种聚类算法将语义相似的实体对聚为同一类簇,然后选择代表性的词作为每个类簇的关系表述。该方法不需要预定义关系类别、标注语料、制定人工规则,很大程度上降低了人工参与,但该类方法仍有一些不足之处,比如聚类算法中固有的聚类数目、聚类中心的确定问题,而且需要大量相关实体对才能训练出好的效果,对于低频实体对的召回率较低,此外难以准确归纳每个类簇的关系描述词。基于启发式规则的实体抽取方法一般是通过对大量中文实体抽取结构特征进行分析,总结出常见三元组的实体对距离和关系指示词在实体间位置分布,然后通过对实体间距离和关系词位置的限制生成候选三元组,最后对候选三元组进行过滤。有研究是采用全局排序和类型排序的方法来挖掘关系指示词,然后使用关系指示词和句式规则对关系三元组进行过滤,该方法从文本中抽取的实体关系三元组准确率较高,但通过实体对间距离的限制可能会过滤掉一些有关联的实体对而且关系指示词的不全面会将有语义关联的三元组过滤掉,所以使得抽取的召回率较低。基于句法分析的实体关系抽取通过分析句子句法结构以及词语间的依存关关系识别实体对之间的关系。常用的基于句法分析的方法是获取两实体间最短依存树,然后以两实体间的最短依赖路径中的词汇作为关系词,构造出三元组,该类方法操作简单,但得到的关系词可能是多个词语的组合,而在一些复杂中文句子中获得的组合词也未必能形成正确的短语,所以关系表述可能会很抽象,意义比较模糊。此外,还有一类基于句法分析的方法是深入挖掘实体间最短依存路径所蕴含的依存语义,利用依存关系、词性信息和位置关系等特征为限定,得到依存语义范式,若输入文本中实体对间的依存路径与所提的依存语义范式匹配,则能抽取出三元组关系。该方法对抽取的关系词相对准确,计算复杂度低,抽取效率高,而对于复杂文本,特别是有多个实体的句子,抽取效果不太理想。但总体来说,基于句法分析的实体关系计算复杂度低,能应对大规模、跨领域中文文本的实体关系抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811124153.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及信息处理装置
- 下一篇:机器学习人工智能翻译数据库的更新方法





