[发明专利]一种基于自注意力的观点及其持有者的联合抽取方法有效

专利信息
申请号: 201810347840.3 申请日: 2018-04-18
公开(公告)号: CN108628828B 公开(公告)日: 2022-04-01
发明(设计)人: 李雄;刘春阳;张传新;张旭;王萌;闫昊;唐彬 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京航空航天大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F16/35
代理公司: 北京慧泉知识产权代理有限公司 11232 代理人: 王顺荣;唐爱华
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 观点 及其 持有者 联合 抽取 方法
【说明书】:

发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self‑attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。

技术领域

本发明涉及一种自然语言处理方法,尤其涉及一种基于自注意力(self-attention)的观点及其持有者的联合抽取方法,它可以自动抽取中文新闻语料中的观点及其持有者,属于计算机科学与技术领域。

背景技术

随着互联网技术的发展,互联网上大量的文本信息飞速增长,电子媒体飞速发展,传统纸质媒体也在加入电子媒体的阵营,新闻语料呈现爆发式增长。对文本进行观点抽取也越来越受到研究人员的关注,并成为当下的自然语言处理中最活跃的研究领域之一。网络上新闻语料的爆发式增长,反而对获取信息形成了阻碍。在过去新闻量较少的情况下,可以由人工快速阅读新闻、记录观点,对相关事件形成一个较为全面的了解。而如今新闻量十分庞大,如果只阅读部分新闻,获取到的信息相对有限,可能会得到片面的认知,如果要阅读全部新闻并统计各个专家或者机构的观点,则因为数据量过于庞大,导致实际上不可行。目前,各大新闻门户网站或者微博等自媒体都提供新闻的摘要信息,都是为了能够让用户快速方便的了解新闻的大致内容,然而只有少数热点新闻才有这样的摘要,因为它仍然依赖于编辑人员手动撰写。在淘宝等电子商务平台上可以看到,商品评论的观点挖掘和情感分析技术已经逐渐由学术走向商业应用,在节省人力资源的同时方便了用户快速获取商品评价信息。相比之下,新闻语料的观点及其持有者自动抽取技术仍然在研究阶段,即便如此,考虑到它在很多领域都有广泛的应用和研究,例如信息检索、数据挖掘、文本挖掘、Web挖掘等,涵盖的范围从计算机科学扩展到了管理学和社会学等领域。新闻观点抽取技术正在逐渐成为研究热点。

观点挖掘当前的热点主要集中在商品评论上,该任务实际上是一种细粒度多方面的情感分析。情感分析在粒度水平上分为篇章级、句子级、短语级,分类层次上分为两极、多极、多方面。商品评论观点抽取的主要任务是抽取评价者、评价对象和评价词,主要由监督学习方法和非监督学习方法两种:

1.监督学习方法

监督学习方法的主流是基于序列标注方法,目前取得最好效果的方法是隐马尔科夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF),包括词汇化的HMM模型、Skip-CRF、Tree-CRF等方法。除了这两种主流方法,还有基于句法依赖的方法,筛选出候选评价对,然后使用分类方法来判断是否属于评价对象及评价词。

2.非监督学习方法

非监督学习方法主要使用主题模型来实现,主流的两种模型是概率潜在语义模型(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄利克雷分配(LatentDirichlet Allocation,LDA)方法。这两种方法最初并不适用于观点抽取,但是它可以被扩展用于对多种信息进行建模。目前效果较好的方法包括Sentiment-LDA、MaxEnt-LDA等方法。还有人将HMM和LDA结合起来,提出了HMM-LDA模型,可以发现潜在的评价对象。

新闻观点抽取目前的研究相对较少,目前有基于双语新闻句要素关联的观点句抽取方法,思路是将一簇包含固定语素和情感的句子认为是观点句,先使用命名实体识别方法对新闻语句进行序列标注,得到语素集合,再利用情感词词典抽取情感词,然后通过不同新闻语料的语素之间和情感词之间的关联程度计算句子权重,最终得到包含观点句的语句簇。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学,未经国家计算机网络与信息安全管理中心;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810347840.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top