[发明专利]一种观点抽取方法、装置及设备在审
| 申请号: | 201811037185.8 | 申请日: | 2018-09-06 |
| 公开(公告)号: | CN109299400A | 公开(公告)日: | 2019-02-01 |
| 发明(设计)人: | 谢忠玉 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06F17/27 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 装置及设备 抽取 评价对象 文本 计算复杂度 启发式规则 记忆网络 实体标记 训练样本 分析 预设 关联 | ||
本发明实施例提供了一种观点抽取方法、装置及设备,其中,该方法包括:获取待分析文本;基于预先训练的长短期记忆网络LSTM模型,确定待分析文本中的观点实体;其中,观点实体包括评价对象和评价词,LSTM模型是根据带有观点实体标记的多个训练样本训练得到的;通过预设启发式规则,建立评价对象与评价词之间的关联,以确定待分析文本对应的观点。通过本发明实施例提供的观点抽取方法、装置及设备,能够降低观点抽取过程的计算复杂度。
技术领域
本发明涉及互联网技术领域,特别是涉及一种观点抽取方法、装置及设备。
背景技术
随着社交网络、移动互联网的不断普及,发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品等的评论。而互联网公司等为了了解用户针对产品的反馈等,希望能够获取或挖掘用户所发布信息中包含的用户观点。
现有技术中对用户观点的挖掘,首先建立词语依存关系库,然后依据该词语依存关系库进行观点抽取。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
现有技术在建立词语依存关系库的过程中,需要对文本进行分词,获取文本中的词语以及词语对应的词性,并对文本进行分句,对每个分句进行语法解析,分析语法结构;然后确定候选评价词语、候选评价对象,以及词语依存关系路径,进而建立词语依存关系库。可以看出,现有技术中词语依存关系库的建立过程比较复杂,进而使得观点抽取过程比较复杂。
发明内容
本发明实施例的目的在于提供一种观点抽取方法、装置及设备,以降低观点抽取过程的计算复杂度。具体技术方案如下:
第一方面,本发明实施例提供了一种观点抽取方法,包括:
获取待分析文本;
基于预先训练的长短期记忆网络LSTM模型,确定所述待分析文本中的观点实体;其中,所述观点实体包括评价对象和评价词,所述LSTM模型是根据带有观点实体标记的多个训练样本训练得到的;
通过预设启发式规则,建立所述评价对象与所述评价词之间的关联,以确定所述待分析文本对应的观点。
可选的,所述通过预设启发式规则,建立所述评价对象与所述评价词之间的关联,包括:
针对各个评价对象,计算该评价对象分别与各个评价词之间的距离;
确定所有所述距离中的最小距离;
确定所述最小距离对应的评价词为目标评价词;
建立该评价对象与所述目标评价词之间的关联。
可选的,预先训练所述LSTM模型的步骤,包括:
获取多个训练样本;
针对每个训练样本,将该训练样本输入至预设LSTM模型,对所述预设LSTM模型进行训练,得到训练好的LSTM模型,其中,该训练样本中词语带有观点实体标记。
可选的,所述观点实体标记包括通过序列标注方式进行标注的标记。
可选的,在所述获取待分析文本之后,所述方法还包括:
过滤所述待分析文本中的观点无关内容,得到过滤后待分析文本;
所述基于预先训练的长短期记忆网络LSTM模型,确定所述待分析文本中的观点实体的步骤,包括:
基于所述LSTM模型,确定所述过滤后待分析文本中的观点实体。
第二方面,本发明实施例提供了一种观点抽取装置,包括:
第一获取模块,用于获取待分析文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811037185.8/2.html,转载请声明来源钻瓜专利网。





