[发明专利]一种评价信息的抽取方法、装置及设备有效
申请号: | 201810358721.8 | 申请日: | 2018-04-20 |
公开(公告)号: | CN108614814B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 何溢;张浩川;余荣;谢嘉元;吴耿楠 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评价 信息 抽取 方法 装置 设备 | ||
本发明公开了一种评价信息抽取方法,通过对评论文本进行分词,得到由多个词组成的词序列,在得到词序列之后,只需要将词分别与该词相邻的预设个数的词组成词对,然后计算各个词对的相似度,并从中确定相似度最大的预设个数的词对,最后将其作为评价信息抽取出来,避免了对整句评论文本的分析,不需要预先已标注的训练词序列,也不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度。此外,本发明还提供了一种评价信息的抽取装置、设备以及一种计算机可读存储介质,其作用与上述方法相对应。
技术领域
本发明涉及计算机领域,特别涉及一种评价信息的抽取方法、装置、设备以及一种计算机可读存储介质。
背景技术
评价信息抽取,是指将人们关心的评价信息从评价文本中抽取出来的过程。评价信息抽取属于情感信息抽取的范畴,情感信息抽取是情感分析的底层任务,情感分析是一个对带有情感色彩的主观性文本进行提取、分析、处理、归纳和推理的过程,在情感分析的过程当中,情感信息的抽取效果与上层情感分析的结果有直接关系,如果关于情感的关键信息没有被抽取出来,无论上层的分析工具如何完备,其结果都会不同于原文所表达的情感,可见,如何从评价文本中抽取出评价信息非常具有研究意义。
目前,一种常见的评价信息抽取方法是基于条件随机场模型的序列标注的抽取方法。该方法将已知评价信息的评论文本作为训练集,以未知评价信息的评论文本作为预测集,通过分词工具将训练集中的每条评论文本由句子切分成若干个有序的词,得到词序列,并对词序列进行标注。利用标注后的训练集对模型进行训练,然后把预测集输入到训练好的模型,模型将输出对预测集的标注结果,最后,标注结果将被输入到若干个被称为特征模版的自定义函数中,由特征模版筛选出评价信息。
但是,基于条件随机场模型的序列标注的抽取方法为了达到较好的抽取效果,常常在上述标注操作之后为每个词构建词特征,如当前词的词性、当前词的前一个词或后一个词的词性等等,和词关系特征,如当前词与上一个词是定语关系等,模型训练耗时巨大,而处理标注结果带来的特征模版定制也非常复杂,在大量文本数据下的评价信息抽取的情况下模型几乎无法训练。
另一种常见的评价信息抽取方法,基于语法规则或句法依存结构的抽取方法,基于语法规则的抽取方法通过挖掘评论文本的语法规律,建立若干语法规则构成规则模版库,然后以规则模板库为参考在评论文本中进行匹配搜索,符合规则模版的词则输出为评价信息。基于语法依存结构的抽取方法先通过对评论文本进行依存结构分析,识别出可能含有评价信息单元,最后通过一定的规则对信息单元进行筛选处理,输出评价信息。
但是,基于语法规则的抽取方法严重依赖规则模版库,但规则模版库是难以穷尽评论文本的信息表达规律的,其抽取效果存在很大的实操局限性。而基于句法依存结构的抽取方法需要进行复杂的句法分析,对于信息单元的处理同样也需要建立复杂的规则,这使得整体的抽取模型更加复杂。
可见,如何降低抽取评价信息的复杂度,是丞待本领域技术人员解决的问题。
发明内容
本发明的目的是提供一种评价信息的抽取方法、装置、设备以及一种计算机可读存储介质,用以解决传统评价信息抽取复杂度较高的问题。
为解决上述技术问题,本发明提供了一种评价信息的抽取方法,包括:
对评论文本进行分词,得到由多个词组成的词序列;
遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词;
计算各个所述词对中词与词之间的相似度,得到多个相似度值;
确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。
其中,所述对评论文本进行分词,得到由多个词组成的词序列包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810358721.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种股市题材舆情热度计算方法及系统装置
- 下一篇:句子交互方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置