[发明专利]一种评论观点主题抽取方法、电子设备及存储介质有效
申请号: | 202010772735.1 | 申请日: | 2020-08-04 |
公开(公告)号: | CN112131863B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 周少龙;冯若凡;余智华;陈欣洁;冯凯 | 申请(专利权)人: | 中科天玑数据科技股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F16/35;G06F40/35 |
代理公司: | 北京沁优知识产权代理有限公司 11684 | 代理人: | 郭峰 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评论 观点 主题 抽取 方法 电子设备 存储 介质 | ||
本发明提供了一种评论观点主题抽取方法,包括:采集社交软件中评论,获得评论文本;对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量;构建观点句分类模型,判断所述评论文本中的句子是否为观点句;聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;在所述候选观点关键词中抽选关键词,并根据词性选择核心词;将与所述核心词匹配的观点句生成主题,形成主题候选集;从每个类别的所述主题候选集中选择一个主题作为最终观点主题。本发明还提供了电子设备和存储介质。从评论文本自动抽取观点主题,以便准确接收网民意见,并判断是否对社会造成舆论,能够直观地了解到社交软件的相关热点话题。
技术领域:
本发明涉及信息抽取、关键词抽取与分类技术领域,具体的,涉及一种评论观点主题抽取方法、电子设备及存储介质。
背景技术:
互联网的普及与高速发展,社交软件作为一种社交信息共享平台成为网民获取信息的重要来源,如微博每天信息发布量就达到上亿条以上,这些信息中隐藏着社会事件,需要从中挖掘出有效的信息,而这种量级的数据很难通过人工处理的方法及时提取出隐藏在海量数据背后的热点主题。
社交软件观点主题主要是从评论中抽取地信息即能代表网民所表达地意见,同时能够判断是否对社会造成舆论,是积极的还是消极的,如能够直观的了解到社交软件的相关热点话题等。为了提升这一信息抽取的效果,从海量信息中挖掘出热点话题,对于了解最新的舆论热点、掌握舆论动向有着重大意义。
信息抽取领域现有工作主要是通过序列标注的方法对待分析评论文本进行观点主题抽取,而这种方法对于观点主题没有完善的标准准则,人工标注无法完成。
因此,本领域亟需一种评论观点主题抽取方法、电子设备及存储介质。
有鉴于此,提出本发明。
发明内容:
有鉴于此,本发明的目的在于提供一种评论观点主题抽取方法、电子设备及存储介质,以解决现有技术中的至少一项技术问题。
具体的,本发明的第一方面,提供了一种评论观点主题抽取方法,包括以下步骤:
采集社交软件中评论,获得评论文本;
对所述评论文本进行预处理,将评论文本中转换为词向量,形成文本向量;
构建观点句分类模型,判断所述评论文本中的句子是否为观点句;
聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;
在所述候选观点关键词中抽选关键词,并根据词性选择核心词;
将与所述核心词匹配的观点句生成主题,形成主题候选集;
从每个类别的所述主题候选集中选择一个主题作为最终观点主题。
采用上述技术方案,将评论文本进行关键词提取,匹配观点句形成主题,最终从大量的评论文本中自动抽取观点主题,以便准确接收网民所表达的意见,并判断是否对社会造成舆论,是积极的还是消极的,能够直观地了解到相关热点话题。
进一步地,所述对所述评论文本进行预处理,将评论文本中转换为词向量,形成文本向量包括以下步骤:
对所述评论文本进行分词、剔除表情符号、去停用词,形成词汇;
利用word2vec模型训练所述评论文本得到n维的词向量w(c);
计算所述词汇的TF-IDF权重值w(d);
计算所述评论文本的文本向量w=w(c)*w(d)。
采用上述技术方案,利用文档词频、文档逆词频与词语内部语义信息构建所述评论文本的向量表示,便于后续建模分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科天玑数据科技股份有限公司,未经中科天玑数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010772735.1/2.html,转载请声明来源钻瓜专利网。