[发明专利]一种评论观点主题抽取方法、电子设备及存储介质有效
申请号: | 202010772735.1 | 申请日: | 2020-08-04 |
公开(公告)号: | CN112131863B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 周少龙;冯若凡;余智华;陈欣洁;冯凯 | 申请(专利权)人: | 中科天玑数据科技股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F16/35;G06F40/35 |
代理公司: | 北京沁优知识产权代理有限公司 11684 | 代理人: | 郭峰 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评论 观点 主题 抽取 方法 电子设备 存储 介质 | ||
1.一种评论观点主题抽取方法,其特征在于,包括以下步骤:
采集社交软件中评论,获得评论文本;
对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量;
构建观点句分类模型,判断所述评论文本中的句子是否为观点句;
聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词;
在所述候选观点关键词中抽选关键词,并根据词性选择核心词;
将与所述核心词匹配的观点句生成主题,形成主题候选集;
从每个类别的所述主题候选集中选择一个主题作为最终观点主题。
2.根据权利要求1所述的评论观点主题抽取方法,其特征在于:所述对所述评论文本进行预处理,将评论文本转换为词向量,形成文本向量包括以下步骤:
对所述评论文本进行分词、剔除表情符号、去停用词,形成词汇;
利用word2vec模型训练所述评论文本得到n维的词向量;
计算所述词汇的TF-IDF权重值;
计算所述评论文本的文本向量。
3.根据权利要求2所述的评论观点主题抽取方法,其特征在于:所述构建观点句分类模型,判断所述评论文本中的句子是否为观点句,包括以下步骤:
采用贝叶斯网络模型对已标注好的评论数据进行分类训练,标注观点句和非观点句,构建观点句分类模型;
将所述评论文本进行分句,形成评论句;
将所述评论句作为所述观点句分类模型的输入,判断是否为观点句。
4.根据权利要求3所述的评论观点主题抽取方法,其特征在于:所述构建观点句分类模型,判断所述评论文本中的句子是否为观点句还包括以下步骤:
采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注;
对所述评论句情感得分的绝对值低于阈值的评论句剔除。
5.根据权利要求1-4任一项所述的评论观点主题抽取方法,其特征在于:采用情感词典对未分类的所述评论句进行初步判断,对每个评论句进行情感得分标注包括以下步骤:
将所述评论句中表情符号提取,对照预设的表情符号词典,对所述评论句的情感得分进行相加或加权。
6.根据权利要求5所述的评论观点主题抽取方法,其特征在于:所述聚类所述观点句形成观点主题簇,分别抽取所述观点主题簇中的关键词作为候选观点关键词包括以下步骤:
采用K-means聚类方法进行预设类别个数进行聚类,形成主题观点集合;
采用TF-IDF与语义网络方法分别对每类主题的观点句进行抽取关键词;
形成多个类别的候选观点关键词集。
7.根据权利要求6所述的评论观点主题抽取方法,其特征在于:所述在所述候选观点关键词中抽选关键词,并根据词性选择核心词包括以下步骤:
从所述候选观点关键词集中选择动词、名词词性的词汇形成待选关键词集;
利用TextRank算法在所述待选关键词集中进行关键词提取,选择超过权重阈值的若干个关键词为核心词。
8.根据权利要求7所述的评论观点主题抽取方法,其特征在于:所述将与所述核心词匹配的观点句生成主题,形成主题候选集包括以下步骤:
选择核心词中词性为名词且权值最大的词汇为话题核心词;
采集与所述话题核心词匹配的观点句,作为主题句;
在主题句中截取从所述话题核心词到其后最近标点符号之间的短语句,作为侯选主题;
选择候选主题中出现次数最高的短语句作为预选主题;
将所述预选主题分词并标注词性,剔除无用词性的词,得到的字符串为最终观点主题。
9.一种电子设备,其特征在于,所述电子设备,其特征在于包括存储器及处理器,所述存储器上至少有一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1-8任一项所述的评论观点主题抽取方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现如权利要求1-8任一项所述的评论观点主题抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科天玑数据科技股份有限公司,未经中科天玑数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010772735.1/1.html,转载请声明来源钻瓜专利网。