[发明专利]一种基于句子情感属性的文本属性生成观点摘要方法与系统在审
申请号: | 201911206285.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110941963A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 廖祥文;李晓滨;陈志豪;张铭洲;吴运兵 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/34;G06N20/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句子 情感 属性 文本 生成 观点 摘要 方法 系统 | ||
1.一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,包括以下步骤:
提取网站上的待处理数据集,并对其进行预处理;
构建话题语料集和背景语料集;
提取话题语料集的情感属性;
将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重;
利用情感属性作为评价对象,将句子进行特征向量化,得到文本句子特征向量;
根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要。
2.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述待处理数据集包括但不限于微博语料集。
3.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述进行预处理具体包括以下步骤:
去除评论句子中的网页链接;
去除字符长度小于3的评论句子;
去除评论句子中的常用不相关词;
将所有英文统一成小写字母。
4.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述构建话题语料集和背景语料集具体为:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。
5.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述提取话题语料集的情感属性具体包括以下步骤:
步骤S11:借助对数似然比方法,计算话题语料集中的单词的对数似然比值,将对数似然比低于预设阈值的单词过滤,得到情感属性与其他单词;
步骤S12:基于情感词典,提取话题语料集中的情感属性,得到包括正面的情感属性集合与负面的情感属性集合在内的情感属性集合。
6.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重具体为:
将提取的情感属性作为特征输入,采用归一化的方式处理所有特征后将特征输入Xgboost模型进行特征选择,得到每个特征的重要性得分及排名,选择排名位于前三的特征作为向量化的依据,并根据得分为特征分配权重值。
7.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述利用情感属性作为评价对象,将句子进行特征向量化具体为:
首先利用动态词序列的方法切割句子词序列,得到句子中包含的每个评价对象的词序列;然后利用情感词典匹配每个评价对象的词序列情感词,根据句子中的情感属性和情感属性权重得到句子特征向量。
8.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要具体为:首先构建融合句子相似性的观点句子评分函数,每次选择使得观点摘要集合情感属性得分最大的句子加入到观点摘要中,得到观点摘要集合。
9.根据权利要求8所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述观点摘要集合中包含的句子数量在20个以内。
10.一种基于句子情感属性的文本属性生成观点摘要系统,包括存储器、处理器以及存储于存储器上并能够被所述处理器运行的计算机程序,其特征在于,所述处理器在运行该计算机程序时,实现如权利要求1-8任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911206285.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械压力机滑块锁紧器
- 下一篇:一种稻田化肥减量增效的方法