[发明专利]文本处理方法、系统及介质在审
| 申请号: | 202110811108.9 | 申请日: | 2021-07-19 |
| 公开(公告)号: | CN113486662A | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 王伟;梁玮;兰斌旋;彭婧;龙鲜菊 | 申请(专利权)人: | 上汽通用五菱汽车股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
| 代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 罗修华 |
| 地址: | 545007 广西壮*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 系统 介质 | ||
1.一种文本处理方法,其特征在于,所述方法包括以下步骤:
获取汽车用户评论文本;
对所述汽车用户评论文本进行分词及去停用词处理;
对分词及去停用词处理后的文本进行文本关键词提取,得到关键词提取结果;
构造对应的相似性向量空间,基于所述关键词提取结果对汽车用户评论文本进行向量化处理,获得一个超高维度的高维向量;
基于所述高维向量,对所述汽车用户评论文本进行非平衡余弦相似性分析,得到语段相似度;
若语段相似度大于预设阈值,则将所述汽车用户评论文本作为待删除文本;
若语段相似度小于或等于预设阈值,则保留所述汽车用户评论文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述对分词及去停用词处理后的文本进行文本关键词提取的步骤包括:
将分好的词与汽车评论词库中的同义词/近义词进行查表替换,再使用TF-IDF方法以词频除以逆文本频率指数,得到关键词提取结果。
3.根据权利要求1所述的文本处理方法,其特征在于,所述构造对应的相似性向量空间,基于所述关键词提取结果对汽车用户评论文本进行向量化处理,获得一个超高维度的高维向量的步骤包括:
构造对应的相似性向量空间,对提取的关键词进行数字转化,通过数字转化将包含多个单词的每条用户数据转化为一个多维数组,获得一个超高维度的高维向量,使得整个用户评论文本组成一个高维向量的共现矩阵。
4.根据权利要求1所述的文本处理方法,其特征在于,所述基于所述高维向量,对所述汽车用户评论文本进行非平衡余弦相似性分析,得到语段相似度的步骤包括:
引入加权矩阵,采用正向用户反馈输入矩阵结合反向工程师输入作为加权矩阵的方式,对工程师关注的敏感词进行加权处理,计算各评论文本之间的非平衡余弦相似度,得到语段相似度。
5.根据权利要求6所述的文本处理方法,其特征在于,所述对所述汽车用户评论文本进行非平衡余弦相似性分析中包括:
基于余弦相似性数学模型,将余弦向量每一个维度上的解析值减去所在数据集所有向量该维度上的平均值,所得结果替代原数学模型向量每一个维度数值,以构建各个维度变化量均不相同的打破原向量平衡的新向量,用以比较相似度。
6.一种文本处理系统,其特征在于,包括:所述系统包括存储器、处理器,以及存储在所述存储器上的计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文本处理方法的步骤。
7.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文本处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上汽通用五菱汽车股份有限公司,未经上汽通用五菱汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110811108.9/1.html,转载请声明来源钻瓜专利网。





