[发明专利]文本处理方法、系统及介质在审
| 申请号: | 202110811108.9 | 申请日: | 2021-07-19 |
| 公开(公告)号: | CN113486662A | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 王伟;梁玮;兰斌旋;彭婧;龙鲜菊 | 申请(专利权)人: | 上汽通用五菱汽车股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
| 代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 罗修华 |
| 地址: | 545007 广西壮*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 系统 介质 | ||
本发明公开了一种文本处理方法、系统及介质,其方法:获取汽车用户评论文本;对汽车用户评论文本进行分词及去停用词处理;对分词及去停用词处理后的文本进行文本关键词提取,得到关键词提取结果;构造对应的相似性向量空间,对汽车用户评论文本进行向量化处理,获得一个超高维度的高维向量;基于高维向量,对汽车用户评论文本进行非平衡余弦相似性分析,得到语段相似度;若语段相似度大于预设阈值,则将所述汽车用户评论文本作为待删除文本;否则保留汽车用户评论文本。本发明可以提升文本去重鲁棒性,避免汽车评论这类短文本、超短文本中极容易导致重复内容误排除的缺陷,解决传统余弦向量遇到意思重复的长句和短句无法区分的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本处理方法、系统及介质。
背景技术
目前,汽车售后问题和论坛用户评论抽取关键词方法多为内容绝对映射的MD5方法和局部敏感哈希对高维空间向量进行余弦相似性分析的方法,其中,传统方法使用MD5检测同文本内容,效率很高,但字符稍有改动就会引起识别重复关键词;局部敏感哈希方法,无视不同句式语序,查找局部近词语再以汉明距离确定权值的方法在长文本句段查重中有效,但在汽车评论这类短文本、超短文本中极容易误排除,去重鲁棒性低。
此外,传统余弦相似性方法很难用于处理短评文本分析,由于处理汽车评论这类稀疏高维向量空间时,存在长短相差很大的句子描述相同事物的某一特定属性会产生不同的余弦向量,导致出现重复内容漏排除的问题。
发明内容
本发明的主要目的在于提供一种文本处理方法、系统及介质,可以提升文本去重鲁棒性,避免汽车评论这类短文本、超短文本中极容易导致重复内容误排除的缺陷,解决传统余弦向量遇到意思重复的长句和短句无法区分的问题。
为实现上述目的,本发明提出一种文本处理方法,所述方法包括以下步骤:
获取汽车用户评论文本;
对所述汽车用户评论文本进行分词及去停用词处理;
对分词及去停用词处理后的文本进行文本关键词提取,得到关键词提取结果;
构造对应的相似性向量空间,基于所述关键词提取结果对汽车用户评论文本进行向量化处理,获得一个超高维度的高维向量;
基于所述高维向量,对所述汽车用户评论文本进行非平衡余弦相似性分析,得到语段相似度;
若语段相似度大于预设阈值,则将所述汽车用户评论文本作为待删除文本;
若语段相似度小于或等于预设阈值,则保留所述汽车用户评论文本。
其中,所述对分词及去停用词处理后的文本进行文本关键词提取的步骤包括:
将分好的词与汽车评论词库中的同义词/近义词进行查表替换,再使用TF-IDF方法以词频除以逆文本频率指数,得到关键词提取结果。
其中,所述构造对应的相似性向量空间,基于所述关键词提取结果对汽车用户评论文本进行向量化处理,获得一个超高维度的高维向量的步骤包括:
构造对应的相似性向量空间,对提取的关键词进行数字转化,通过数字转化将包含多个单词的每条用户数据转化为一个多维数组,获得一个超高维度的高维向量,使得整个用户评论文本组成一个高维向量的共现矩阵。
其中,所述基于所述高维向量,对所述汽车用户评论文本进行非平衡余弦相似性分析,得到语段相似度的步骤包括:
引入加权矩阵,采用正向用户反馈输入矩阵结合反向工程师输入作为加权矩阵的方式,对工程师关注的敏感词进行加权处理,计算各评论文本之间的非平衡余弦相似度,得到语段相似度。
其中,所述对所述汽车用户评论文本进行非平衡余弦相似性分析中包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上汽通用五菱汽车股份有限公司,未经上汽通用五菱汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110811108.9/2.html,转载请声明来源钻瓜专利网。





