[发明专利]一种文本去重的方法、装置及设备在审

申请号：	201910384114.3	申请日：	2019-05-09
公开（公告）号：	CN110162630A	公开（公告）日：	2019-08-23
发明（设计）人：	智绪浩;庄超;毕研涛;魏学峰	申请（专利权）人：	深圳市腾讯信息技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;贾允
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本反馈词向量去重相似度向量装置及设备目标对象文本向量预设文本分类模型准确率申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本去重的方法、装置及设备，所述方法包括：基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度；基于所述相似度，对所述第一反馈文本进行去重处理。采用本申请提供的技术方案，可以准确计算出目标对象反馈的第一反馈文本与预设文本向量库中第二反馈文本之间的相似度，从而提高文本去重的准确率。

技术领域

本申请涉及互联网文本分析技术领域，尤其涉及一种文本去重的方法、装置及设备。

背景技术

针对一款新游戏或者一个游戏的新版本，在正式应用之前均会对其进行测试。例如，招募数百名玩家体验游戏并反馈游戏中的缺陷。通常多名玩家对相同问题所采用的表达或描述不同，在后期统计游戏缺陷的时候，需要针对不同的描述找出重复的反馈并提取出来。

现有技术在进行文本去重时，对需要去重的文本进行分词；然后，直接从分词中提取的关键词；接着，计算两个文本的关键词之间的相似度，最后，基于文本的关键词之间的相似度来进行文本去重。上述现有的文本去重方法中，直接以分词后提取的关键词作为计算两个文本相似度的依据，由于关键词信息单一，往往无法准确地表征文本的语义，基于关键词间也就无法准确地计算文本之间的相似度，导致文本去重的效果较差。因此，需要提供一种更有效的文本去重的方法，以改善文本的去重效果。

发明内容

本申请提供了一种文本去重的方法、装置及设备，可以准确计算出目标对象反馈的第一反馈文本与预设文本向量库中第二反馈文本之间的相似度，从而提高文本去重的准确率。

一方面，本申请提供了一种文本去重的方法，所述方法包括：

基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；

基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；

基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；

计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度，所述预设文本向量库包括预设的第二反馈文本与句向量的映射关系；

基于所述相似度，对所述第一反馈文本进行去重处理。

另一方面提供了一种文本去重的装置，所述装置包括：

关键词确定模块，用于基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；

词向量确定模块，用于基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；

句向量确定模块，用于基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；