[发明专利]一种结合同义词词典和词嵌入向量的问句相似度计算方法有效
| 申请号: | 201811428781.9 | 申请日: | 2018-11-27 |
| 公开(公告)号: | CN109597992B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 张家重;赵亚欧;王玉奎;付宪瑞;张金清 | 申请(专利权)人: | 浪潮金融信息技术有限公司 |
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/30 |
| 代理公司: | 苏州思睿晶华知识产权代理事务所(普通合伙) 32403 | 代理人: | 吴碧骏 |
| 地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 同义词 词典 嵌入 向量 问句 相似 计算方法 | ||
本发明公开了一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,本发明具有以下优点:相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性;对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题;该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。
技术领域
本发明涉及金融领域服务机器人的自动问答,特别是涉及一种结合同义词词典和词嵌入向量的问句相似度计算方法。
背景技术
随着人工智能技术在金融自助领域的应用不断加深,越来越多的银行使用基于语音交互技术的机器人来辅助工作人员进行业务的咨询、办理。语音交互技术主要是对用户语音进行识别,转换成相应文字,然后在此基础上对文字的语义进行分析,通过搜索银行内部问题库,提取与用户问题最接近问题的答案。最后,将答案通过语音合成技术(TTS)转换为语音信号,发给机器人并通过扬声器发声。
这其中,对用户问题的理解,一般表现为用户所提问题与银行内部数据库中预制问题的匹配,是当前技术的一个难点。该问题的难度主要体现在:(1)用户对同一个问题往往有不同的表达方式(句法结构不同)。(2)用户对同一事物采用不同的词语进行表达(同义词替换)。(3)口语一般采用缩略语,如使用“卡”来代替“银行卡”。对于第一种情况,往往使用预制多个问句模板来解决,即定义一个问题的多种句式,分别进行匹配;对于后两种情况,一般通过计算同义词之间的相似度来解决。
对于同义词相似度的计算,存在两种方法,一种是传统的基于查字典的方法,典型的就是使用哈工大的“同义词词林”。该方法通过搜索“同义词词林”中的对应词语所处的位置来计算词语之间的相似度。其缺点是:“同义词词林”为人工编纂,所涉及的词语大多为日常生活中涉及到的词,对于银行领域的专业词,或者生僻词往往存在缺失。此外,由于人工词典编写的滞后性,一些流行词也存在缺失。
第二种方法是基于词嵌入向量的方法。该方法首先在互联网上爬取特定领域的相关文字资料,形成语料库,然后借助word2vec、glove、fasttext等词向量计算工具,自动生成每个词语的词向量,最后通过计算词语对应词向量的余弦距离得出词语的语义相似度。该方法的优点是:只要语料库足够大,几乎可以计算所有词语之间的相似度,有效避免了人工编写词典词汇缺失的问题。该方法的缺点是:由于词向量是算法自动生成,因此该方法估计出的词语相似度不如人工词典方法准确。
发明内容
针对上述存在的技术问题,本发明的目的是:本发明提出了一种结合同义词词典和词嵌入向量的问句相似度计算方法,该方法首先利用同义词词典方法和词向量方法分别计算词语之间的相似度,然后对两种方法计算的结果进行融合。
本发明的技术解决方案是这样实现的:一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;
(一)句子级别的相似度融合方法:
待计算相似度的两个问句分别为S1、S2,对其进行分词处理,可得其中,m、n分别是问句S1、S2所包含词语的数目,表示第p个问句中的第q个词语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮金融信息技术有限公司,未经浪潮金融信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811428781.9/2.html,转载请声明来源钻瓜专利网。





