[发明专利]一种基于WMD的中文问答匹配方法在审
申请号: | 201710539034.1 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107391614A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 杜云贵;杜若;李智星;侯聪;晏世凯;刘科 | 申请(专利权)人: | 重庆智慧思特大数据有限公司;重庆明斯基数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红 |
地址: | 400065 重庆市*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 wmd 中文 问答 匹配 方法 | ||
1.一种基于WMD的中文问答匹配方法,其特征在于,包括:
目标领域的知识库的建立步骤:对知识库的数据预处理步骤:常用同义词词典的建立步骤:词语距离字典的建立步骤:用户提问信息的预处理步骤:文档向量化表示步骤:问句检索及问句匹配步骤:答案返回。
2.根据权利要求1所述的基于WMD的中文问答匹配方法,其特征在于,
所述目标领域的知识库的建立步骤包括:收集某一目标领域的知识,并将其整理为问答对的形式。
3.根据权利要求2所述的基于WMD的中文问答匹配方法,其特征在于,所述对知识库的数据预处理步骤包括:通过无监督算法从知识库中发现新词,新词指词库里面没有出现过的词,将新词和目标领域的专业词汇作为词库,使用中文分词算法将知识库中的问句和答案进行分词操作,并过滤分词结果中出现的标点符号。
4.根据权利要求3所述的基于WMD的中文问答匹配方法,其特征在于,所述常用同义词词典的建立步骤包括:将现有同义词词林、百科词条整理转换得到常用同义词词典,再使用爬虫抓取互联网上的词条并整理成中文常用同义词词典,并使用正则表达式将知识库中的英文单词找出并翻译,得到中英常用同义词词典,将这两者更新至常用同义词词典。
5.根据权利要求4所述的基于WMD的中文问答匹配方法,其特征在于,所述词语距离字典的建立步骤包括:使用分词并过滤后的知识库作为训练语料,为出现过的每个词语训练一个d维的word2vec向量,通过每个词语的word2vec向量计算出每个词语的前k个近邻词语及对应的距离,得到词语距离字典,同时,为得到的常用同义词词典中的同义词两两之间启发式的设置一个距离值,使用该距离值更新词语距离字典。
6.根据权利要求5所述的基于WMD的中文问答匹配方法,其特征在于,所述用户提问信息的预处理步骤包括:将发现的新词和目标领域的专业词汇作为词库使用中文分词算法将用户提出的问句进行分词操作,并过滤分词结果中的标点符号。
7.根据权利要求5所述的基于WMD的中文问答匹配方法,其特征在于,所述文档向量化表示步骤包括:根据词频、文档频、词性、词语位置将知识库中的问句和用户提出的问句向量化表示。
8.根据权利要求7所述的基于WMD的中文问答匹配方法,其特征在于,文档向量化表示使用的是加权后的TF-IDF值,权值设置的依据为词语的词性以及词语的长度信息。
9.根据权利要求8所述的基于WMD的中文问答匹配方法,其特征在于,所述问句检索包括:计算用户提出的问句与知识库中的每一条问句之间的编辑距离,将编辑距离最近的n条问句取出;问句匹配包括步骤:使用改进的WMD距离算法度量用户提出的问句与中得到的n条问句之间的相似度;
答案返回:根据问句匹配的结果,将知识库中与用户提出问句最相似的问句所对应的答案返回给用户。
10.根据权利要求9所述的基于WMD的中文问答匹配方法,其特征在于,所述改进的WMD距离算法与原始的WMD距离算法的区别在于:需要用到的文档特征向量由文档向量化表示得到;需要用到的词语距离矩阵通过查询词语距离字典得到,如果词语距离字典中无法查询到,则为其设置一个默认值p;使用的EMD距离为改进后的EMD距离,其求取仅考虑测试问句中的词语到待匹配问句中的词语之间的最短距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆智慧思特大数据有限公司;重庆明斯基数据科技有限公司,未经重庆智慧思特大数据有限公司;重庆明斯基数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710539034.1/1.html,转载请声明来源钻瓜专利网。