[发明专利]一种基于Word2Vec的中文问答语义相似度计算方法有效
申请号: | 201710661607.8 | 申请日: | 2017-08-04 |
公开(公告)号: | CN107436864B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 王春辉 | 申请(专利权)人: | 识因智能科技(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/33 |
代理公司: | 北京国坤专利代理事务所(普通合伙) 11491 | 代理人: | 赵红霞 |
地址: | 100043 北京市石景山区八*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 word2vec 中文 问答 语义 相似 计算方法 | ||
本发明公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。本发明的有益效果是:提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度,具有较高的效率和准确率,综合重合关键词的文本相似度与非重合关键词的语义相似度,一方面引入语义,解决了关键词高度重合的文本语义相似度计算问题,另一方面避免了短文本造成的语义相似度计算存在较大误差的问题,提高了中文语句相似度计算的准确性。
技术领域
本发明涉及一种相似度计算方法,具体为一种基于Word2Vec的中文问答语义相似度计算方法,属于计算机应用技术领域。
背景技术
当今社会,信息技术飞速发展。随着人们在信息社会中对信息检索的迫切需求的增加,普通的信息检索系统己经无法满足用户的需要,而发展在信息检索技术之上的智能问答系统可以满足人们的这一需求,智能问答系统允许用户以自然语言的形式输入一个问句,最终返回给用户的也是自然语言形式的简短而准确的答案。
在问答系统的信息检索中,极为重要并且基础的任务就是问句的相似度计算,相似度计算的效果好坏,对信息检索的结果准确性有直接的影响,文本的相似度计算,就是简单地进行文本之间的匹配,不考虑其表示的语义上下文以及语言结构。文本相似度计算是语义相似度计算的基础,语义分析就是要对自然语言进行理解,对客观世界进行描述,从自然语言中抽取出现实世界中的事物的概念和含义以及各个事物之间的关系,语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。
语义相似度计算常用算法基本分为两类:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文信息,运用统计的方法进行求解,其中,Word2Vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。由于其高效性和便捷性,Word2Vec得到了广泛的关注。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于Word2Vec的中文问答语义相似度计算方法。
本发明通过以下技术方案来实现上述目的:一种基于Word2Vec的中文问答语义相似度计算方法,包括以下步骤:
步骤A,文本预处理,使用IKAnalyzer将一个汉字序列切分成一个一个单独的词,实现中文文本的分词;
步骤B,向量表示,假设有两个中文文本:S1以及S2。经预处理后得到两组关键词集合CS1和CS2,分别表示为CS1:{w11,w12,...w1m},CS2:{w21,w22,...,w2k},通过计算两个集合CS1和CS2的并集得到CS,
CS=CS1∪CS2={w1,w2,...,wk}
其中k≤m+n;
步骤C,相似度计算,集合和会存在重合的关键词以及非重合的关键词。基于重合的关键词,通过简单的匹配计算文本相似度;基于非重合的关键词,我们通过Word2Vec计算语义相似度,结合重合关键词文本相似度和非重合关键词语义相似度,得到中文文本S1及S2最终的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于识因智能科技(北京)有限公司,未经识因智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710661607.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带滑轮的储物柜
- 下一篇:一种便于搬移的储物柜