[发明专利]基于多粒度融合模型的中文句子语义智能匹配方法及装置有效
申请号: | 202010103529.1 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111310438B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 鹿文鹏;王荣耀;张旭;贾瑞祥;郭韦钰;张维玉 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06F16/33;G06F16/35;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒度 融合 模型 中文 句子 语义 智能 匹配 方法 装置 | ||
本发明公开了一种基于多粒度融合模型的中文句子语义智能匹配方法及装置,属于人工智能领域和自然语言处理领域,本发明要解决的技术问题为单粒度模型语义分析不全面和句子匹配不精确,采用的技术方案为:该方法具体如下:S1、构建文本匹配知识库;S2、构建文本匹配模型的训练数据集;S3、构建多粒度融合模型;具体如下:S301、构建字符词语映射转换表;S302、构建输入层;S303、构建多粒度嵌入层;S304、构建多粒度融合编码层;S305、构建交互匹配层;S306、构建预测层;S4、训练多粒度融合模型。该装置包括文本匹配知识库构建单元、文本匹配模型的训练数据集构建单元、多粒度融合模型构建单元和多粒度融合模型训练单元。
技术领域
本发明涉及人工智能领域和自然语言处理领域,具体地说是一种基于多粒度融合模型的中文句子语义智能匹配方法及装置。
背景技术
句子语义匹配在许多自然语言处理任务中扮演着关键角色,例如问答(QA)、自然语言推理(NLI)、机器翻译(MT)等。句子语义匹配的关键是计算给定句子对的语义之间的匹配程度。句子可以从不同的粒度上进行分割,例如字符、词语和短语等。当前,常用的文本分割粒度是词语,特别是在中文领域中更为普遍。
目前,中文句子语义匹配模型多数是面向词语粒度的,而忽略了其它分割粒度。这些模型无法完全捕获嵌入在句子中的语义特征,有时甚至会产生噪音,这会影响句子匹配的准确性。目前,该领域的研究人员逐渐倾向于从句子的多种不同角度或粒度考虑语义匹配,比较成功的模型方法有MultiGranCNN、MV-LSTM、MPCM、BiMPM、DIIN等。尽管这些模型在一定程度上缓解了词语粒度上建模的局限性,但仍无法彻底解决句子语义的精准匹配问题,这在具有丰富语义特征的中文上表现更为突出。
专利号为CN106569999A的专利文献公开了一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。但是该技术方案无法彻底解决句子语义的精准匹配问题。
发明内容
本发明的技术任务是提供一种基于多粒度融合模型的中文句子语义智能匹配方法及装置,来解决单粒度模型语义分析不全面和句子匹配不精确的问题。
本发明的技术任务是按以下方式实现的,基于多粒度融合模型的中文句子语义智能匹配方法,该方法具体如下:
S1、构建文本匹配知识库;
S2、构建文本匹配模型的训练数据集:对于每一个句子,在文本匹配知识库中都会有一个与之对应的标准的语义匹配的句子,此句子可与其组合用来构建训练正例;其他不匹配的句子可自由组合用来构建训练负例;用户可根据文本匹配知识库大小来设定负例的数量,从而构建训练数据集;
S3、构建多粒度融合模型;具体如下:
S301、构建字符词语映射转换表;
S302、构建输入层;
S303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;
S304、构建多粒度融合编码层:对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;
S305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;
S306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;
S4、训练多粒度融合模型。
作为优选,所述步骤S1中构建文本匹配知识库具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010103529.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在电子设备之间继续活动
- 下一篇:OPC数据采集方法