[发明专利]一种基于语义和浅层特征的短文本匹配方法有效
| 申请号: | 202110373418.7 | 申请日: | 2021-04-07 |
| 公开(公告)号: | CN112966073B | 公开(公告)日: | 2023-01-06 |
| 发明(设计)人: | 杨洁;余卫宇 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N3/04 |
| 代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 韩迎之 |
| 地址: | 510630 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 特征 文本 匹配 方法 | ||
1.一种基于语义和浅层特征的短文本匹配方法,其特征在于,包括以下步骤:
读取、预处理第一文本和第二文本,获取字信息;
利用word2vec模型将所述字信息映射为字特征向量;
提取句编码的特征,对所述特征进行归一化处理,获得统计特征向量;
利用BiLSTM和attention得到所述字特征向量对应的解码向量us;所述统计特征向量经多头注意力机制结构更新所述统计特征向量得到解码向量rs;
将所述解码向量us和所述解码向量rs进行拼接,对拼接结果进行预测,若输出结果为1,则所述第一文本和所述第二文本匹配成功;
所述解码向量us获取的具体过程如下:
将所述字特征向量输入BiLSTM层,进行独立encoder编码,并且在每个向量后加入特殊向量得到如下:
其中,是第一文本的所述字特征向量输入BiLSTM层,进行独立encoder编码所得;是第二文本的所述字特征向量输入BiLSTM层,进行独立encoder编码所得;表示第一文本对应的特殊向量;表示第二文本对应的特殊向量;表示第一文本的所述字特征向量,表示第二文本的所述字特征向量;将输入到非线性激活网络,得到隐藏向量矩阵hb,将输入到非线性激活网络,得到隐藏向量矩阵hd:
计算隐藏向量矩阵hd和隐藏向量矩阵hb的相关性矩阵s如下:
s=(hb)Thd∈R(b+1)*(d+1);
利用所述相关性矩阵s,根据softmax函数计算相互的attention分数Ab和Ad;计算特征向量cb和特征向量cd如下:
cb=hdAb∈Rl*(n+1);
cd=[hb;cb]Ad∈R2l*(m+1);
将隐藏向量矩阵hb和特征向量cb进行拼接,将隐藏向量矩阵hd和特征向量矩阵cd进行拼接之后,得到的两个向量再进行拼接得到wt,并ut-1和ut+1接入一个BiLSTM层,得到当下最后的隐藏向量ut,其中ut-1和ut+1分别是前一时刻和后一时刻的最后隐藏向量u;将隐藏向量u输入到BiLSTM层,得到对应的解码向量us。
2.根据权利要求1所述的一种基于语义和浅层特征的短文本匹配方法,其特征在于,所述字信息包括字数列和词序列。
3.根据权利要求1所述的一种基于语义和浅层特征的短文本匹配方法,其特征在于,所述句编码的特征包括距离特征、文本特征和共现特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110373418.7/1.html,转载请声明来源钻瓜专利网。





