[发明专利]文本问题的数学化处理方法、装置、设备和存储介质有效
申请号: | 201710687829.7 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107590192B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 刘晓江;王䶮;史树明 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F16/30 | 分类号: | G06F16/30;G06F16/36 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 问题 数学 处理 方法 装置 设备 存储 介质 | ||
1.一种文本问题的数学化处理方法,所述方法包括:
获取问题文本序列;
确定所述问题文本序列中的数字和相应的上下文内容;
将确定出的数字和相应的上下文内容输入关键数字识别模型,识别出所述问题文本序列中的关键数字;所述关键数字识别模型,是用于识别问题文本序列中的关键数字的模型;所述关键数字,是指与解题相关的数字;
映射所述问题文本序列中的关键数字为表达式词汇;
将包括所述表达式词汇的问题文本序列中的各词转换为词向量,得到词向量序列;所述词向量,是指用于将语言中的词表示成数学形式的向量;
按照词向量序列中各词向量的先后顺序,循环地将前次编码后的值和当前词向量作为当次编码的输入值;
将最后一次编码后的值作为包括所述表达式词汇的问题文本序列的语义向量;所述语义向量,是指表征包括所述表达式词汇的问题文本序列的语义的向量;
识别所述问题文本序列中的关键数字;
获取初始的表达式词汇集;
从初始的表达式词汇集中的与数字具有映射关系的表达式词汇中,去除与所述关键数字没有映射关系的表达式词汇;
对所述语义向量进行循环解码,确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率;
选取在每次解码时输出概率最大的表达式词汇进行输出;
按照输出的先后顺序,将各输出的表达式词汇组合生成包括映射后的所述表达式词汇的表达式;
将所述表达式中的所述表达式词汇替换为所映射的数字。
2.根据权利要求1所述的方法,其特征在于,所述对所述语义向量进行循环解码,确定所述表达式词汇集中各表达式词汇在每次解码时的输出概率包括:
对所述语义向量和前次输出的解码向量进行解码,得到当次输出的解码向量和相应权重矩阵;
根据当次输出的解码向量和相应权重矩阵,确定当次解码时表达式词汇集中各表达式词汇的输出概率。
3.根据权利要求2所述的方法,其特征在于,所述根据当次输出的解码向量和相应权重矩阵,确定当次解码时表达式词汇集中各表达式词汇的输出概率包括:
根据前次输出的表达式词汇和预设的表达式词汇约束条件,生成当次与所述表达式词汇集中各表达式词汇对应的二进制向量;
确定当次输出的解码向量和相应权重矩阵的乘积;
根据所述乘积和所述二进制向量,确定所述表达式词汇集中各表达式词汇在当次的输出概率。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度;
确定所述预存问题文本序列与包括所述表达式词汇的问题文本序列间的最高相似度;
当所述最高相似度小于预设阈值时,再执行将包括所述表达式词汇的问题文本序列编码为语义向量的步骤。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述最高相似度大于或等于所述预设阈值时,则
获取最高相似度的预存问题文本序列所对应的表达式;
将包括所述表达式词汇的问题文本序列中的数字代入获取的所述表达式中输出问题答案。
6.根据权利要求4所述的方法,其特征在于,所述获取包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度包括:
获取包括所述表达式词汇的问题文本序列的第一词组权重向量和预存问题文本序列的第二词组权重向量;
取第一词组权重向量与第二词组权重向量的交集的模;
取第一词组权重向量与第二词组权重向量的并集的模;
根据所述交集的模和所述并集的模的比值,得到包括所述表达式词汇的问题文本序列与预存问题文本序列间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710687829.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可用于钢圈精整圆的装置
- 下一篇:一种板材弯折器