[发明专利]一种文本语义解析方法和装置有效
| 申请号: | 201911406192.5 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111160042B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 马雄;杨旭川 | 申请(专利权)人: | 重庆觉晓科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F17/16 |
| 代理公司: | 重庆嘉品知识产权代理事务所(普通合伙) 50302 | 代理人: | 李阳 |
| 地址: | 401120 重庆市渝北区回兴街道宝圣*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 语义 解析 方法 装置 | ||
本申请实施例提供一种文本语义解析方法和装置,以解决现有技术中语义解析方法准确率低的问题。所述方法包括:提供包括编码器和解码器的解析模型并训练;基于待解析文本,通过所述编码器进行编码,生成第一向量矩阵;其中,所述待解析文本包括短文本和长文本;基于所述第一向量矩阵,通过所述解码器生成上下文向量矩阵,所述上下文向量矩阵表征自身之外的词对自身的贡献;基于所述上下文向量矩阵确定边界向量矩阵,通过所述解码器解码所述边界向量矩阵,确定所述长文本是否蕴含所述短文本。
技术领域
本申请涉及文本信息处理技术领域,尤其涉及一种文本语义解析方法和装置。
背景技术
随着计算机技术的发展,很多应用场景都在尝试以计算机参与,从而提高效率的目的。例如,对考试主观题的打分;又例如,对某些文本的审核等。这些应用场景中,通常需要确定两个文本之间的相似度,例如根据已确定的标准答案或标准答案的关键语句,确定主观题答案的语义是否蕴含标准答案的关键语句。
现在技术中,通常是基于两个文本中各个词所表示的词义,对两个文本之间的相似度进行确定。对于一条语句或一段语句来说,除了由单个的词组成以外,还包括了其他的很多信息。即使相同的词组成的一条语句,其他的信息不同也会导致这条语句所表达的意思不同,这样也会影响最后的判断结果。因此,如何根据更全面的文本信息进行打分进而得到更精确的打分结果是亟待解决的问题。
发明内容
本申请的目的是提供一种文本语义解析方法和装置,以解决现有技术中语义解析方法准确率低的问题。
本申请第一方面,提供一种文本语义解析方法,包括:
提供包括编码器和解码器的解析模型并训练;
基于待解析文本,通过所述编码器进行编码,生成第一向量矩阵;其中,所述待解析文本包括短文本和长文本;
基于所述第一向量矩阵,通过所述解码器生成上下文向量矩阵,所述上下文向量矩阵表征自身之外的词对自身的贡献;
基于所述上下文向量矩阵确定边界向量矩阵,通过所述解码器解码所述边界向量矩阵,确定所述长文本是否蕴含所述短文本。
可能的实现方式中,所述基于待解析文本,通过所述编码器进行编码,生成第一向量矩阵,包括:
以Bert模型作为所述编码器,按设定格式将所述短文本和所述长文本输入的所述编码器,所述设定格式为[分类标签]短文本[文本分割符]长文本[文本分割符];
通过Bert模型对所述待解析文本进行编码,生成所述第一向量矩阵,所述第一向量矩阵的行数为采用所述设定格式输入的内容的长度之和。
可能的实现方式中,所述基于所述第一向量矩阵,通过所述解码器生成上下文向量矩阵,包括:
基于所述第一向量矩阵,通过所述解码器由所述长文本中确定所述短文本的线索,生成第二向量矩阵;
基于所述第二向量矩阵,通过所述解码器生成所述上下文向量矩阵。
可能的实现方式中,所述生成第二向量矩阵和所述上下文向量矩阵,具体包括:
基于所述第一向量矩阵和DGCNN模型,生成第二向量矩阵;
基于所述第二向量矩阵和Self-attention模型,生成所述上下文向量矩阵。
可能的实现方式中,所述基于所述第一向量矩阵和DGCNN模型,生成第二向量矩阵,包括:
通过对所述第一向量矩阵进行一维膨胀卷积,生成第一中间向量矩阵;
再通过对所述第一向量矩阵进行一维膨胀卷积,用激活函数激活,生成第二中间向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆觉晓科技有限公司,未经重庆觉晓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911406192.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:充电电流的确定方法及装置
- 下一篇:带有关键字的硬件缓存管理单元(BMU)





