[发明专利]语义向量的处理方法及装置在审
申请号: | 201811190745.3 | 申请日: | 2018-10-12 |
公开(公告)号: | CN109460549A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 唐梓毅;汪冠春;胡一川;张海雷 | 申请(专利权)人: | 北京奔影网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义向量 文本语义 用户请求 词向量 预设 句子 申请 相似度计算 接收用户 向量编码 输出 | ||
本申请公开了一种语义向量的处理方法及装置。该方法包括接收用户请求;通过对所述用户请求执行预设处理得到词向量;以及将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量。本申请解决了文本语义相似时处理效果较差的的技术问题。通过本申请可以准确得到句子的语义向量,并可以用于两个文本语义相似时的相似度计算。
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种语义向量的处理方法及装置。
背景技术
语义向量,是指将文本的符号表示转换为语义空间中的向量的过程。
发明人发现,在人机对话场景中当接收到的用户请求中的问题相似度较高时,机器人无法准确地分辨出问题所属知识点。进一步,对于相似度较低的问题,无法进行有效地区分。
针对相关技术中文本语义相似时处理效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种语义向量的处理方法及装置,以解决文本语义相似时处理效果较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种语义向量的处理方法。
根据本申请的语义向量的处理方法包括:接收用户请求;通过对所述用户请求执行预设处理得到词向量;以及将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量。
进一步地,所述预设句向量编码模型包括:构造训练数据集,所述构造训练数据集包括:将知识库中划分的知识点按照分类标签分为多层级结构,其中,所述多层级结构至少包括:一级标签和二级标签;将同一知识点下的相似问题作为正样本;将不同知识点下的相似问题作为负样本;以及根据所述相似问题挑选句对并构造出训练数据集。
进一步地,将不同知识点下的相似问题作为负样本包括如下一种或多种操作:随机选择任意两个不同的知识点下的相似问题作为矛盾关系的负样本;选择一级标签相同以及二级标签不同的知识点的相似问题作为矛盾关系的负样本。
进一步地,所述预设句向量编码模型包括:训练句向量编码模型,所述训练句向量编码模型包括:根据自然语言推理任务训练分类器判断输入的两个句子的语义向量;判断两个句子的蕴含、中立或矛盾的关系;其中,在训练过程中根据分类器输出结果调整句向量编码模型的权重,训练好的模型中的编码器部分得到可用于语义向量编码的模型。
进一步地,将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量包括:将经过预设处理得到词向量依次通过BiLSTM后得到多个隐藏状态向量;对所述隐藏状态向量做池化处理到的句子语义向量。
为了实现上述目的,根据本申请的另一方面,提供了一种语义向量的处理装置。
根据本申请的语义向量的处理装置包括:接收模块,用于接收用户请求;预处理模块,用于通过对所述用户请求执行预设处理得到词向量;以及句向量模型模块,用于将所述词向量输入预设句向量编码模型并输出所述用户请求中的句子的语义向量。
进一步地,所述句向量模型模块包括:构造训练数据集模块,所述构造训练数据集模块包括:标签单元,用于将知识库中划分的知识点按照分类标签分为多层级结构,其中,所述多层级结构至少包括:一级标签和二级标签;正样本处理单元,用于将同一知识点下的相似问题作为正样本;负样本处理单元,用于将不同知识点下的相似问题作为负样本;以及挑选单元,用于根据所述相似问题挑选句对并构造出训练数据集。
进一步地,所述负样本处理单元中包括如下一种或多种操作:随机选择任意两个不同的知识点下的相似问题作为矛盾关系的负样本;选择一级标签相同以及二级标签不同的知识点的相似问题作为矛盾关系的负样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奔影网络科技有限公司,未经北京奔影网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811190745.3/2.html,转载请声明来源钻瓜专利网。