[发明专利]实体标注方法、意图识别方法及对应装置、计算机存储介质有效
申请号: | 201710655187.2 | 申请日: | 2017-08-03 |
公开(公告)号: | CN109388793B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 胡于响 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36 |
代理公司: | 广州铸智知识产权代理有限公司 44886 | 代理人: | 徐瑞红 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 标注 方法 意图 识别 对应 装置 计算机 存储 介质 | ||
1.一种实体标注方法,其特征在于,该方法包括:
利用知识图谱对句子中至少部分词语的属性标签进行词编码,得到至少部分词语的第一表达向量;所述知识图谱是以领域划分的,在所述知识图谱中,存储有各实体以及所述各实体对应的属性标签、所述各实体之间的关系;
基于句子结构对所述句子中至少部分词语进行词编码,得到至少部分词语的第二表达向量;
将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果。
2.根据权利要求1所述的方法,其特征在于,所述利用知识图谱对句子中至少部分词语的属性标签进行词编码包括:
利用知识图谱识别所述句子中的实体以及该实体对应的属性标签;
利用识别结果对所述句子进行分词,并对得到的至少部分词语标注属性标签;
对至少部分词语的属性标签进行词编码,并将编码结果进行全连接层的转换,得到至少部分词语的第一表达向量。
3.根据权利要求2所述的方法,其特征在于,利用知识图谱识别所述句子中的实体包括:
采用最长匹配原则将所述句子在知识图谱中进行匹配,识别出所述句子中的实体。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:将知识图谱中各实体在各领域中的属性标签进行整合,得到各实体对应的属性标签集合;将各实体对应的属性标签集合存储于键值存储引擎;
所述采用最长匹配原则将所述句子在知识图谱中进行匹配包括:所述采用最长匹配原则 将所述句子在所述键值存储引擎中进行匹配。
5.根据权利要求2所述的方法,其特征在于,利用所述识别结果对所述句子进行分词包括:
对句子进行分词,其中将识别出的实体作为独立的词语。
6.根据权利要求2所述的方法,其特征在于,所述对至少部分词语的属性标签进行词编码包括:
对至少部分词语的属性标签进行独热one-hot编码。
7.根据权利要求1所述的方法,其特征在于,所述基于句子结构对所述句子中至少部分词语进行词编码包括:
确定所述句子中至少部分词语的词向量;
将所述词向量输入预先训练的神经网络,分别得到至少部分词语的第二表达向量。
8.根据权利要求7所述的方法,其特征在于,确定所述句子中至少部分词语的词向量包括:
利用基于语义预先训练的word2vec,针对所述句子中至少部分词语分别生成词向量。
9.根据权利要求7所述的方法,其特征在于,所述神经网络包括:双向循环神经网络。
10.根据权利要求1所述的方法,其特征在于,所述将第一表达向量和第二表达向量进行融合,得到对所述句子的实体标注结果包括:
将至少部分词语的第一表达向量和第二表达向量分别进行拼接,得到至少部分词语的第三表达向量;
将至少部分词语的第三表达向量经过全连接层转换为至少部分词语的结果向量,其中,所述结果向量的长度对应实体标签的总数量,所述结果向量的各位对应各实体标签,各位的取值体现对应实体标签的得分;
依据至少部分词语的结果向量对所述句子进行实体标注。
11.根据权利要求10所述的方法,其特征在于,所述依据至少部分词语的结果向量对所述句子进行实体标注包括:
分别按照至少部分词语的结果向量中得分最高的实体标签对句子中的至少部分词语进行实体标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710655187.2/1.html,转载请声明来源钻瓜专利网。