[发明专利]一种相似度分析的方法、装置、存储介质及电子设备在审

专利信息
申请号: 201910650440.4 申请日: 2019-07-18
公开(公告)号: CN110348022A 公开(公告)日: 2019-10-18
发明(设计)人: 孟昱先 申请(专利权)人: 北京香侬慧语科技有限责任公司
主分类号: G06F17/27 分类号: G06F17/27;G06K9/32;G06K9/62
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 丁曼曼
地址: 100080 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分词 向量 相似度分析 存储介质 电子设备 字形特征 文本 相似度 字体 相似度判断 向量确定 向量生成 字图像 引入
【说明书】:

发明提供了一种相似度分析的方法、装置、存储介质及电子设备,其中,该方法包括:获取待比较的第一文本和第二文本,以及第一分词和第二分词;确定第一分词中所包含的第一字在多种字体下的第一字图像,并确定第一字形向量;同理确定第二分词的第二字形向量;根据第一分词所包含的所有第一字的第一字形向量生成第一分词向量,同理生成第二分词向量;根据所有第一分词向量和所有第二分词向量确定第一文本与第二文本之间的相似度。通过本发明实施例提供的相似度分析的方法、装置、存储介质及电子设备,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性。

技术领域

本发明涉及自然语言理解处理技术领域,具体而言,涉及一种相似度分析的方法、装置、存储介质及电子设备。

背景技术

随着自然语言理解处理技术的发展,出现了越来越多的文本处理需求,比如在文档复制检查、信息检索和机器翻译等场景需要判断两个文本是否相同。

传统判断两个文本是否相同的方法是基于语义相似度进行计算;例如基于词语共现信息得到词向量,再通过词向量进行语义相似度分析。虽然基于语义相似度的判断方法与人对自然语言的理解较为符合,但是该传统方法在判断一些含有罕见词的语句时,由于词语共现次数过少难以获取足够的信息,导致语义相似分析不准确。例如,“邓紫棋”和“邓紫琪”之间的语义相似度可能过低,容易将二者识别为不相关的词语。

发明内容

为解决上述问题,本发明实施例的目的在于提供一种相似度分析的方法、装置、存储介质及电子设备。

第一方面,本发明实施例提供了一种相似度分析的方法,包括:

获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;

确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;

根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;

根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。

在一种可能的实现方式中,所述确定所述第一字图像的第一字形特征包括:

基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述第一中间字形特征的深度;

根据所述第一中间字形特征生成所述第一字图像的第一字形特征。

在一种可能的实现方式中,所述基于卷积神经网络的中间卷积层生成所述第一字图像的c×c×H的第一中间字形特征包括:

基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的第一中间字形特征。

在一种可能的实现方式中,所述根据所述第一中间字形特征生成所述第一字图像的第一字形特征包括:

在深度方向上将所述第一中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述第一字图像的第一字形特征,所述第一字形特征为1×1×K的向量,K为所述第一字形特征的深度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910650440.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top