[发明专利]一种自注意力机制的双向编码表征的知识产权匹配技术在审

专利信息
申请号: 201911335341.3 申请日: 2019-12-23
公开(公告)号: CN111026850A 公开(公告)日: 2020-04-17
发明(设计)人: 王家奎 申请(专利权)人: 园宝科技(武汉)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335
代理公司: 南京鼎傲知识产权代理事务所(普通合伙) 32327 代理人: 殷筛网
地址: 430000 湖北省武汉市东湖新技术开发区*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 注意力 机制 双向 编码 表征 知识产权 匹配 技术
【说明书】:

本发明公开了一种自注意力机制的双向编码表征的知识产权匹配技术,包括Sentence‑Bert模型训练、专利标题向量化与存储、一对多专利余弦相似度计算、相似度排序与推荐,本发明结构科学合理,使用安全方便基于专利标题的匹配方法首先训练Sentence‑Bert模型,运用Sentence‑Bert模型对所有的标题文本进行向量化,然后将标题对应的向量存储到数据库中,当用户选择要匹配的标题时,首先从数据库查询该标题的向量,与在高校专利库中的向量逐一进行余弦相似度的计算,最后对余弦相似度的结果排序,选出大于预设阀值的高校专利。

技术领域

本发明涉及文本处理技术领域,具体为一种自注意力机制的双向编码表征的知识产权匹配技术。

背景技术

专利文献作为技术记录和传播的载体,为个人、高校、企业的学术发展和技术创新提供了良好的土壤,当代社会知识信息爆炸,学术剽窃和技术抄袭也愈演愈烈,专利作为个人和企业的财产难免会遭受损失,个人或企业为了维护自己持有的知识产权将专利申请作为自己维护权利的保障,成功获得专利授予的专利可以作为个人或企业的知识成果发布在互联网上,企业可以从互联网上寻求专利技术的支持,也可以在发表专利之前,查询相关专利是否已经发表,从而确定是否需要发表专利;

目前对于专利的搜索大多是基于关键词匹配标题或关键词的,虽然关键词在专利文本中占有的权重很高,但是忽略了关键词之间的联系,并且关键词并不能总是表达专利的中心含义,且需要人工提取和存储,而标题则高度概括了专利的内容,也没有丢失词之间的语义信息,搜索的结果也符合用户搜索目标,并且不需要对专利进行类别的分类。

发明内容

本发明提供一种自注意力机制的双向编码表征的知识产权匹配技术,可以有效解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种自注意力机制的双向编码表征的知识产权匹配技术,包括Sentence-Bert模型训练、专利标题向量化与存储、一对多专利余弦相似度计算、相似度排序与推荐;

具体步骤包含:

S1、首先对历史专利数据中专利标题是否相似进行标记,得到 Sentence-Bert模型训练的训练数据,加载中文Bert预训练模型和训练数据,Sentence-Bert模型在加载训练数据对相似度计算任务中的Bert模型参数进行微调,训练完成得到Sentence-Bert模型,

S2、加载Bert模型,从数据库中获取所有专利对应的标题,标题文本通过Sentence-Bert模型生成对应的向量,并将每一个标题的向量存储到数据库中每一条对应的专利中,

S3、根据用户选择的企业专利标题,得到该专利在数据库中的 ID,查询该ID对应的标题的向量,在确定完要匹配的专利库中的范围后,得到待匹配专利的列表,将用户选择的专利列表与待匹配的专利列表中的向量做余弦相似度计算,最终获得一对多的相似度结果,

S4、通过相似度数值在测试数据中是否为相似专利的分布,设置大于阀值d的相似度则判定为推荐专利,

S5、将大于阀值d的相似度按数值从高到低排序,选取前N个相似度值对应的专利为相似专利并推荐给用户。

优选的,所述步骤S1中的中文Bert模型为Chinese-BERT-wwm 模型,已经在多个中文库做过预训练,较其它模型的优势是可以做句子级向量。

优选的,所述步骤S1中的Sentence-Bert中的训练数据标记随机从数据库中选取专利对,人工判定是否为相似专利,然后加载数据训练模型Sentence-Bert。

优选的,所述步骤S5中的阀值的确定是通过已经训练好的模型给出相似度之后,在测试集上做测试,通过测试集上相似度的分布,设定阀值,使得相似度大于阀值的专利呈现给用户。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于园宝科技(武汉)有限公司,未经园宝科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911335341.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top