[发明专利]一种自注意力机制的双向编码表征的知识产权匹配技术在审
申请号: | 201911335341.3 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111026850A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 王家奎 | 申请(专利权)人: | 园宝科技(武汉)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335 |
代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 殷筛网 |
地址: | 430000 湖北省武汉市东湖新技术开发区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 注意力 机制 双向 编码 表征 知识产权 匹配 技术 | ||
1.一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于:包括Sentence-Bert模型训练、专利标题向量化与存储、一对多专利余弦相似度计算、相似度排序与推荐;
具体步骤包含:
S1、首先对历史专利数据中专利标题是否相似进行标记,得到Sentence-Bert模型训练的训练数据,加载中文Bert预训练模型和训练数据,Sentence-Bert模型在加载训练数据对相似度计算任务中的Bert模型参数进行微调,训练完成得到Sentence-Bert模型,
S2、加载Bert模型,从数据库中获取所有专利对应的标题,标题文本通过Sentence-Bert模型生成对应的向量,并将每一个标题的向量存储到数据库中每一条对应的专利中,
S3、根据用户选择的企业专利标题,得到该专利在数据库中的ID,查询该ID对应的标题的向量,在确定完要匹配的专利库中的范围后,得到待匹配专利的列表,将用户选择的专利列表与待匹配的专利列表中的向量做余弦相似度计算,最终获得一对多的相似度结果,
S4、通过相似度数值在测试数据中是否为相似专利的分布,设置大于阀值d的相似度则判定为推荐专利,
S5、将大于阀值d的相似度按数值从高到低排序,选取前N个相似度值对应的专利为相似专利并推荐给用户。
2.根据权利要求1所述的一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于,所述步骤S1中的中文Bert模型为Chinese-BERT-wwm模型,已经在多个中文库做过预训练,较其它模型的优势是可以做句子级向量。
3.根据权利要求1所述的一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于,所述步骤S1中的Sentence-Bert中的训练数据标记随机从数据库中选取专利对,人工判定是否为相似专利,然后加载数据训练模型Sentence-Bert。
4.根据权利要求1所述的一种自注意力机制的双向编码表征的知识产权匹配技术,其特征在于,所述步骤S5中的阀值的确定是通过已经训练好的模型给出相似度之后,在测试集上做测试,通过测试集上相似度的分布,设定阀值,使得相似度大于阀值的专利呈现给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于园宝科技(武汉)有限公司,未经园宝科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911335341.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:摄像光学镜头
- 下一篇:ABS后齿圈安装结构