[发明专利]一种基于多模态校验算法档案归档相似度计算方法在审
申请号: | 202210732847.3 | 申请日: | 2022-06-27 |
公开(公告)号: | CN115203506A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 李金讯;王庭军;林树鸿;颜清 | 申请(专利权)人: | 海南电网有限责任公司信息通信分公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93;G06F16/35;G06F40/194;G06F16/11;G06N3/04 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文 |
地址: | 570100 海南省海口市美兰区海府路*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 校验 算法 档案 归档 相似 计算方法 | ||
1.一种基于多模态校验算法档案归档相似度计算方法,其特征在于,所述方法包括以下步骤:
S1、通过构建Skip-gram模型,并且使用Skip-gram模型对输入文档的后缀进行文档类别判断;
S2、在Skip-gram模型中对不同后缀文档进行建档归类;
S3、在Skip-gram模型中设置文本获取器,通过文本获取器获取不同类型文档的文本内容,并且将不同类型文档的文本内容进行词向量表示;
S4、通过在Skip-gram模型中设置不同类型的文档的文本范本词向量与文本获取器获取到的不同类型的文本内容词向量进行对比;
S5、通过文本内容词向量与文本范本词向量的对比结果,Skip-gram模型将不符合文本范本规范的文档进行标注预警。
2.根据权利要求1所述的一种基于多模态校验算法档案归档相似度计算方法,其特征在于,在步骤S1中,输入文档的后缀包括doc、docx和txt。
3.根据权利要求2所述的一种基于多模态校验算法档案归档相似度计算方法,其特征在于,在步骤S2中,Skip-gram模型中对不同后缀文档进行建档归类具体为:
通过Skip-gram模型将输入文档的后缀进行截取,并且分别建立起doc后缀类型文本获取器、docx后缀类型文本获取器和txt后缀类型文本获取器。
4.根据权利要求1所述的一种基于多模态校验算法档案归档相似度计算方法,其特征在于,在步骤S3中,将文本内容进行词向量表示具体为:
通过doc后缀类型文本获取器、docx后缀类型文本获取器和txt后缀类型文本获取器将不同类型文档的文本内容中所有的词表示成一个N维向量,其中N为词汇表单单词的总数,在N维向量中,每个词都将与之对应的维度置为1,其余维度的值均为0。
5.根据权利要求4所述的一种基于多模态校验算法档案归档相似度计算方法,其特征在于,在步骤S4中,通过在Skip-gram模型中设置不同类型的文档的文本范本词向量与文本获取器获取到的不同类型的文本内容词向量进行对比具体为:
将设置不同类型的文档的文本范本词向量进行概率设定,N维向量中通过Softmax激活函数计算doc后缀类型文本获取器、docx后缀类型文本获取器和txt后缀类型文本获取器获取到文本内容文档中每一个单词的生成概率,并且通过doc后缀类型文本获取器、docx后缀类型文本获取器和txt后缀类型文本获取器获取到文本内容文档中每一个单词的生成概率与设置不同类型的文档的文本范本词向量概率进行对比。
6.根据权利要求5所述的一种基于多模态校验算法档案归档相似度计算方法,其特征在于,在步骤S5中、通过文本内容词向量与文本范本词向量的对比结果,Skip-gram模型将不符合文本范本规范的文档进行标注预警具体为:
根据不同类型文本获取器获取到文本内容文档中每一个单词的生成概率与设置不同类型的文档的文本范本词向量概率的对比结果,如果对比结果不符合规范标准,则判定该类型的文档不规范,并且进行不规范类型文档的标注预警。
7.根据权利要求1所述的一种基于多模态校验算法档案归档相似度计算方法,其特征在于,对于不规范类型文档的标注预警通过检测报告的形式进行展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南电网有限责任公司信息通信分公司,未经海南电网有限责任公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210732847.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地基桩辅助设备及地基桩施工方法
- 下一篇:预制菜加热箱及其控制方法