[发明专利]一种基于深度学习的规章制度检索方法及系统在审
申请号: | 202110686425.2 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113535936A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 彭艳宏;杨攀;柯旭 | 申请(专利权)人: | 杭州初灵数据科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/36;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 311799 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 规章制度 检索 方法 系统 | ||
本发明公开了一种基于深度学习的规章制度检索方法与系统,该方法包括:1.获取用户输入的查询文本;2.获取查询文本的目标分词以及目标分词的属性;3.构建规章制度数据库;4.根据目标分词及其属性,在规章制度数据库中进行检索,并计算基于分词的匹配度Xn;5.计算基于语义的匹配度Yn;6.根据Xn和Yn计算复合匹配度Zn;7.根据复合匹配度Zn、查询文本的目标分词属性以及规则制度中所特有的层级关系,最终得到倒排后的多条检索结果。本发明以深度学习基础,实现中文文本分词模型、中文文本依存句法分析模型、OCR文字识别模型、ESIM文本相似度计算模型,实现规章制度的快速准确检索。
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于深度学习的规章制度检索方法与系统。
背景技术
目前规章制度(国家方面的法律法规、省级方面的规章条例、企业方面的规章制度)繁多,使得一般人难以熟悉这些规章制度,进而在某些事情突发的情况下难以快速地根据相关的规章制度进行处理。现有通用的搜索引擎其在规章制度检索方面未进行针对性优化,其在语义解析上有一定的偏差,检索出的效果较差,具体表现为没有专业全面的规章制度数据库以及基于语义层次的检索匹配。因此,开发一种以现有规章制度库以及深度学习为基础,针对某一检索词或语句所进行的智能检索方法与系统,具有极高的现实意义和应用价值。
发明内容
鉴于以上内容,本发明提出一种基于深度学习的规章制度检索方法与系统,其目的在于解决人们难以通过一般的搜索引擎根据关键字准确得到对应的规章制度的具体内容以及检索出的相关性差等技术问题。
为了实现上述发明的目的,本申请提出一种基于深度学习的规章制度检索方法,包括如下步骤:
第一方面,本发明提供一种基于深度学习的规章制度检索方法,其具体步骤如下:
S1.获取用户提供的查询文本,并将所述的查询文本输入中文文本分词模型,得到查询文本中的各目标分词;再将各目标分词输入中文文本依存句法分析模型,得到各目标分词的词性和属性。根据各目标分词的词性和属性对目标分词进行筛选。
S2.在规章制度数据库中进行检索,得到多条检索结果,并计算各检索结果的基于分词的匹配度Xn后,筛选出符合要求的N条检索结果。
2-1.根据原始查询文本和步骤S1筛选出的目标分词检索出多条初步检索结果。初步检索结果中均包含document-content部分和document-title部分。document-content部分为检索结果的具体内容部分。document-title为检索结果所属段落的标题或副标题。将各初步检索结果输入步骤S1所述的中文文本分词模型和中文文本依存句法分析模型。得到各初步检索结果中的目标分词以及目标分词的词性和属性。
2-2.将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-content部分中提取出的目标分词,分别输入无监督匹配算法,得到查询文本与各初步检索结果之间的基本匹配度An;
将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-title部分中提取出的目标分词,分别输入Jaccard相似度匹配算法,得到查询文本与各初步检索结果之间的附加匹配度Bn。
2-3.分别计算查询文本与各初步检索结果之间基于分词的匹配度Xn=c·An+(0.5-c)·Bn;其中,c为第一权重系数,其取值范围为0~0.5。根据基于分词的匹配度Xn筛选出多条基于分词的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州初灵数据科技有限公司,未经杭州初灵数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110686425.2/2.html,转载请声明来源钻瓜专利网。