[发明专利]一种基于深度学习的规章制度检索方法及系统在审

专利信息
申请号: 202110686425.2 申请日: 2021-06-21
公开(公告)号: CN113535936A 公开(公告)日: 2021-10-22
发明(设计)人: 彭艳宏;杨攀;柯旭 申请(专利权)人: 杭州初灵数据科技有限公司
主分类号: G06F16/335 分类号: G06F16/335;G06F16/33;G06F16/36;G06F40/284;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 陈炜
地址: 311799 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 规章制度 检索 方法 系统
【权利要求书】:

1.一种基于深度学习的规章制度检索方法,其特征在于:S1.获取用户提供的查询文本,并将所述的查询文本输入中文文本分词模型,得到查询文本中的各目标分词;再将各目标分词输入中文文本依存句法分析模型,得到各目标分词的词性和属性;根据各目标分词的词性和属性对目标分词进行筛选;

S2.在规章制度数据库中进行检索,得到多条检索结果,并计算各检索结果的基于分词的匹配度Xn后,筛选出符合要求的N条检索结果;

2-1.根据原始查询文本和步骤S1筛选出的目标分词检索出多条初步检索结果;初步检索结果中均包含document-content部分和document-title部分;document-content部分为检索结果的具体内容部分;document-title为检索结果所属段落的标题或副标题;将各初步检索结果输入步骤S1所述的中文文本分词模型和中文文本依存句法分析模型;得到各初步检索结果中的目标分词以及目标分词的词性和属性;

2-2.将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-content部分中提取出的目标分词,分别输入无监督匹配算法,得到查询文本与各初步检索结果之间的基本匹配度An

将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-title部分中提取出的目标分词,分别输入Jaccard相似度匹配算法,得到查询文本与各初步检索结果之间的附加匹配度Bn

2-3.分别计算查询文本与各初步检索结果之间基于分词的匹配度Xn=c·An+(0.5-c)·Bn;其中,c为第一权重系数,其取值范围为0~0.5;根据基于分词的匹配度Xn筛选出多条基于分词的检索结果;

S3.利用Bert-ESIM模型分别计算查询文本与步骤S2筛选出的基于分词的各条检索结果之间的基于完整语义的匹配度Yn;所述的Bert-ESIM文本相似度计算模型中包括改进的ESIM网络;改进的ESIM网络中使用余弦相似计算器替代Softmax组件;使用Bert中文文本特征提取器替代输入编码器;

S4.分别计算N条检索结果与查询文本的复合匹配度Zn=d·Xn+(0.5-d)·Yn;其中,d为第二权重系数,其取值范围为0~0.5;按照复合匹配度Zn从大到小对N条检索结果进行排序并输出。

2.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述目标分词的属性包括主语、谓语、宾语、定语、状语和补语;所述目标分词的词性包括名词、动词、形容词、副词、连词、实体词、介词、数量词、人名、地名和时间。

3.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:步骤S1中,保留属于主语、谓语、宾语、实体词、时间、地点或数量词的目标分词。

4.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述的中文文本分词模型采用多层Bi-GRU网络与CRF网络的结合网络;中文文本分词模型通过包括cwb2-data、人民日报数据集、SIGHANBakeoff2005、MSRA微软亚洲研究院数据集在内的中文分词数据集进行训练得到;中文文本分词模型的输入为中文文本,输出为该中文文本中的各目标分词以及各目标分词的属性和词性。

5.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述的中文文本依存句法分析模型采用双层Bi-LSTM网络与MLP网络的组合网络;中文文本依存句法分析模型通过包括SemEval-2016、CoNLL、PennTreebank、百度开源数据集在内的中文依存句法分析数据集进行训练得到;中文文本依存句法分析模型的输入为目标分词,输出为该目标分词在查询文本中的词性和属性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州初灵数据科技有限公司,未经杭州初灵数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110686425.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top