[发明专利]一种基于深度学习的规章制度检索方法及系统在审
申请号: | 202110686425.2 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113535936A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 彭艳宏;杨攀;柯旭 | 申请(专利权)人: | 杭州初灵数据科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/36;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 311799 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 规章制度 检索 方法 系统 | ||
1.一种基于深度学习的规章制度检索方法,其特征在于:S1.获取用户提供的查询文本,并将所述的查询文本输入中文文本分词模型,得到查询文本中的各目标分词;再将各目标分词输入中文文本依存句法分析模型,得到各目标分词的词性和属性;根据各目标分词的词性和属性对目标分词进行筛选;
S2.在规章制度数据库中进行检索,得到多条检索结果,并计算各检索结果的基于分词的匹配度Xn后,筛选出符合要求的N条检索结果;
2-1.根据原始查询文本和步骤S1筛选出的目标分词检索出多条初步检索结果;初步检索结果中均包含document-content部分和document-title部分;document-content部分为检索结果的具体内容部分;document-title为检索结果所属段落的标题或副标题;将各初步检索结果输入步骤S1所述的中文文本分词模型和中文文本依存句法分析模型;得到各初步检索结果中的目标分词以及目标分词的词性和属性;
2-2.将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-content部分中提取出的目标分词,分别输入无监督匹配算法,得到查询文本与各初步检索结果之间的基本匹配度An;
将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document-title部分中提取出的目标分词,分别输入Jaccard相似度匹配算法,得到查询文本与各初步检索结果之间的附加匹配度Bn;
2-3.分别计算查询文本与各初步检索结果之间基于分词的匹配度Xn=c·An+(0.5-c)·Bn;其中,c为第一权重系数,其取值范围为0~0.5;根据基于分词的匹配度Xn筛选出多条基于分词的检索结果;
S3.利用Bert-ESIM模型分别计算查询文本与步骤S2筛选出的基于分词的各条检索结果之间的基于完整语义的匹配度Yn;所述的Bert-ESIM文本相似度计算模型中包括改进的ESIM网络;改进的ESIM网络中使用余弦相似计算器替代Softmax组件;使用Bert中文文本特征提取器替代输入编码器;
S4.分别计算N条检索结果与查询文本的复合匹配度Zn=d·Xn+(0.5-d)·Yn;其中,d为第二权重系数,其取值范围为0~0.5;按照复合匹配度Zn从大到小对N条检索结果进行排序并输出。
2.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述目标分词的属性包括主语、谓语、宾语、定语、状语和补语;所述目标分词的词性包括名词、动词、形容词、副词、连词、实体词、介词、数量词、人名、地名和时间。
3.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:步骤S1中,保留属于主语、谓语、宾语、实体词、时间、地点或数量词的目标分词。
4.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述的中文文本分词模型采用多层Bi-GRU网络与CRF网络的结合网络;中文文本分词模型通过包括cwb2-data、人民日报数据集、SIGHANBakeoff2005、MSRA微软亚洲研究院数据集在内的中文分词数据集进行训练得到;中文文本分词模型的输入为中文文本,输出为该中文文本中的各目标分词以及各目标分词的属性和词性。
5.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述的中文文本依存句法分析模型采用双层Bi-LSTM网络与MLP网络的组合网络;中文文本依存句法分析模型通过包括SemEval-2016、CoNLL、PennTreebank、百度开源数据集在内的中文依存句法分析数据集进行训练得到;中文文本依存句法分析模型的输入为目标分词,输出为该目标分词在查询文本中的词性和属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州初灵数据科技有限公司,未经杭州初灵数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110686425.2/1.html,转载请声明来源钻瓜专利网。