[发明专利]一种基于多层次语义解析的法律法规检索系统有效
| 申请号: | 202010511770.8 | 申请日: | 2020-06-08 |
| 公开(公告)号: | CN111402092B | 公开(公告)日: | 2020-09-15 |
| 发明(设计)人: | 刘广峰;张卓仁 | 申请(专利权)人: | 杭州识度科技有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/332;G06Q50/18 |
| 代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
| 地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多层次 语义 解析 法律法规 检索系统 | ||
1.一种基于多层次语义解析的法律法规检索系统,其特征在于,包括:
法规库结构化模块:基于网络上公开的法律法规数据来构建法规库;
法规图谱模块:用于对法规库中的条例序号、条例关键词进行抽取并构建法规图谱,针对法规库中的法规名称,形成法规别名库;
自然语言生成模块:用于对法规图谱中的条例数据生成相应的自然语言描述,并生成扩充语料库;
语义解析模块:用于对生成的自然语言描述定制模型训练,进行相似度计算,并识别自然语言中的语义;
检索模块:用于对法规图谱模块所构建的法规图谱提供法规检索功能;
所述法规库结构化模块中构建法规库的过程为:将获取到的法律法规数据结合正则表达式进行预处理,针对其中文本内容去除无效字符,并通过正则表达式抽取出对应的法规名称以及法规对应内容,以法规名称,法规条对应内容这种形式存储到数据库中;
所述检索模块的检索方式包括常规检索和自然语言检索;
所述常规检索分为法规名称提取、条例标识提取以及内容查询三步;
S1.1:法规名称提取:以自然语言生成模块中构建的法规别名库中的所有法规名称项为候选项,使用最长公共子序列算法与最小公共子串算法结合在用户输入文本中匹配候选项中的命中法规,而后基于命中法规查询法规别名库中的标准法规名;
S1.2:条例提取:针对用户输入文本来提取条例标识;若为序号表达,则直接进行正则提取;若为关键词表达,则基于语义解析模块中的相似度计算匹配关键词;
S1.3:内容查询:基于提取到的法规名称和条例标识,使用图查询语句查询出对应的条例内容;
所述自然语言检索分为法规名称提取、条例关键词提取以及内容查询三步;
S2.1:法规名称提取:将用户输入文本输入到自然语言生成模块中的训练好的法规分类模型中自动得到对应的法规名称,设置法规分类的阈值为0 .75,若法规分类模型得到法规名称的对应概率大于该阈值,则将该法规保存下来;
S2.2:条例关键词提取:针对步骤S2 .1保存的法规名称集合,首先在法规图谱中查询与法规名称相关联的条例关键词,形成法规名称,条例关键词的数据集合;然后基于语义解析模块中的相似度计算得到与用户输入文本相匹配的条例关键词;
S2 .3,内容查询:针对步骤2 .2得到的数据集合,基于数据集合中的每个样本对应的法规名称和对应的条例关键词,使用图查询语句查询法规图谱,而后将返回内容作为该法规对应的条例内容返回给用户。
2.根据权利要求1所述的基于多层次语义解析的法律法规检索系统,其特征在于,所述法规图谱模块构建法规图谱的步骤为:
S1:对法规库中每项法规的条例内容进行条例序号抽取,生成法规名称,条例序号,条例对应内容形式的信息;
S2:对法规库中每项法规的条例内容进行条例关键词抽取,生成法规名称,条例关键词,条例对应内容形式的信息;
S3:将步骤S1、S2中生成的两种三元组信息存储到图数据库中。
3.根据权利要求2所述的基于多层次语义解析的法律法规检索系统,其特征在于,所述自然语言生成模块中所实现的步骤为:
S1:针对法规库中的法规名称,利用话术规则生成对应的别名,形成法规别名库;
S2:针对法规图谱中的条例关键词制定话术规则,形成条例关键词话术种子语料库;
S3:针对法规图谱中的条例内容,从公开的法律咨询网站逐条获取与所述条例内容相关的咨询问题,形成条例内容自然语言种子语料库;
S4:针对形成的条例关键词话术种子语料库和条例内容自然语言种子语料库,使用基于Transformer的Seq2Seq模型进行训练,并通过模型生成扩充语料库。
4.根据权利要求3所述的基于多层次语义解析的法律法规检索系统,其特征在于,所述Transformer为基于自注意力机制的一种可以并行计算的编码器。
5.根据权利要求3所述的基于多层次语义解析的法律法规检索系统,其特征在于,所述语义解析模块中定制模型的步骤为:
S1:对所述自然语言生成模块生成的扩充语料库进行词向量预训练;
S2:针对用户输入的文本,基于预训练得到的词向量文件查找对应词语的向量表示;
S3:基于词向量定制余弦相似度计算方法;
其公式如下所示:
其中x、y分别表示两个句子的向量集合,xi代表句子x中第i个词语的向量表示,yi代表句子y中第i个词语的向量表示;
S4:对步骤S3得到的所有自然语言的相似度进行排序,将相似度最高的自然语言对应的条例关键词作为用户输入文本匹配到的条例关键词项;
S5:针对自然语言生成模块生成的通过条例内容的自然语言种子语料库,基于BERT进行模型训练进而得到法规分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州识度科技有限公司,未经杭州识度科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010511770.8/1.html,转载请声明来源钻瓜专利网。





