[发明专利]一种面向司法文本的搜索排序方法及系统有效
| 申请号: | 201910554551.5 | 申请日: | 2019-06-25 |
| 公开(公告)号: | CN110347812B | 公开(公告)日: | 2021-09-10 |
| 发明(设计)人: | 王开红;陈涛;张云云;丁锴;李建元 | 申请(专利权)人: | 银江股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/338;G06F40/284;G06N3/04 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 赵芳;张瑜 |
| 地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 司法 文本 搜索 排序 方法 系统 | ||
一种面向司法文本的搜索排序方法及系统,其中该方法包括(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,利用分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:根据Query和Doc的匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到Query和Doc的匹配score,根据匹配score大小进行排序。
技术领域
本发明属于自然语言处理领域,涉及一种面向司法文本的搜索排序方法及系统。
背景技术
搜索排序算法的核心是如何计算搜索输入(Query)和目标文档(Doc)之间的关系并依此对Doc进行排序。专利CN201710263575.6是通过预设排序规则将检索到的文档进行排序,预设规则需要花费大量的时间来分析规则模板的可行性,并且用户的输入和意图具有高度不确定性很难穷尽所有的排序规则,排序结果具有一定的不可预测性。专利CN201710348412.8提取关键词并制作同义词词典扩大检索结果,再用预设排序规则进行排序。专利CN201710298924.8是提取Query和Doc的主题,并计算主题之间的相似度作为排序标准。目前常用的搜索排序方法可分为基于Query和Doc之间相似性和相关性的两种方法。专利 CN201811117761.X通过自注意机制计算句子和段落之间的向量表示,然后计算向量之间的相似性作为排序标准,专利CN201580019941.2采用深度学习网络计算具有上下文特征的Query和Doc的语义向量,通过语义向量的相似性来进行排序。涉及文本相关性排序的专利不多,论文2983323.2983769(DOI)提出 DRMM算法,将Query和完整Doc之间单词的匹配直方图作为神经网络输入计算全局匹配结果来进行排序,但是短Query和长Doc之间不可避免的会出现不匹配单词远远多于匹配单词,造成直方图分布严重不均衡从而影响排序结果,并且基于全局匹配结果忽略了局部匹配结果的重要性。论文3132847.3132914 (DOI)介绍了一种deeprank相关性排序方法,利用Query中单词出现在doc 中的片段作为相关上下文,然后根据相关上下文计算局部相关性作为文档排序标准,用Query和Doc中出现的相同词来提取相关性上下文容易出现错选和漏选,仅仅用局部信息判断匹配结果忽略了全局信息的重要性。
基于相似性的排序方法一般用于同质(两个句子之间或者两个文章之间)的两个文本,判断两段文本之间语义是否相似。而基于相关性的匹配方法是不同质(例如:问题和文档之间)的文本全局或局部的匹配关系。司法文本数据像裁判文书,动辄几千字,多则几百万字,但是在进行检索时的Query往往是几十个字甚至是几个字,因此Query和Doc长度严重不对应时采用相似性方法来进行检索排序时呈现给用户的结果可能并不是很好。
发明内容
为了克服现有技术中存在的不足,本发明在于提供了一种匹配结果更可靠、排序结果更加精确、加快算法运行速度的面向司法文本的搜索排序方法及系统。
本发明采用的技术方案是:
一种面向司法文本的搜索排序方法,其步骤如下:
(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再将分词后的数据预训练司法文本词向量;
(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;
(3)截取相关性文本片段:在Query和Doc的匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910554551.5/2.html,转载请声明来源钻瓜专利网。





