[发明专利]一种面向司法文本的搜索排序方法及系统有效

申请号：	201910554551.5	申请日：	2019-06-25
公开（公告）号：	CN110347812B	公开（公告）日：	2021-09-10
发明（设计）人：	王开红;陈涛;张云云;丁锴;李建元	申请（专利权）人：	银江股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/338;G06F40/284;G06N3/04
代理公司：	浙江千克知识产权代理有限公司 33246	代理人：	赵芳;张瑜
地址：	310012 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向司法文本搜索排序方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向司法文本的搜索排序方法，其步骤如下：

(1)数据预处理：收集司法文本数据Doc和法律咨询问题Query，并将收集的司法文本数据Doc进行分词处理，再根据分词后的数据预训练司法文本词向量；

(2)构建相似度匹配矩阵：采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M；

(3)截取相关性文本片段：在Query和Doc的相似度匹配矩阵M中提取局部相关性文本片段，多个局部相关性文本片段拼接在一起获得相关性文本Ds，对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms；

其中局部相关性文本片段的提取方式如下：

1)设定模板T，所述模板T的宽度为Query的单词个数，长度由Query的长度和具体应用场景决定，计算模板内Query和Doc的匹配向量：模板T在步骤(2)中相似度匹配矩阵M中移动，按照公式(2)计算匹配向量S，

其中，w为模板长度，k为下标，s_k为Query和Doc中从单词D_k到单词D_k+w的文本片段的综合匹配得分；d为Doc的单词个数，max()为取最大值函数，M_·k是相似度匹配矩阵M中所有的行第k列，max(M_·k)为求第k列的最大值即取最强特征避免其他干扰项，S为Query和Doc的匹配向量；

2)根据匹配向量S截取局部相关性文本片段：在匹配向量S中选取n个长度为w的文本片段；首先计算向量S的均值S₀＝mean(S)，计算S＞S₀时S所有的峰值及峰值对应的下标，取峰值对应的文本片段拼接在一起获得最终相关性文本Ds，取峰值对应文本片段的匹配矩阵拼接在一起获得矩阵Ms；

(4)构建特征向量：计算Query和相关性文本Ds的全局相关性，构建特征向量F；

(5)计算匹配值并排序：将获得的特征向量F输入到神经网络模型中，得到最终的Query和Doc的匹配score，然后根据匹配score大小进行排序。

2.根据权利要求1所述的一种面向司法文本的搜索排序方法，其特征在于：步骤(1)中的分词处理包括：构建司法领域分词词典，并采用jieba分词对司法文本数据Doc进行分词处理。

3.根据权利要求1所述的一种面向司法文本的搜索排序方法，其特征在于：步骤(1)中的词向量的训练方法为word2vec训练方法。

4.根据权利要求1至3任意一项所述的一种面向司法文本的搜索排序方法，其特征在于：步骤(2)中相似度匹配矩阵M构建方法如公式(1)；

其中，q为Query中单词个数，d为Doc中单词个数，Q_i为Query中第i个单词的词向量，D_j为Doc中第j个单词的词向量，m_ij∈[-1,1]是Q_i和D_j的余弦相似度，值越大相似度越高。

5.根据权利要求1所述的一种面向司法文本的搜索排序方法，其特征在于：如果峰值个数小于n则取全部峰值，如果峰值个数大于n，则由大到小取n个峰值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于银江股份有限公司，未经银江股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910554551.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于人工智能的专业知识问答机器人系统
下一篇：一种语料处理方法、装置、存储介质及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向司法文本的搜索排序方法及系统有效

专利文献下载