[发明专利]一种法律文书的分段方法及装置有效
申请号: | 201710081315.7 | 申请日: | 2017-02-15 |
公开(公告)号: | CN108427667B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 石鹏;魏康 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06Q50/18 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律文书 分段 方法 装置 | ||
本发明公开了一种法律文书的分段方法及装置,涉及计算机技术领域,主要目的是用于提高法律文书分段的准确性。所述方法包括:提取法律文书的语义特征,设置所述语义特征属于不同语义段的权重值,根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值,采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。本发明主要用于对法律文书的分段。
技术领域
本发明涉及计算机技术领域,尤其是一种法律文书的分段方法及装置。
背景技术
法律文书是司法行政机关及当事人、律师等在解决诉讼和非讼案件时使用的文书,也包括司法机关的非规范性文件。目前,国内的法律文书主要类型包含民事、刑事、行政等类型案件。
由于法律文书中涉及的内容多种多样,目前对法律文书的解析有很大一部分工作是在法律文书中查找关键信息点,为了能够提高信息查询的准确性和信息查找的效率,通常的做法是预先将法律文书分为若干个语义段,进而方便在每个语义段中查找关键信息点,这里的语义段为法律文书中表达相同主题的单个或者多个自然段。
现有技术通常是对法律文书中每个自然段进行特征词匹配或者正则匹配,然后根据匹配的结果实现对法律文书进行分段,然而,由于在进行匹配的过程中经常会有干扰信息的出现,使得匹配结果有误差,进而导致法律文书的分段结果不理想。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种法律文书的分段方法及装置,能够提高法律文书分段的准确性。
一方面,本发明提供了一种法律文书的分段方法,包括:
提取法律文书的语义特征;
设置所述语义特征属于不同语义段的权重值;
根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;
采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。
进一步地,所述根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值包括:
统计所述法律文书中每个自然段所包含的语义特征,得到每个语义特征出现在不同自然段的频率;
根据所述每个语义特征出现在不同自然段的频率以及该语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值。
进一步地,所述采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径包括:
根据所述每个自然段属于不同语义段的概率值,得到概率值矩阵;
将所述概率矩阵作为输入参数,采用动态规划算法计算分段组合概率;
选取所述分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。
进一步地,在所述提取法律文书的语义特征之前,所述方法还包括:
利用法律文书样本中的文书结构归纳语义段集合,所述语义段集合中包含用于表征法律文书中不同主题内容的多个语义段。
进一步地,所述设置所述语义特征属于不同语义段的权重值包括:
根据统计语义特征在不同语义段出现的历史次数,设置所述语义特征属于不同语义段的权重值。
另一方面,本发明提供一种法律文书的分段装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710081315.7/2.html,转载请声明来源钻瓜专利网。