[发明专利]一种文档的结构化方法及装置在审
| 申请号: | 201910430088.3 | 申请日: | 2019-05-22 |
| 公开(公告)号: | CN110175322A | 公开(公告)日: | 2019-08-27 |
| 发明(设计)人: | 晋耀红;李健铨;赵红红;陈夏飞 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
| 主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/27 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 适配 结构化模板 结构化文档 结构化 语句 章节标题 相似度 非结构化 文本结构 关键点 预设 申请 保证 | ||
本申请提供了一种文档的结构化方法及装置,其中,所述方法包括:按照文本结构识别模型划分待结构化文档为若干单个章节文档;计算所述章节标题与结构化模板中各模板名称的相似度,得到适配模板名称;计算所述适配模板名称对应的要素与相应章节标题的下属语句的相似度,得到适配语句;填写全部单个章节文档的适配语句至所述结构化模板中相应的可填写区域,得到结构化文档。可见,本申请所提供的文档的结构化方法及装置能够将非结构化的文档按照预设的结构化模板准确划分,并准确生成与模板名称及要素具有对应关系的结构化文档,从而保证后续确定关键点的准确性。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文档的结构化方法及装置。
背景技术
文档审核是按照法律法规以及当事人的约定对文档的内容、格式进行审核。通常,需要对文档中的关键点进行确定,并针对各个关键点进行法律表述及潜在法律风险的审核。
目前,文档审核的方式主要是人工审核,即审核人员在阅读文档之后,凭借自身从业经验在文档中定位各个关键点,并且凭借自身经验判断各个关键点是否符合法律表述,以及判断其是否存在法律风险。但是,通常文档的篇幅较长,审核人员在阅读上会浪费大量时间,同时由于文档的内容过多,审核人员很难做到不遗漏地确定各个关键点,并且准确地将各个关键点归类至合适的类别,同时,审核人员的自身经验存在较高的主观性,这也会大大降低判断关键点的法律表述是否存在法律风险的准确率。
为了提高文档审核的效率和准确率,现今逐渐采用自动化审核方式,即采用计算机审核文档。通过语义分析,能够客观地从整体文档中确定关键词,这些关键词即为关键点。但是,文档篇幅较长,如果一次性对整体文档进行语义分析,则耗费时间较长,而且,文档的形式繁多,计算机难以理解和识别各种非结构化的文档,这样会增加计算机对整体文档分析语义的难度,并大大降低确定关键点的准确度。
发明内容
本申请提供了一种文档的结构化方法及装置,以解决现有计算机审核非结构化文档准确度低的问题。
第一方面,本申请实施例提供了一种文档的结构化方法,包括:
按照文本结构识别模型划分待结构化文档为若干单个章节文档,所述单个章节文档由章节标题及与所述章节标题对应的下属语句组成;
计算所述章节标题与结构化模板中各模板名称的相似度,得到适配模板名称,所述结构化模板由模板名称、模板名称对应的要素及模板名称对应的可填写区域组成,所述适配模板名称为与所述章节标题的相似度大于预设标题相似度阈值的模板名称;
计算所述适配模板名称对应的要素与相应章节标题的下属语句的相似度,得到适配语句,所述适配语句为与所述要素的相似度大于预设语句相似度阈值的下属语句;
填写全部单个章节文档的适配语句至所述结构化模板中相应的可填写区域,得到结构化文档。
第二方面,本申请提供了一种文档的结构化装置,包括:
划分模块,用于按照文本结构识别模型划分待结构化文档为若干单个章节文档,所述单个章节文档由章节标题及与所述章节标题对应的下属语句组成;
适配模板名称确定模块,用于计算所述章节标题与结构化模板中各模板名称的相似度,得到适配模板名称,所述结构化模板由模板名称、模板名称对应的要素及模板名称对应的可填写区域组成,所述适配模板名称为与所述章节标题的相似度大于预设标题相似度阈值的模板名称;
适配语句确定模块,用于计算所述适配模板名称对应的要素与相应章节标题的下属语句的相似度,得到适配语句,所述适配语句为与所述要素的相似度大于预设语句相似度阈值的下属语句;
填写模块,用于填写全部单个章节文档的适配语句至所述结构化模板中相应的可填写区域,得到结构化文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910430088.3/2.html,转载请声明来源钻瓜专利网。





