[发明专利]一种文档的结构化方法及装置在审

申请号：	201910430088.3	申请日：	2019-05-22
公开（公告）号：	CN110175322A	公开（公告）日：	2019-08-27
发明（设计）人：	晋耀红;李健铨;赵红红;陈夏飞	申请（专利权）人：	北京神州泰岳软件股份有限公司
主分类号：	G06F17/24	分类号：	G06F17/24;G06F17/27
代理公司：	北京弘权知识产权代理事务所(普通合伙) 11363	代理人：	逯长明;许伟群
地址：	100089 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请提供了一种文档的结构化方法及装置，其中，所述方法包括：按照文本结构识别模型划分待结构化文档为若干单个章节文档；计算所述章节标题与结构化模板中各模板名称的相似度，得到适配模板名称；计算所述适配模板名称对应的要素与相应章节标题的下属语句的相似度，得到适配语句；填写全部单个章节文档的适配语句至所述结构化模板中相应的可填写区域，得到结构化文档。可见，本申请所提供的文档的结构化方法及装置能够将非结构化的文档按照预设的结构化模板准确划分，并准确生成与模板名称及要素具有对应关系的结构化文档，从而保证后续确定关键点的准确性。
搜索关键词：	文档适配结构化模板结构化文档结构化语句章节标题相似度非结构化文本结构关键点预设申请保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文档的结构化方法，其特征在于，所述方法包括：按照文本结构识别模型划分待结构化文档为若干单个章节文档，所述单个章节文档由章节标题及与所述章节标题对应的下属语句组成；计算所述章节标题与结构化模板中各模板名称的相似度，得到适配模板名称，所述结构化模板由模板名称、模板名称对应的要素及模板名称对应的可填写区域组成，所述适配模板名称为与所述章节标题的相似度大于预设标题相似度阈值的模板名称；计算所述适配模板名称对应的要素与相应章节标题的下属语句的相似度，得到适配语句，所述适配语句为与所述要素的相似度大于预设语句相似度阈值的下属语句；填写全部单个章节文档的适配语句至所述结构化模板中相应的可填写区域，得到结构化文档。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司，未经北京神州泰岳软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910430088.3/，转载请声明来源钻瓜专利网。

上一篇：一种基于浏览器内核的PPT编辑和演示插件系统
下一篇：消息摘要的生成方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文档的结构化方法及装置在审

专利文献下载