[发明专利]一种知识文档结构理解和转换装置在审
申请号: | 202310145977.1 | 申请日: | 2023-02-21 |
公开(公告)号: | CN116227438A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 赵涛涛;周松柏 | 申请(专利权)人: | 中科国力(镇江)智能技术有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06V30/413;G06V30/414 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 212000 江苏省镇江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 文档 结构 理解 转换 装置 | ||
本发明公开了一种知识文档结构理解和转换装置,包括模块1:如果输入是Word或PDF知识文档,将其转换成HTML知识文档;模块2:将HTML知识文档转换为纯文本、表格与图片序列,模块3:识别HTML知识文档的纯文本、表格与图片序列中的标题,模块4:识别HTML知识文档的纯文本、表格与图片序列中的标题正文,模块5:产生HTML知识文档的解析图,模块6:规范化HTML知识文档的标题层级,模块7:将HTML知识文档转换到规范化的知识文档模板。本发明借助自然语言理解技术和深度学习等技术,不仅提升了智能知识库的建设效率,也降低了将历史知识文档转换到智能知识库的人工工作量。
技术领域
本发明涉及知识文档自然语言处理领域,特别是一种知识文档结构理解和转换装置。
背景技术
近年来,人工智能技术日趋成熟,正在受到各行各业的重视。在许多行业,人工智能技术和产品逐步得到实际的应用。当前,在企业知识管理和服务中,为了提升知识服务效率,降低知识服务成本,开始将人工智能自然语言理解技术引入到企业的知识文档管理中来,形成了智能知识库。
智能知识库是一种智能化的企业知识管理工具,它要求是对文档知识进行结构化管理,将无结构的自由文本转换为规范定义、多粒度、多层级的结构化知识,从而实现细粒度知识的快速定位、搜索以及相关知识推荐等服务。在实际应用中,用户通过关键词在知识库中进行知识文档检索,系统根据权重按照相似度排序,给出相关精准知识文档条目,而非返回整篇知识文档,这极大地提升知识文档搜索服务质量;智能问答机器人也可以在理解用户咨询意图后,直接精准地返回长度较短的知识文档中的具体内容,而非整篇知识文档或其链接。
结构化文档知识库虽然在应用上有诸多优势,然而在采编时也带来了更多的工作量。采编人员不能整篇地上传一篇自由编写的文档,而必须依据预先定义的知识文档模板及其条目,逐条录入知识文档内容,这给采编人员增加了大量的手工工作。另外,企业通常还存有大量的历史知识文档,也需在知识库智能化升级过程中转换为结构化文档,同样需要大量人工采编与转换工作。
具体而言,各个企业(尤其是大型企业)在将非结构非规范的知识文档采编到或者升级到结构化文档智能知识库时,普遍面临着三个技术难点:
技术难点1:企业现有的知识文档如何快速地录入知识库?对大多数知识库而言,采用录入流程一般是人工对照着知识文档手工录入,或者上传原知识文档,直接预览或以附件形式查看。这种方式录入的知识文档不仅不利于搜索服务,而且耗费大量人力资源,并没有起到知识库智能化的作用。
技术难点2:知识文档的标题存在一个特殊的问题,它们影响知识文档的展示质量,也妨碍用户阅读理解知识文档,因此需要进行识别和纠正。一般而言,根据发明人从大量的知识文档进行总结,发现了知识文档标题存在以下几种常见的编辑错误:
(1)文档标题的序号缺失,例如,标题序号为一、二、四、五,其中缺失序号三。
(2)文档标题的序号不连续,例如,标题序号为一、二、二、四、五,其中第三个序号二处出现不连续。
(3)文档标题名不统一、不规范。主要体现在标题中有冒号、解释性文字。
(4)文档标题没有下级子标题,并且该标题没有正文内容。
技术难点3:企业历史知识文档如何快速结构化,自动录入到知识库?一般而言,绝大多数企业通常拥有大量的历史知识文档,服务于它们的客户或者内部员工。但是由于缺少规范,也缺少严格的管理手段,这些历史知识文档存在多种问题,例如结构不统一、知识文档标题混乱、标题表述不清晰等待。如果将这些非规范非结构化的知识文档统一地并且清晰地转换到一些模板上,就是企业在实际生产和服务过程中面临的又一个技术难点。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310145977.1/2.html,转载请声明来源钻瓜专利网。