[发明专利]知识条目的提取方法和装置有效
申请号: | 201110390655.0 | 申请日: | 2011-11-30 |
公开(公告)号: | CN103136258A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 李少明;翟因为 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 目的 提取 方法 装置 | ||
技术领域
本发明涉及数字出版领域,具体而言,涉及知识条目的提取方法和装置。
背景技术
在数字化出版中,将传统的内容资源通过结构化提取操作,转换成知识条目,知识条目的结构可以包括:元数据、标引数据和条目数据。元数据可以包括:标题、Id、作者、创建时间;标引数据可以包括:分类、出处、所属项目;条目数据可以包括:条头、正文、释义。
目前的数字出版领域中,知识条目信息分散在不同的内容资源之中,知识条目内容收集和整理工作是通过繁杂的手工方式来进行的。具体来说,是通过分析历史排版文件、网页或者桌面应用程序等内容资源的内容,手工识别并获取知识条目内容,然后在文档编辑软件中对知识条目内容进行整理,最后将整理后的知识条目内容入库。该方法的具体步骤如下:
步骤1、分析知识条目内容资源的内容,确定要提取知识条目内容的资源位置。知识条目内容可能来自不同的内容资源,如历史排版文件的章节、一封邮件的正文或一个网页的段落。
步骤2、收集知识条目内容。将步骤1定位的知识条目内容(文字、图片等)手工拷贝到文档编辑软件,并添加知识条目内容的标注信息,如作者、出处、引用文献、相关知识条目等。
步骤3、将收集到的多个知识条目按照不同的专题,分类整理成多份文档,并将这些文档导出或发布。
基于上述方法的知识条目内容处理系统,必须首先分析内容资源的内容,逐个知识条目地识别内容,并以手工的方式获取内容和添加标引数据。这样的操作方式比较繁琐,容易遗漏有用的信息。另一方面,上述方法一般采用Word等专有的编辑软件整理知识条目,仅对知识条目的内容进行整理,而忽略了知识条目之间的内在联系。现有方法无法标识出知识条目之间的引用关系。如果一个知识条目被多个知识条目引用,被引用知识条目内容会重复出现。而且,当修改被引用知识条目时,引用知识条目并不能同步更新。
综上所述,该方法无法有效和方便地获取知识条目内容,并且不能保留知识条目之间的内在联系,从而给知识条目的复用、重组带来了困难。
发明内容
本发明旨在提供一种知识条目的提取方法和装置,以解决相关技术上述的问题。
在本发明的实施例中,提供了一种知识条目的提取方法,包括:提供控件以接受用户输入内容资源;以预设的规则从内容资源中识别知识条目的内容;将内容提取为知识条目。
在本发明的实施例中,提供了一种知识条目的提取装置,包括:控件模块,用于提供控件以接受用户输入内容资源;识别模块,用于以预设的规则从内容资源中识别知识条目的内容;提取模块,用于将内容提取为知识条目。
本发明上述实施例的知识条目的提取方法和装置根据规则自动地识别和获取不同内容资源的知识条目的内容,所以解决了相关技术获取知识条目内容费时费力容易出错的问题,提高了处理知识条目的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的用于收集和整理知识条目内容的方法的流程图;
图2示出了根据本发明实施例的用于收集和整理知识条目内容的装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的用于收集和整理知识条目内容的方法的流程图,包括:
步骤S10,提供控件以接受用户输入内容资源;
步骤S20,以预设的规则从内容资源中识别知识条目的内容;
步骤S30,将内容提取为知识条目。
相关技术依靠人工方式分析内容资源的内容和获取知识条目内容,容易出错,且费时费力。根据规则自动地识别和获取不同内容资源的知识条目的内容,而规则很容易通过计算机编程来实现,所以解决了相关技术获取知识条目内容费时费力容易出错的问题,提高了处理知识条目的效率。
知识条目还可以选择不同的格式(TEXT、HTML、PDF)批量导出。进一步地,导出的知识条目还可以导入到知识库,或者与在线存储系统进行同步。
优选地,步骤S10包括:控件呈现编辑界面;控件在编辑界面中接受用户的鼠标拖拽操作所输入的内容资源。
优选地,步骤S20包括:获取内容资源的原始内容;识别原始内容的类型;读取类型对应的规则;以所读取的规则从原始内容中识别知识条目的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110390655.0/2.html,转载请声明来源钻瓜专利网。