[发明专利]对文本进行自动标注的方法和装置有效
| 申请号: | 201310752962.8 | 申请日: | 2013-12-31 |
| 公开(公告)号: | CN103678281B | 公开(公告)日: | 2016-10-19 |
| 发明(设计)人: | 孙珂;赵世奇;忻舟;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 进行 自动 标注 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种对文本进行自动标注的方法和装置。
背景技术
词法分析和处理是NLP(Natural Language Processing,传统自然语言处理)的一项基础技术,其主要功能包括WordSeg(Word Segmentation,自然语言文本切词)、PosTag(Part-of-Speech Tagging,词性标注)以及NER(Named Entity Recognition,专名识别)。经过词法分析和处理之后的文本,将被切分成词汇的形式,且每个词汇将被赋予特定的词性(例如,动词、名词、形容词等)以及专名类别(人名、地名、机构名)等信息。大量的上层应用技术,例如搜索引擎技术、深度问答技术、机器翻译技术等都是建立在上述分析结果的基础之上。
但是,在实现本发明的过程中发明人发现现有技术至少存在以下问题:词法分析仅仅只是停留在对词汇字面语义的分析上,对于更深层的语义知识、词汇代表的实体意义,现有的词法分析无法给出更多有效信息,因此无法有效完成基于词法分析结果进行的后续应用,用户体验差。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种对文本进行自动标注的方法。该方法根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
本发明的第二个目的在于提出一种对文本进行自动标注的装置。
为了实现上述目的,本发明第一方面实施例的对文本进行自动标注的方法,包括以下步骤:对文本中的词汇进行识别;将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;将识别出的实词标注为所述知识库中的实体知识;基于对实词的标注结果,将识别出的代词标注为所述代词指代的内容;以及基于对实词和代词的标注结果,将识别出的属性名标注为所述知识库中对应的属性名。
本发明实施例的对文本进行自动标注的方法,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
为了实现上述目的,本发明第二方面实施例的对文本进行自动标注的装置,包括:识别模块,用于对文本中的词汇进行识别;第一标注模块,用于将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;第二标注模块,用于将识别出的实词标注为所述知识库中的实体知识;第三标注模块,用于基于对实词的标注结果,将识别出的代词标注为所述代词指代的内容;以及第四标注模块,用于基于对实词和代词的标注结果,将识别出的属性名标注为所述知识库中对应的属性名。
本发明实施例的对文本进行自动标注的装置,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的对文本进行自动标注的方法的流程图;
图2是根据本发明一个实施例的文本的示意图;
图3是对图2所示文本进行自动标注后的示意图;
图4是根据本发明一个实施例的将识别出的实词标注为知识库中的实体知识的流程图;
图5是根据本发明一个实施例的基于关联空间的语义相似度计算的示意图;
图6是传统网页搜索的结果示意图;
图7是根据本发明一个实施例的网页搜索结果示意图;
图8是根据本发明另一个实施例的网页搜索结果示意图;
图9是根据本发明一个实施例的对文本进行自动标注的装置的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752962.8/2.html,转载请声明来源钻瓜专利网。





