[发明专利]一种基于自然语言处理的层次化专题属性抽取方法有效
申请号: | 201811005109.9 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109145089B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 梁勇奇;杨瑞霞;耿同 | 申请(专利权)人: | 中国科学院遥感与数字地球研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 层次 专题 属性 抽取 方法 | ||
本发明公布了一种基于自然语言处理的层次化专题属性抽取方法,旨在解决较少文本量,多属性类型情况下完整专题信息抽取的难题,包括以下步骤:将英文百科类介绍页面结构化,清洗并句子化,形成总句子语料库;从总句子语料库中随机抽取部分句子,标注其中含有某专业领域属性的句子,形成句子层的语料库;按照7:3的比例,将属性句子语料库划分为训练库和检验库,训练并检验随机森林分类器;(4)使用训练好的随机森林分类器对总句子语料库分类,获得属性句子库;使用文档主题生成模型(LDA和NMF)获取属性句子库中的主题词,标注该专业领域知识的各类型属性词,形成词语层的语料库;将介绍页面词语化,根据属性词语料库,抽取专题属性信息。
技术领域
本发明属文本特征提取和属性抽取领域,具体为一种基于自然语言处理的层次化专题属性抽取方法。
背景技术
在信息爆炸的时代,从海量的互联网数据中挖掘有价值的信息,成为科学研究的重点。大数据不在于体量的大,而在于能支撑专业的研究。在专业领域,面对的实体往往有限,而属性类型多;不同实体的介绍文本内容含有冗余信息;各类型属性信息的数量差异较大。先前的属性抽取方法主要针对万条,甚至百万条的数据,在该量级下,能训练得到较好的机器学习模型,有效地抽取属性信息,而在某些专业领域中,当文本量较少,各类型的属性信息数量差异较大时,难以将这些模型训练到较好的结果。因此,如何从较少的文本量中抽取出该实体多个类型的属性信息,为该实体的研究提供基础,需要一种新的方法。
常用的信息提取方法有基于条件随机场(Conditional Random Fields)、基于深度学习(Deep Learning)、基于卷积神经网络(Convolutional Neural Network)、基于遗传学算法(Genetic Algorithms)、基于规则的方法(Rule-based)等。由于针对某个专业领域的实体,特别是地理实体,会出现数量在万级以下的情况。另外,该实体集包含的属性类型较多,不同属性类型关键词出现的频率差异较大,导致某些属性关键词能标注的语料库量会很少,而前四种方法使用的正是上述的机器学习模型。因此,本发明最终选择基于规则的方法来抽取各属性信息。
使用传统的标注辅助手段(如,词性标注(POS),分块(Chunk))标注属性词语料库时,关键词出现次数较少的属性类型无标注。为了能将这部分属性关键词标注出来,本发明采用层次化的方法,先标注句子层的属性语料库,将无关属性信息的句子去掉,再对含有属性的句子做主题分析,最后对主题分析的结果——各主题的关键词进行标注,构建更加完整的属性关键词库。本发明通过两步标注语料库的方式,实现了属性词的逐步析出,在较少标注量的同时,也满足在较少的文本量,多属性类型条件下更为完整的信息抽取。
发明内容
本发明旨在解决较少的文本量,多属性类型情况下完整专题信息抽取的困难。其通过自然语言处理的流程,采用层次化的标注方式,对英文百科类(如Wikipedia)介绍中包含的某专业领域的多类型属性进行了自动提取。其不仅提供一套更高效完整的信息提取流程和专业领域的属性数据集。同时,建立的网页文档结构,方便后续的其它语义分析;标注的属性句子语料库和属性词语料库也能用于该专业领域其它实体介绍的分类和属性信息提取。
本发明公布了一种基于自然语言处理的层次化专题属性抽取方法,其步骤如下:
(1)将英文百科类(如:Wikipedia)介绍页面结构化,清洗并句子化,形成总句子语料库;
(2)从总句子语料库中随机抽取部分句子,标注其中含有某专业领域属性的句子,形成句子层的语料库——属性句子语料库;
(3)按照7:3的比例,将属性句子语料库划分为训练库和检验库,训练并检验随机森林分类器;
(4)使用训练好的随机森林分类器对步骤1)中的总句子语料库分类,获得属性句子库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院遥感与数字地球研究所,未经中国科学院遥感与数字地球研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811005109.9/2.html,转载请声明来源钻瓜专利网。