[发明专利]一种基于自然语言处理的层次化专题属性抽取方法有效
申请号: | 201811005109.9 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109145089B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 梁勇奇;杨瑞霞;耿同 | 申请(专利权)人: | 中国科学院遥感与数字地球研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 层次 专题 属性 抽取 方法 | ||
1.一种基于自然语言处理的层次化专题属性抽取方法,包括以下步骤:
1)将英文百科类介绍页面结构化,清洗并句子化,形成总句子语料库;
2)从总句子语料库中随机抽取部分句子,标注其中含有某专业领域属性的句子,形成句子层的语料库——属性句子语料库;
3)按照7:3的比例,将属性句子语料库划分为训练库和检验库,训练并检验随机森林分类器;
4)使用训练好的随机森林分类器对步骤1)中的总句子语料库分类,获得属性句子库;
5)使用文档主题生成模型获取属性句子库中的主题词,标注该专业领域知识的各类型属性词,形成词语层的语料库——属性词语料库;
6)将英文百科类介绍页面词语化,根据属性词语料库,规则匹配抽取专题属性信息。
2.根据权利要求1所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤1)进一步包括:
1.1)使用标题和段落的结构,滤除百科介绍页面中的目录、相关链接、扩展阅读、参考等冗余信息,形成结构化的网页文档;
1.2)使用Python库中的nltk自然语言处理包清洗,并句子化网页文档,形成总句子库,其中清洗部分包括去特殊符号和词性还原。
3.根据权利要求2所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤2)进一步包括:
2.1)随机抽取1/5的句子,根据句子中是否含有专业领域所需的属性信息,逐条人工标注为属性句子语料库, 至此,完成第一个层次的语料库构建。
4.根据权利要求3所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤3)进一步包括:
3.1)从属性句子库中随机选取1/5、2/5、3/5、4/5的句子,按照7:3的比例划分为训练库和检验库;
3.2)分别使用BOW模型(Bag of word)、TF-IDF模型(Term frequency–inversedocument frequency)、FH模型(feature hashing)将3.1)中的属性句子语料训练库和检验库中的句子转换为词向量;
3.3)从Python库的scikit-learn机器学习包中调用12种分类器的函数,使用3.2)中的训练库和检验库的词向量训练和检验,得到共计4×3×12种组合的结果。
5.根据权利要求4所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤4)进一步包括:
4.1)选取3.3)中分类结果最优的随机森林分类器,对1.2)中的总句子库分类,得到属性句子总语料库。
6.根据权利要求5所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤5)进一步包括:
5.1)使用Python库中gensim文档主题分析包提供的主题分析模型LSI(Latentsemantic indexing)、LDA(Latent Dirichlet allocation)和Scikit-learn机器学习包提供的主题分析模型LDA(Latent Dirichlet allocation)、NMF(Non-negative matrixfactorization),设置不同的主题数量,分别对4.1)中的属性句子总语料库进行主题分析,在每个确定的主题数量下,对比这4种分析模型的结果,最后选定的关键词库为gensim提供的LDA模型和scikit-learn提供的NMF模型分析得到的关键词库的并集;
5.2)根据该专业领域的专题,从步骤5.1)主题分析模型(LDA和NMF)获得的关键词库中,人工标注相关的属性信息词,按照专业邻域的知识划分类型,形成属性词语料库, 至此,完成第二个层次的语料库构建。
7.根据权利要求6所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤6)进一步包括:
6.1)使用Python库中的nltk自然语言处理包清洗,并词语化步骤1.1)中结构化的网页文档,其中清洗包括去停顿词、去特殊符号和词性还原,形成词语总库;
6.2)使用步骤5.2)中的属性词语料库,在步骤6.1)中的词语总库规则匹配,完成该专题属性信息的抽取,形成专业领域的属性信息数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院遥感与数字地球研究所,未经中国科学院遥感与数字地球研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811005109.9/1.html,转载请声明来源钻瓜专利网。