[发明专利]一种基于自然语言处理的层次化专题属性抽取方法有效

专利信息
申请号: 201811005109.9 申请日: 2018-08-30
公开(公告)号: CN109145089B 公开(公告)日: 2021-07-30
发明(设计)人: 梁勇奇;杨瑞霞;耿同 申请(专利权)人: 中国科学院遥感与数字地球研究所
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/36
代理公司: 北京亿腾知识产权代理事务所(普通合伙) 11309 代理人: 陈霁
地址: 100094*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 自然语言 处理 层次 专题 属性 抽取 方法
【权利要求书】:

1.一种基于自然语言处理的层次化专题属性抽取方法,包括以下步骤:

1)将英文百科类介绍页面结构化,清洗并句子化,形成总句子语料库;

2)从总句子语料库中随机抽取部分句子,标注其中含有某专业领域属性的句子,形成句子层的语料库——属性句子语料库;

3)按照7:3的比例,将属性句子语料库划分为训练库和检验库,训练并检验随机森林分类器;

4)使用训练好的随机森林分类器对步骤1)中的总句子语料库分类,获得属性句子库;

5)使用文档主题生成模型获取属性句子库中的主题词,标注该专业领域知识的各类型属性词,形成词语层的语料库——属性词语料库;

6)将英文百科类介绍页面词语化,根据属性词语料库,规则匹配抽取专题属性信息。

2.根据权利要求1所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤1)进一步包括:

1.1)使用标题和段落的结构,滤除百科介绍页面中的目录、相关链接、扩展阅读、参考等冗余信息,形成结构化的网页文档;

1.2)使用Python库中的nltk自然语言处理包清洗,并句子化网页文档,形成总句子库,其中清洗部分包括去特殊符号和词性还原。

3.根据权利要求2所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤2)进一步包括:

2.1)随机抽取1/5的句子,根据句子中是否含有专业领域所需的属性信息,逐条人工标注为属性句子语料库, 至此,完成第一个层次的语料库构建。

4.根据权利要求3所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤3)进一步包括:

3.1)从属性句子库中随机选取1/5、2/5、3/5、4/5的句子,按照7:3的比例划分为训练库和检验库;

3.2)分别使用BOW模型(Bag of word)、TF-IDF模型(Term frequency–inversedocument frequency)、FH模型(feature hashing)将3.1)中的属性句子语料训练库和检验库中的句子转换为词向量;

3.3)从Python库的scikit-learn机器学习包中调用12种分类器的函数,使用3.2)中的训练库和检验库的词向量训练和检验,得到共计4×3×12种组合的结果。

5.根据权利要求4所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤4)进一步包括:

4.1)选取3.3)中分类结果最优的随机森林分类器,对1.2)中的总句子库分类,得到属性句子总语料库。

6.根据权利要求5所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤5)进一步包括:

5.1)使用Python库中gensim文档主题分析包提供的主题分析模型LSI(Latentsemantic indexing)、LDA(Latent Dirichlet allocation)和Scikit-learn机器学习包提供的主题分析模型LDA(Latent Dirichlet allocation)、NMF(Non-negative matrixfactorization),设置不同的主题数量,分别对4.1)中的属性句子总语料库进行主题分析,在每个确定的主题数量下,对比这4种分析模型的结果,最后选定的关键词库为gensim提供的LDA模型和scikit-learn提供的NMF模型分析得到的关键词库的并集;

5.2)根据该专业领域的专题,从步骤5.1)主题分析模型(LDA和NMF)获得的关键词库中,人工标注相关的属性信息词,按照专业邻域的知识划分类型,形成属性词语料库, 至此,完成第二个层次的语料库构建。

7.根据权利要求6所述的基于自然语言处理的层次化专题属性抽取方法,其特征在于:所述步骤6)进一步包括:

6.1)使用Python库中的nltk自然语言处理包清洗,并词语化步骤1.1)中结构化的网页文档,其中清洗包括去停顿词、去特殊符号和词性还原,形成词语总库;

6.2)使用步骤5.2)中的属性词语料库,在步骤6.1)中的词语总库规则匹配,完成该专题属性信息的抽取,形成专业领域的属性信息数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院遥感与数字地球研究所,未经中国科学院遥感与数字地球研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811005109.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top