[发明专利]一种基于篇章信息的中文水果品种信息抽取方法及装置有效

专利信息
申请号: 201611043050.3 申请日: 2016-11-21
公开(公告)号: CN106649264B 公开(公告)日: 2019-07-05
发明(设计)人: 陈瑛;程曦瑶;程碧霄 申请(专利权)人: 中国农业大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王庆龙
地址: 100193 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 篇章 信息 中文 水果 品种 抽取 方法 装置
【说明书】:

发明提供一种基于篇章信息的中文水果品种信息抽取方法及装置。通过获取语料,在搜索引擎网站爬取下载与水果相关的页面;对所述与水果相关的页面进行语料标注;对所述与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;利用训练语料特征训练得到基于深度学习的组合分类器;利用组合分类器从测试语料中抽取水果品种信息;将与水果相关的页面随机分为N组,重复执行,获得评估结果。改进目前的信息抽取技术,使其更加适应于农业领域,提高了水果品种名称识别与抽取的准确率。

技术领域

本发明涉及自然语言处理领域,更具体地,涉及基于篇章信息的中文水果品种信息抽取方法及装置。

背景技术

随着中国农产品电商的发展,农产品知识库的构建和完善对于农产品的管理极为重要。我国水果产业经过80年代中期至90年代中后期的快速发展,成为种植业中仅次于粮食和蔬菜的第三大产业,在农业及国民经济中占有非常重要的地位。相比粮食和蔬菜,水果物种更多,种植区域性更强,国家标准管理更松散,因此水果知识库的构建和完善更有难度。

我国农作物种质资源研究工作取得了显著成绩,建立了国家农作物种质资源数据库、中国作物种质信息网等种质资源库。虽然种质资源数据库含有水果品种名称信息,但是这些水果品种名称信息过于学术化,不符合面向销售的水果农产品管理的需要,因此需要构建通俗性的水果知识库。

要达到以上目的,要进行信息抽取,信息抽取又包括:专有名词识别和关系识别。目前的英文专有名词识别技术已经达到了较高的水平,有些系统已经实用化。其中,词项提取主要是利用效果较好的英文词法分析结果进行提取;词项分类可以视为一种特殊的is-a关系识别,主要采用关系识别技术。而中文专有名词识别比英文难度更大,其原因是词项提取需要依赖中文分词。由于领域(包括农业)词汇大多是词库外词(Out-Of-Vocabulary,OOV词),而OOV词的识别一直是中文分词的研究难点,因此面向农业领域的中文词项提取效果不佳。因此,中文专有名词的识别尚需进一步的研究。

当前大多数关系识别研究只是关注句子内的关系实例(即判断句子内出现的两个实体是否存在特定关系),其特征提取往往是针对句子内的文本进行。而在网络百科的词条描述中,水果品种关系实例经常是跨句乃至跨段的。这种远距离的关系识别意味着其特征提取往往针对更大范围的文本进行,更容易产生带噪音的特征信息。

发明内容

本发明要解决的技术问题是改进现有的信息抽取技术,使其能够更好的应用于农业领域,能够从网络中自动识别出水果品种的相关信息,构建通俗性的水果知识库,解决现有的种质资源库中的水果品种名称信息过于学术化,不符合面向销售的水果农产品管理需要的问题。

一方面,本发明提出一种基于篇章信息的中文水果品种信息抽取方法,所述方法包括:

步骤S1,获取语料;

步骤S2,标注语料;

步骤S3,对与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;

步骤S4,利用训练语料特征训练得到基于深度学习的组合分类器,利用组合分类器从测试语料中抽取水果品种信息;

步骤S5,将与水果相关的页面随机分为N组,重复执行步骤S1至S4N次,获得评估结果。

进一步地,所述步骤S1,具体包括:

获取语料,在百度网站中查询水果相关网页,利用网络爬虫爬取下载与水果相关的百度百科页面。

进一步地,所述步骤S2,具体包括:

对于所述与水果相关的页面,人工标注出每个水果品种名称、所属的水果大类名称的关系,将每个标注信息记录为三元组:水果大类名称、水果品种名称、is-a关系;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611043050.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top