[发明专利]信息提取方法、装置、计算机设备和存储介质在审

专利信息
申请号: 201810083656.2 申请日: 2018-01-29
公开(公告)号: CN110110033A 公开(公告)日: 2019-08-09
发明(设计)人: 范玉顺;张峻旗;周婧雯 申请(专利权)人: 清华大学
主分类号: G06F16/31 分类号: G06F16/31;G06Q50/14
代理公司: 北京华进京联知识产权代理有限公司 11606 代理人: 成丹
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 研究对象 信息提取 计算机设备 存储介质 关键词库 数据获取 特性信息 置信度 集合
【说明书】:

发明提供一种信息提取方法、装置、计算机设备和存储介质,该方法包括:获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在所有识别区域内共同出现的次数;针对每个待研究对象和每个特性,根据所述待研究对象与所述特性共同出现的次数,与所述待研究对象在所有识别区域内出现的总次数的商值,确定所述待研究对象相对于所述特性的置信度。该方法可以通过相应的数据获取到待研究对象的特性信息,相比传统技术,其大大提高了待研究对象的信息提取效率。

技术领域

本发明涉及数据分析领域,特别是涉及一种信息提取方法、装置、计算机设备和存储介质。

背景技术

随着互联网的不断发展,各种数据成爆炸式增长,如何从这些海量数据中提取有用的信息成为人们的研究对象。以旅游数据为例,互联网上存在海量有关旅游的游记文本,如何从这些海量的游记文本中提取有关景点的特性信息,作为人们旅行前的景点参考因素,成为人们重点的研究对象。

传统技术中,用户经常通过手动依次浏览海量的游记文本中的每个游记文本,从而从每个游记文本中提取有关景点的特性信息,例如查看该景点是否清幽、是否排队、价格是否低廉等特性。

但是,传统技术所述的方法提取信息的效率较低。

发明内容

基于此,有必要针对传统技术所述的方法提取信息的效率较低的问题,提供一种信息提取方法、装置、计算机设备和存储介质。

第一方面,本发明实施例提供一种信息提取方法,所述方法包括:

获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数;其中,所述特性关键词库中包括N个用于表征待研究对象特征的特性,每个特性对应至少一个关键词;

针对每个待研究对象和每个特性,根据所述待研究对象与所述特性在同一识别区域内共同出现的次数,与所述待研究对象在所有识别区域内出现的总次数的商值,确定所述待研究对象相对于所述特性的置信度。

本实施例提供的信息提取方法,通过获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数,并根据获取到的待研究对象与特性在同一识别区域内共同出现的次数,与该待研究对象在所有识别区域内出现的总次数的商值,确定该待研究对象相对于该特性的置信度。由于本实施例中,计算机设备可以通过相应的数据获取到待研究对象的特性信息,相比传统技术中手动提取待研究对象的特性信息的方式,其大大提高了待研究对象的信息提取效率;另外,本实施例在确定待研究对象的特性信息时,是基于待研究对象在所有识别区域内出现的总次数,以及结合了待研究对象与每个特性在同一识别区域内共同出现的规律确定的待研究对象相对于某个特性的置信度,其数据参考依据比较准确,也比较合理,因此,基于这些数据确定的待研究对象的特性信息比较准确,从而为用户提供了更加便捷和准确的信息参考依据。另外,本实施例提供的信息提取方法,是通过置信度来反映待研究对象与特性之间的关系的,由于置信度是具体的、量化的值,因此,这种展示方式更直观,更便于用户对待研究对象进行判断与分析。

在其中一个实施例中,所述获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数,包括:

获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数;

获取所述特性关键词库中的每个特性在每个识别区域内出现的次数;其中,一个特性在一个识别区域内出现的次数等于所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和;

根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数,获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810083656.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top