[发明专利]基于自信息的跨学科领域共现主题发现方法有效

专利信息
申请号: 201510398058.0 申请日: 2015-07-08
公开(公告)号: CN105138537B 公开(公告)日: 2018-12-07
发明(设计)人: 夏晴;周文;张亚军;刘孟 申请(专利权)人: 上海大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海上大专利事务所(普通合伙) 31205 代理人: 陆聪明
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 信息 跨学科 领域 主题 发现 方法
【权利要求书】:

1.一种基于自信息的跨学科领域共现主题发现方法,其特征在于:操作步骤包括:

(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;

(2)、数据处理:提取和数字化自评中的正文部分;

(3)、抽取候选低频主题词;

(4)、计算低频主题评价系数;

(5)、设定低频主题词评价系数的阈值;设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词,进行实验后,确定阈值λ=2.3;

(6)、过滤低频主题词;现有阈值λ的取值会出现查全率高而查准率相对低的现象,自评篇幅较小,高频词是专业词的可能性较大,所以去除大部分专业词,从而提高查准率;再通过人工标记的方式去除未明显指向主题的词组,从而对结果进行优化。

2.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(1)数据收集的具体操作是:从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。

3.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(2)数据处理的具体操作是:对文档集中文本进行了数字化和提取;此外,还提取了3类信息:自评的正文内容、自评的相关信息以及原高引文献的相关信息。

4.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(3)抽取候选低频主题词的具体操作是:首先利用“自然语言工具集”NLTK文献作为工具处理自评的正文部分,然后结合Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选低频主题词。

5.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(4)计算低频主题评价系数的具体操作如下:

(41)首先计算低频词对文档的信息量:表示词wij对文档di的信息量,cij表示词在文档中出现的词频、Ci表示文档中总词数,

(42)计算低频词对文档集的信息量:表示每个词对应的文档集信息量,c'ij表示词在文档集中出现的词频,表示文档中总词数,

(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数越接近0时所对应的wij越可能是低频主题词,

6.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(5)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510398058.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top