[发明专利]基于自信息的跨学科领域共现主题发现方法有效
| 申请号: | 201510398058.0 | 申请日: | 2015-07-08 |
| 公开(公告)号: | CN105138537B | 公开(公告)日: | 2018-12-07 |
| 发明(设计)人: | 夏晴;周文;张亚军;刘孟 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 信息 跨学科 领域 主题 发现 方法 | ||
1.一种基于自信息的跨学科领域共现主题发现方法,其特征在于:操作步骤包括:
(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;
(2)、数据处理:提取和数字化自评中的正文部分;
(3)、抽取候选低频主题词;
(4)、计算低频主题评价系数;
(5)、设定低频主题词评价系数的阈值;设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词,进行实验后,确定阈值λ=2.3;
(6)、过滤低频主题词;现有阈值λ的取值会出现查全率高而查准率相对低的现象,自评篇幅较小,高频词是专业词的可能性较大,所以去除大部分专业词,从而提高查准率;再通过人工标记的方式去除未明显指向主题的词组,从而对结果进行优化。
2.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(1)数据收集的具体操作是:从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。
3.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(2)数据处理的具体操作是:对文档集中文本进行了数字化和提取;此外,还提取了3类信息:自评的正文内容、自评的相关信息以及原高引文献的相关信息。
4.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(3)抽取候选低频主题词的具体操作是:首先利用“自然语言工具集”NLTK文献作为工具处理自评的正文部分,然后结合Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选低频主题词。
5.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(4)计算低频主题评价系数的具体操作如下:
(41)首先计算低频词对文档的信息量:表示词wij对文档di的信息量,cij表示词在文档中出现的词频、Ci表示文档中总词数,
(42)计算低频词对文档集的信息量:表示每个词对应的文档集信息量,c'ij表示词在文档集中出现的词频,表示文档中总词数,
(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数越接近0时所对应的wij越可能是低频主题词,
6.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(5)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510398058.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息搜索方法和系统
- 下一篇:一种强制循环燃气高效热水锅炉
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





