[发明专利]一种表征科研论文研究内容的科技词条抽取方法在审
申请号: | 201811215918.2 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109543001A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 汤德佑;霍晨鹏;张平健;刘朝刚;奚建清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/335 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词条 科研论文 贡献系数 前驱节点 抽取 后继节点 研究 词频统计 关联词库 降序排序 客观反映 论文研究 有效推动 组合系数 大数据 语料库 置信度 构建 加权 检索 延伸 拓展 分析 | ||
本发明公开了一种表征科研论文研究内容的科技词条抽取方法,首先构建科研论文关联词库和科研论文语料库,然后进行科技词条抽取、词频统计、加权TF‑IDF值计算、科技词条评分拓展,得到每个科技词条的评分,再计算科技词条树图中词条之间的组合系数(后继节点评分占前驱节点评分的比值)、前驱节点置信度(后继节点是由某一前驱节点延伸下来的可能性)、贡献系数(科技词条对论文研究内容的反映程度),最后对贡献系数降序排序,设置主成分比值阈值,提取科技词条主成分集,进而进行贡献系数调整,得到最能反映科研论文研究内容的科技词条及其贡献系数。该方法客观反映了科研论文的研究范畴,将有效推动科研论文检索、科研论文大数据分析等活动的开展。
技术领域
本发明涉及信息技术领域,具体涉及一种表征科研论文研究内容的科技词条抽取方法。
背景技术
科研论文主要功能是记录、总结科研成果,是科技人员交流学术思想和科研成果的工具。目前很多科研论文论文库均提供基于元数据的检索及全文关键词检索,基于内容分析结果的检索尚未见成熟技术和产品。虽然关键词/主题词/受控词一定程度上可以体现研究内容,但没有进一步展示与论文研究主要内容和结论等的相关度;同时,一篇论文的关键词有很多个,造成使用关键词搜索往往可以得到很多搜索结果,但大部分脱离检索预期的结果。检索人员只能在关键词搜索结果中通过阅读文献后做进一步筛选,使科技人员在科研论文检索过程中费时费力,很难检索到自己想要的科研论文。
此外,目前科研论文评价时采用学科或技术作为成果统计边界,无法在具体领域、行业水平层次对科研论文进行科学的评价,不利于更小粒度的研究主题上对研究成果进行纵向比较,也不利于不同研究主题上研究人员的横向比较。
发明内容
本发明的目的是针对现有技术的不足,提供了一种表征科研论文研究内容的科技词条抽取方法,所述方法提出了科技词条这个规范化词语对科技活动的研究范畴进行分类和管理,提供了一种比学科、技术领域等分类更为精确,更能真实反映科技工作中理论和技术研究范畴的分类方法和管理模式,由科技人员主导完成词条的管理;在范畴划分中,若科技词条te1研究范畴是由科技词条te2的研究范畴细化而来,称te2强包含te1,记为te2→te1;若科技词条te1的研究范畴与科技词条te2的研究范畴存在交集,或te1的研究范畴在某种程度上也属于te2的研究范畴,称te2弱包含te1,记为包含关系是传递的;若以科技词条为顶点,词条间的强包含和弱包含关系表示为有向边,则所有科技词条构成有向无环树图,给定科技词条te,所有te传递包含或传递包含te的词条都是te的关联词,反映研究范畴的相关性,如某项研究对应到科技词条树图中是出度为零的顶点,说明该研究范畴是一个划分比较精确的分支;科技词条之间存在关联,同时,科技词条关联了科研论文、科技人员,给定科技词条te,研究内容包含te的科研论文都是te的关联科研论文,研究范畴包含te的科技人员都是te的关联科技人员。所述方法基于提出的科技词条模型,给出科研论文的科技词条主成分集及其贡献系数,客观反映了科研论文的研究内容,将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。
本发明的目的可以通过如下技术方案实现:
一种表征科研论文研究内容的科技词条抽取方法,所述方法包括以下步骤:
步骤S1、针对科研论文关键词所在领域构建科研论文关联词库,按照科技词条间的关联关系,计算与科研论文存在关联关系的词条集合,作为科研论文关联词库;
步骤S2、根据构建的科研论文关联词库构建科研论文语料库;
步骤S3、对科研论文中的关联科技词条进行评分计算;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811215918.2/2.html,转载请声明来源钻瓜专利网。