[发明专利]一种自动提取论文引用内容及对应文后参考文献的方法和系统在审
| 申请号: | 201610124658.2 | 申请日: | 2016-03-04 |
| 公开(公告)号: | CN107153635A | 公开(公告)日: | 2017-09-12 |
| 发明(设计)人: | 王骏;熊海涛 | 申请(专利权)人: | 《中国学术期刊(光盘版)》电子杂志社有限公司;同方知网(北京)技术有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
| 代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 史霞 |
| 地址: | 100084 北京市海淀区清*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自动 提取 论文 引用 内容 对应 参考文献 方法 系统 | ||
技术领域
本发明涉及自动提取论文引用内容及对应文后参考文献的方法和系统技术领域,具体为一种自动提取论文引用内容及对应文后参考文献的方法和系统。
背景技术
论文引用内容抽取指从论文中抽取出引用了其他参考文献的内容,其属于信息抽取技术范畴,随着科学技术的发展,作为科学研究成果代表的论文数量也在不断增长,对海量论文进行碎片化,知识化处理,从中发掘出深层次内容信息成为文献计量学领域的迫切需求,碎片化处理指根据需求从论文中抽取出相应内容,如研究对象,研究背景,引用内容等等,由于论文的引用关系反映了科学技术发展传承的过程,同时为评价论文提供了真实可靠的客观标准,因此在碎片化的整体需求中,提取引用内容显得尤为重要,另一方面,传统的文献计量学对于引用关系的研究局限于被引频次,题录信息等浅层信息,也需要进一步深入到引用内容层次进行分析,可见,对论文引用内容的抽取具有重要意义,论文相对于其他语料,具有行文格式较为规范的特点,特别是对于参考文献的引用,更是需要遵循一定规则,如GB/T7714-2005《文后参考文献著录规则》以国标的形式规定了引用文后参考文献的著录方法,因此目前有关引用内容抽取的研究一般使用基于规则的方法,中科院声学所韦向峰等人提出根据标志符”[]”,”()”以及其中连接符号”,”,”-”判断论文中是否存在引用,并抽取出引用内容的方法,在基于规则的抽取方法中,根据抽取对象特点,设计合理抽取规则是算法核心所在,韦向峰的方法利用了引用内容最明显的标志,然而并没有全面分析引用存在的不同形式,设计的抽取规则并不完善,也没有通过大规模语料验证算法,因此不能保证抽取的全面完整,在算法中,也没有提到如何对引用内容 和其所引用的参考文献进行对应,除了自动抽取外,目前也有一些研究者采用手工方法进行引用内容抽取,手工方法通过人工阅读论文,判断文中的引用标志,抽取出引用内容,并将其与文后所引用的参考文献对应,如何荣立等人对于引用内容的研究采用人工方法,手工提取了300篇不同类型论文中包含的引用内容,很明显,这样的方法虽然简单明了,然而费时费力,不能实现大规模的抽取目前文献计量学领域研究引用关系只利用论文的引用次数,文献题录等信息,没有从论文中提取出引用内容信息以及进行更深层的分析利用,也没有一套完整全面从论文中提取出引用内容的系统方法。
发明内容
本发明的目的在于提供一种自动提取论文引用内容及对应文后参考文献的方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种自动提取论文引用内容及对应文后参考文献的方法和系统,包括以下步骤:
步骤一:从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)</D*>’;
步骤二:正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,‘(?!/D/,/))(?!/D/,/])(?!l/,,)(?!e/,g)(?![A-Z]/,/D)(/D/,(?!@)/D)’,‘(?!e/,/d)(?!g/,/d)(/D/,(?!@)/d)’,‘。’;
步骤三:抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编码制引用方式的句子,通过对大量数据分析,论文中顺序编码制可能包括如下几种格式(1)纯数字[1],(2)连接号分隔[1-3],(3)其他符号分隔[1~3][1~3],(4)逗号及混合方式[1,2][1,2-4],[1,2~4],对于以上格式,分别设计正则表达式规则抽取,(1)‘/[(/d+)/]',(2)‘/[(/d+-/d+)/]’,(3) ‘/[(/d+~/d+)/]’‘/[(/d+~/d+)/]’,(4)‘/[(/d+,,*?/d+)/]’,符合以上正则表达式的句子被抽取出作为引用内容;
步骤四:获取引用内容中参考文献标号,在步骤三中四种格式的基础上,解析所对应的参考文献标号,如[1]对应1,[1,2-4]对应1,2,3,4;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于《中国学术期刊(光盘版)》电子杂志社有限公司;同方知网(北京)技术有限公司,未经《中国学术期刊(光盘版)》电子杂志社有限公司;同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610124658.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在线文档文件的切分方法和在线文档文件的切分系统
- 下一篇:智能问答方法及系统





