[发明专利]一种自动提取论文引用内容及对应文后参考文献的方法和系统在审
| 申请号: | 201610124658.2 | 申请日: | 2016-03-04 |
| 公开(公告)号: | CN107153635A | 公开(公告)日: | 2017-09-12 |
| 发明(设计)人: | 王骏;熊海涛 | 申请(专利权)人: | 《中国学术期刊(光盘版)》电子杂志社有限公司;同方知网(北京)技术有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
| 代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 史霞 |
| 地址: | 100084 北京市海淀区清*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种自动提取论文引用内容及对应文后参考文献的方法和系统,包括以下步骤,步骤一,从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)</D*>’,步骤二,正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编码制引用方式的句子,该发明有效解决了英文句号的歧义问题,为后续抽取工作打下良好基础。 | ||
| 搜索关键词: | 一种 自动 提取 论文 引用 内容 对应 参考文献 方法 系统 | ||
【主权项】:
一种自动提取论文引用内容及对应文后参考文献的方法和系统,其特征在于:包括以下步骤:步骤一:从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)</D*>’;步骤二:正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,‘(?!/D/,/))(?!/D/,/])(?!l/,,)(?!e/,g)(?![A‑Z]/,/D)(/D/,(?!@)/D)’,‘(?!e/,/d)(?!g/,/d)(/D/,(?!@)/d)’,‘。’;步骤三:抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编码制引用方式的句子,通过对大量数据分析,论文中顺序编码制可能包括如下几种格式(1)纯数字[1],(2)连接号分隔[1‑3],(3)其他符号分隔[1~3][1~3],(4)逗号及混合方式[1,2][1,2‑4],[1,2~4],对于以上格式,分别设计正则表达式规则抽取,(1)‘/[(/d+)/]',(2)‘/[(/d+‑/d+)/]’,(3)‘/[(/d+~/d+)/]’‘/[(/d+~/d+)/]’,(4)‘/[(/d+,,*?/d+)/]’,符合以上正则表达式的句子被抽取出作为引用内容;步骤四:获取引用内容中参考文献标号,在步骤三中四种格式的基础上,解析所对应的参考文献标号,如[1]对应1,[1,2‑4]对应1,2,3,4;步骤五:对应文后参考文献,通过步骤四中获取的引用内容中参考文献标号,与文后参考文献序号对应,由于文后参考文献可能存在如下三种形式,(1)方括号[1],(2)圆括号(1),(3)只有数字无括号1,故根据以上三种形式设计对应正则表达式如,'/['+‘num’+'/]'‘num’'/('+‘num’+'/)',按上述正则表达式首先在引文字段搜索参考文献序号,如果没有,则在正文末尾部分搜索参考文献序号,完成引文内容与文后参考文献的对应。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于《中国学术期刊(光盘版)》电子杂志社有限公司;同方知网(北京)技术有限公司,未经《中国学术期刊(光盘版)》电子杂志社有限公司;同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610124658.2/,转载请声明来源钻瓜专利网。
- 上一篇:在线文档文件的切分方法和在线文档文件的切分系统
- 下一篇:智能问答方法及系统





