[发明专利]一种自动提取英文文献关键信息的方法在审
申请号: | 201310368688.4 | 申请日: | 2013-08-21 |
公开(公告)号: | CN103412852A | 公开(公告)日: | 2013-11-27 |
发明(设计)人: | 袁子牧;袁宁新;徐志伟;岳强 | 申请(专利权)人: | 广东电子工业研究院有限公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 523808 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及文本处理技术领域,特别涉及一种自动提取英文文献关键信息的方法。本发明从英文文献中获取文本信息,从文本信息抽取出标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词这些关键信息,并且用搜索引擎所提供的文献资料库和专业的文献数据库验证所获取的关键信息,补充和纠正关键信息中的错误。本发明使得英文文献的阅读者可以方便快捷的获知文献关键信息,免去手动查寻信息的过程;可以应用于英文文献关键信息的提取。 | ||
搜索关键词: | 一种 自动 提取 英文 文献 关键 信息 方法 | ||
【主权项】:
一种自动提取英文文献关键信息的方法,其特征在于:按如下步骤进行:步骤1,读取英文文献,将其处理为纯文本格式;步骤2,以符号‘,’和单词“and”作为包含作者名的行所具有的特征,区分标题和作者名;以单词“Abstract”为文献摘要的开头,以符号‘@’为作者邮箱的行的特征,区分作者邮箱和文献摘要;以单词“Index items”或“Keywords”标识文献关键词的特征,区分文献摘要和文献关键词;以文献正文第一部分标题数字‘1’或者符号‘Ⅰ’为开头,通常包含单词”Introduction”的特征;当文献包含文献关键词,以此为特征区分文献关键词和文献正文;不包含关键词时,以此为特征区分文献摘要和文献正文;从而获取到<标题>、<作者名,作者邮箱,作者单位>、<文献摘要>、<文献关键词>这四部分关键信息;步骤3,根据获取的关键信息标题、作者名、作者邮箱、作者单位、文献摘要和文献关键词,检索搜索引擎提供的文献资料库;以提取出来的标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目;在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%;所检索得到的条目与提取的关键信息比对,如检索出来的一致条目中包含有发表刊物、发表时间这两项未知的关键信息则记录之;如检索出来的一致条目中记录的关键信息与提取的关键信息相同,则标记为确认;如不相同,则标记为不确定;步骤4,对所获取到的关键信息标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词,检索专业文献数据库,用标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目;在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%;所检索得到的条目与关键信息比对,如除条目中相关关键信息为空或者不包含相关关键信息之外,以检索出来的一致条目中的关键信息为准,并将相关标记置为确定;步骤5,返回相关关键信息和标记信息,关键信息包括标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词这些英文文献并且相关关键信息有确认或不确定的标记。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电子工业研究院有限公司,未经广东电子工业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310368688.4/,转载请声明来源钻瓜专利网。