[发明专利]一种从学术文献中提取语义相似且语法规范句子的方法有效
| 申请号: | 201510421798.1 | 申请日: | 2015-07-18 |
| 公开(公告)号: | CN105677634B | 公开(公告)日: | 2018-07-10 |
| 发明(设计)人: | 孙维国;李墨 | 申请(专利权)人: | 孙维国;李墨 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 孙笑飞 |
| 地址: | 471000 河南省洛*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句子 语义 语法规范 数据库 使用者参考 相似度比较 相似度计算 输入句子 所属领域 学术论文 英语 文献源 母语 语句 查询 写作 参考 访问 | ||
1.一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述方法包括以下几个步骤:
A.将已建立的英语文献数据库中所有文献的关键词、第一作者或通讯作者所在国家提取出来,并与相应文献建立对应关系;
B.对所述英语文献数据库中所有文献的摘要和正文文本以句子为单位进行划分,提取句子的主要成份,并与原句建立对应关系;
C.用户输入所要匹配句子所属的学科、领域或者研究方向的一个或多个关键词;
D.用户输入所需匹配的英语句子,对该句子的主要成份进行提取,并与英语文献数据库中所有句子的主要成份按照词性相似度和语法相似度两个方面进行相似度计算;
E.将用户输入的关键词与文献关键词进行比较,并设定每篇文献的关键词权值,根据第一作者或通讯作者所在国家,设定每篇文献第一作者或通讯作者的英语熟练度权值;
F.综合考虑句子主要成份相似度、文献关键词权值、文献作者英语熟练度权值计算两个句子的最终相似度,按照最终相似度的高低进行排序,并反馈给用户相似度最高的一个或几个英文原句及其文献出处。
2.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤A中,英语文献数据库指的是包含有已公开发表的、获得出版方授权使用的英语学术论文的数据库。
3.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤A中,对没有关键词的文献将文献的标题进行分解,将名词作为该文献的关键词。
4.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤A中,第一作者或通讯作者所在国家指的是文献中第一作者或通讯作者的通信地址或服务机构中给出的国家,所述第一作者或通讯作者是该国国籍的公民,或在该国从事研究的外籍人员。
5.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤B和D中,句子的主要成份包括语法主要成份,指的是划分句子的主语、谓语、宾语、定语和状语,并将介词、冠词、数词去掉,保留名词、动词、形容词、副词。
6.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤B和D中,句子的主要成份包括词性主要成份,指的是略去句中不影响主要词义匹配的介词、冠词、数词,保留名词、动词、形容词、副词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙维国;李墨,未经孙维国;李墨许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510421798.1/1.html,转载请声明来源钻瓜专利网。





