[发明专利]一种从学术文献中提取语义相似且语法规范句子的方法有效
| 申请号: | 201510421798.1 | 申请日: | 2015-07-18 |
| 公开(公告)号: | CN105677634B | 公开(公告)日: | 2018-07-10 |
| 发明(设计)人: | 孙维国;李墨 | 申请(专利权)人: | 孙维国;李墨 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 孙笑飞 |
| 地址: | 471000 河南省洛*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句子 语义 语法规范 数据库 使用者参考 相似度比较 相似度计算 输入句子 所属领域 学术论文 英语 文献源 母语 语句 查询 写作 参考 访问 | ||
本发明公开了一种从学术文献中提取语义相似且语法规范句子的方法。该方法包括首先将拟访问的数据库限定为已发表的学术论文。根据使用者输入拟查询句子所属领域的关键词、文献作者所在国家、以及输入句子的主要成份与数据库中的句子进行相似度计算。根据所限定要素的权值提取相似度比较高的几个句子供使用者参考,从而获得恰当语义的句子和所获语句的文献源。本发明可供非英语母语英语论文作者等在写作科技文献时,快捷获取规范表达想法的参考句子。
技术领域
本发明属于计算机技术领域,特别涉及一种应用于英语句子匹配的方法,尤其是考虑了语法不规范句子的匹配方法。
背景技术
语句相似度在双语翻译、自动问答、论文查重等领域有重要的应用价值。语句相似度的计算方法有很多,不同应用领域的侧重点不同,有的偏重于文本表层内容的匹配度,如论文查重等;有的则偏重于语句包含的内在语义的相似度,如双语翻译和自动问答等。以论文查重为例进行简要说明:论文查重包含的数据库主要为已发表的文献、专利、著作、网页等,并且必须尽可能的包含所有文献资料,以确保查重结果的可靠性。论文查重的句子相似度评价标准需要考虑文字在句子中的出现顺序,以及多个连续文字的匹配程度,当文字匹配的个数超过规定的数量时则认为该句子抄袭了原有句子。句子之间的匹配算法在计算机技术研究领域已经有大量的研究,此处不再赘述。国内外大量从事科研工作的研究人员、学生等群体经常需要写作英文科技文献,如发表论文、申请专利、撰写毕业论文等。对于非英语母语国家的科研人员来说,写出一篇能够完全表达自己意思,并且语法规范、语句流畅的文章通常是一件比较困难的事情。研究人员即使有一定的英语写作能力,而写出的文章中却包含有一定的语法错误、语义模糊甚至出现歧义。为了能够改善这种现象,研究人员通常的做法是在自己阅读过的大量外文文献中寻找与自己表达意思相近的句子,并在此基础上根据自己的英语知识进行一定的修改,从而形成一个完整表达自己意思的、没有语法错误的并且和原句有一定差异的句子。由于科技论文中的内容主要是作者自己的创新性工作,因此完全与原句重合的概率很小。对于研究人员来说想要在自己阅读的外文文献中找到所有能够表达自己意思的句子是很困难的,并且该过程也是一项非常费时费力的工作。如何通过现代电子计算机技术,如语句相似度计算技术,实现非常方便和快捷地查找与作者想要表达意思相近的、没有语法错误的甚至具有一定写作技巧的英文语句是一项亟待解决的重要问题。
发明内容
本发明的目的是提供一种从学术文献中提取语义相似且语法规范句子的方法。该方法能够利用用户输入的、语法可能不完全正确的英语句子搜索到与用户意思相同或相近的、语义清晰的英语句子,为用户提供参考。该方法解决了非英语母语科研人员、学生等在写作科技文献时,难以专业表达想法或者无法确定句子语法规范的问题。
本发明的具体技术方案是:一种从学术文献中提取语义相似且语法规范句子的方法,包括以下几个步骤:
A. 将已建立的英语文献数据库中所有文献的关键词、第一作者或通讯作者所在国家提取出来,并与相应文献建立对应关系;
B. 对所述英语文献数据库中所有文献的摘要和正文文本以句子为单位进行划分,提取句子的主要成份,并与原句建立对应关系;
C. 用户输入所要匹配句子所属的学科、领域或者研究方向的一个或多个关键词;
D. 用户输入所需匹配的英语句子,对该句子的主要成份进行提取,并与英语文献数据库中所有句子的主要成份按照词性相似度和语法相似度两个方面进行相似度计算;
E. 将用户输入的关键词与文献关键词进行比较,并设定每篇文献的关键词权值,根据第一作者或通讯作者所在国家,设定每篇文献第一作者或通讯作者的英语熟练度权值;
F. 综合考虑句子主要成份相似度、文献关键词权值、文献作者英语熟练度权值计算两个句子的最终相似度,按照最终相似度的高低进行排序,并反馈给用户相似度最高的一个或几个英文原句及其文献出处。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙维国;李墨,未经孙维国;李墨许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510421798.1/2.html,转载请声明来源钻瓜专利网。





