[发明专利]科技文献检索方法及系统在审
申请号: | 201410398279.3 | 申请日: | 2014-08-13 |
公开(公告)号: | CN104166712A | 公开(公告)日: | 2014-11-26 |
发明(设计)人: | 郭晓利;曲朝阳;潘峰;娄建楼;孙慧宇 | 申请(专利权)人: | 东北电力大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;李科 |
地址: | 132012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于限定词的中文科技文献检索方法,该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;接着基于“的”字,对该检索词条划界,找出前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度,最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于中文科技文献的检索效率。 | ||
搜索关键词: | 科技 文献 检索 方法 系统 | ||
【主权项】:
一种科技文献检索方法,所述方法包括:步骤1)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果;其中,所述科技文献名称的特征向量空间是通过下列操作得到的:a)提取用于检索的数据集中所有科技文献名称来构成训练集;b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北电力大学,未经东北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410398279.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种含唑虫酰胺和ZJ4042的杀虫组合物
- 下一篇:防触电频振杀虫灯