[发明专利]一种文档检索匹配方法在审
| 申请号: | 201511026068.8 | 申请日: | 2015-12-31 |
| 公开(公告)号: | CN105653703A | 公开(公告)日: | 2016-06-08 |
| 发明(设计)人: | 杜南山 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 刘林 |
| 地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 检索 匹配 方法 | ||
技术领域
本发明所属技术领域为自然语言处理、信息检索,尤其涉及一种文档检索匹配方法。
背景技术
信息检索中计算文档相关性的算法有很多,基于TF-IDF框架的算法是其中重要的一 类,而OkapiBM25又是该类算法中的一个经典实现。本文的文档检索匹配方法主要是基 于该经典算法的优化实现,方法和相关技术也可以推广到其它算法。算法中的符号及含义 如表格1所示。
表格1基于TF-IDF框架的算法中使用的符号及含义
OkapiBM25算法的具体计算公式如下(公式十一):
其中,t表示词,Q表示查询文档,D表示待匹配文档。k1一般取值1.0~2.0,b一般取值0.75, k3一般取值取值0~1000,均为常数。
发明内容
本发明所要解决的技术问题是提供一种文档检索匹配方法,提高算法实现程序的执行 效率,减少全文检索过程所需要的时间。
为解决上述技术问题,本发明提供一种文档检索匹配方法,包括计算查询文档与待匹 配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式 一计算得出,所述公式一为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511026068.8/2.html,转载请声明来源钻瓜专利网。





