[发明专利]一种文档检索匹配方法在审
| 申请号: | 201511026068.8 | 申请日: | 2015-12-31 |
| 公开(公告)号: | CN105653703A | 公开(公告)日: | 2016-06-08 |
| 发明(设计)人: | 杜南山 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 刘林 |
| 地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: |
本发明提供一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,根据公式 |
||
| 搜索关键词: | 一种 文档 检索 匹配 方法 | ||
【主权项】:
一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:![]()
其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档中出现的次数,dl为待匹配文档的文档长度;所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;所述数据预处理的步骤是:(a)记录文档库中的总文档数N,总文档长度adl,根据公式
计算得出平均文档长度avdl;将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:
记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;(b)获取索引词在查询文档中的词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:![]()
(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1‑b);所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511026068.8/,转载请声明来源钻瓜专利网。





