[发明专利]一种基于可读性指标的信息检索方法有效
申请号: | 201510976829.X | 申请日: | 2015-12-21 |
公开(公告)号: | CN105630940B | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 张程;宋大为;张鹏;王博;张文雅 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可读性 指标 信息 检索 方法 | ||
1.一种基于可读性指标的信息检索方法,其特征在于:包括以下步骤:
步骤一、当用户使用搜索引擎以希望查询的关键字进行搜索时,搜索引擎从索引中检索出符合搜索条件的文档;
步骤二、搜索引擎在搜索过程中,对符合搜索条件的文档按照其与查询的关键字的相关度进行排序,同时进行文本可读性得分的计算,将符合搜索条件的文档、相关度排序和可读性得分组织成页面返回给用户;其中可读性得分按照如下方法计算:
文本可读性=M×(N×中文平均笔画数+(1-N)×中文难词频度)+(1-M)×(P×英文平均字符数+(1-P)×英文难词频度)
式中,对于文档中同时出现英文以及中文的情况下,
可调参数M,负责调整对于该文档中中英文可读性的权重配比;
可调参数N,负责调整文档中中文部分的中文平均笔画数指标以及中文难词频度指标之间的权重配比;
可调参数P,负责调整文档中英文部分的英文平均字符数指标和英文难词频度指标之间的权重配比。
2.根据权利要求1所述基于可读性指标的信息检索方法,其特征在于:步骤2中,
可调参数M的值域为[0,1],当文档着重于中文可读性的情况下,M值大于0.5;当文档着重于英文可读性的情况下,M的值小于0.5;
可调参数N的值域为[0,1],当文档着重于中文平均笔画数的情况下,N值大于0.5;当文档着重于中文难词频度的情况下,N的值小于0.5;
可调参数P的值域为[0,1],当文档着重于英文平均字符数的情况下,P值大于0.5;当文档着重于英文难词频度的情况下,P的值小于0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510976829.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:判断聚类的用户职业分布方法和装置
- 下一篇:图片推荐方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置