[发明专利]一种基于可读性指标的信息检索方法有效
| 申请号: | 201510976829.X | 申请日: | 2015-12-21 |
| 公开(公告)号: | CN105630940B | 公开(公告)日: | 2019-03-22 |
| 发明(设计)人: | 张程;宋大为;张鹏;王博;张文雅 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 可读性 指标 信息 检索 方法 | ||
本发明公开了一种基于可读性指标的信息检索方法,使用搜索引擎搜索过程中,对符合搜索条件的文档按照其与查询的关键字的相关度进行排序,同时将符合搜索条件的文档、相关度排序和可读性得分组织成页面返回给用户,文本可读性得分=M×(N×中文平均笔画数+(1‑N)×中文难词频度)+(1‑M)×(P×英文平均字符数+(1‑P)×英文难词频度),M调整中英文可读性的权重配比,N调整中文平均笔画数指标以及中文难词频度指标之间的权重配比,P调整英文平均字符数指标和英文难词频度指标之间的权重配比。本发明通过检索后返回文档的可读性得分,用户便于快速提取相关度较高文档中对于自身而言较为可读的部分,增加检索效率。
技术领域
本发明涉及一种信息检索方法,尤其涉及一种基于可读性指标的信息检索方法。
背景技术
信息检索是指从一个信息资源集中获取与信息需求相关信息资源的活动。在现代社会中,信息检索已成为人们发现与获取知识和信息的重要途径。针对传统信息检索而言,用户在向检索系统提交一系列查询之后,检索系统根据文档与查询之间的“相关性”和超链接结构的“重要性”返回结果列表供用户挑选阅读,具体过程如图1所示,图中展示了传统信息检索交互过程,当用户提交查询给搜索引擎后,搜素引擎根据相关技术,比如有向量空间模型计算文本相似度,根据PageRank算法计算文档权重等来计算出对应于用户提交查询应该返回的对应文档集,然后返回搜索结果给用户。
近来,可读性作为一项新兴指标在文档相关性[1]、质量[2]和实用性[3]评价中占据重要地位。随着网络资源地爆炸式增长以及用户多样化,如何为用户提供既与查询相关又可读的文档已成为亟需解决的问题。用户因教育背景、阅读动机、身体状况等因素,形成了一定程度的阅读能力差异。如图2所示,基于对用户阅读能力的考虑,我们根据个体的差异程度对个体进行聚类形成个体组,图形中用不同的纹理来体现用户之间的差异性,从开始没有用户进行聚类,到按照用户个体间差异聚类后,将用户聚类成不同的个体组,基于这种差异能够对个体进行相关聚类,并且聚类之后依旧存在一定程度群体差异,即相同的文本对于不同个体类而言具有不同的可读性。
由此可见,为提高用户检索体验,将可读性融入到信息检索过程具有重要意义。具体地,针对于搜索引擎初次返回的结果列表,既可以基于文本可读性进行重排序,又可以通过具体可读性标示予以体现,例如:可读性颜色指示(不同颜色代表不同可读性),或者分值界定(根据一些可读性指标计算得到的可读性分值)等。
针对可读性指标已有数十年历史,一些经典的指标已经被广泛接受并利用,例如:金凯德等级水平(Flesch-Kincaid Grade Level)、迷雾指数(FOG Index)、自动可读性指标(Automated Readability Index)等[4]。基于平均字长、平均句长、难词比例等词汇表面基本特征,这些经典的方法具有一定的有效性。近来,为提高可读性计算方法的准确性,一些可读性方法尝试使用机器学习的思想将可读性计算问题转化成分类和预测问题,例如使用支持向量机(Support Vector Machine)[5]、回归(Regression)[6]、插值预测(Interpolation Prediction)[7]等,然而这些方法却难以支持无监督的可读性在线预测。
截至目前,搜索引擎并没有显示标示检索结果相对于用户可读性的功能。
[参考文献]
[1]Zhang Y,Zhang J,Lease M,et al.Multidimensional relevance modelingvia psychometrics and crowdsourcing.Proceedings of the 37th international ACMSIGIR conference on Research&development in information retrieval.ACM,2014:435-444.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510976829.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:判断聚类的用户职业分布方法和装置
- 下一篇:图片推荐方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





