[发明专利]一种众包TOP-k查询中的降低成本方法有效
| 申请号: | 201811097218.8 | 申请日: | 2018-09-19 |
| 公开(公告)号: | CN109254983B | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 崔宗敏;高宇;喻静 | 申请(专利权)人: | 九江学院 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
| 代理公司: | 南昌新天下专利商标代理有限公司 36115 | 代理人: | 谢德珍 |
| 地址: | 332000 *** | 国省代码: | 江西;36 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 top 查询 中的 降低成本 方法 | ||
一种众包TOP‑k查询中的降低成本方法,该方法包括以下步骤:首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好;再根据所获得偏好包对项目进行选择分区排序;最后得到最终的top‑k结果。该方法减少了比较工作量,从而达到降低成本的目的。
技术领域
本发明涉及一种众包TOP-k查询中的降低成本方法。
背景技术
近期,众包被用于多种数据库查询,包括最大值查询、连接查询和Top-k查询。在本文中,主要收集众包Top-k查询。其中,人们对项目集的排序结果产生决定性作用。Top-k查询已经应用于很多方面如,在线翻译,药品不良反映评估,排行榜等等。
众包Top-k查询对计算机不擅长,但是人们可以给出更好的回答的事情。这些大多都需要一定的知识或者自然感情来判别。这些都是计算机无法给出判断但对拥有响应能力的人们来说是一件极其简单的事情。它主要分为两大部分内容,首先通过众包平台将若干小任务分发给用户,用户根据任务作出判断并反馈;其次再通过本文发明方法对反馈答案进行排序得出Top-k。
现有几种方法被用于判断,比较简单的方法是,让用户对所有项进行判断,然后通过收集判断进行排名,最后返回最好的k个项目的排序。这个方法需要复杂的用户界面,并且从用户的角度讲不是十分便利。另一种方法是,让用户对所有项进行分级,然后和平均等级相比,返回最好的k项。然而,分级判断规模不同,众包只会让结果更加难以获得,分级判断则很难校准(每个用户的分数公平化)。所以,近期的众包top-k查询处理主要被用于两两判断,两两偏好判断只需比较两项之间的偏好值,可以降低人为误差。这些方法都存在一定问题使得比较工作量大,成本更高。因此一种可以降低成本的方法的出现是很有意义的。
发明内容
本发明其目的就在于提供一种众包TOP-k查询中的降低成本方法,解决了现有技术方法存在使得比较工作量大,成本更高的问题。
为实现上述目的而采取的技术方案是,一种众包TOP-k查询中的降低成本方法,该方法包括以下步骤:
(1)首先将问题分成若干个小任务,通过众包平台发布给用户进行评分,得到用户判断的偏好:将问题分成若干个小任务,通过众包平台发布给用户进行评分,每个项目采用分级判断评分规则,即每个用户给每个项目打分,分值必须在一个评分区间V(G*i,G*j)∈[-1,1],分值代表了该用户在这两项中判断的偏好;显然,假如每个用户给出的评分机制不同,那所得评分相差太大,得出的结果是不符合实际的,其绝对值表明其偏爱程度,对G*i,G*j所有的比较完成后,产生了Wi,j的工作量,相应产生一个偏好值包Vi,j={V1(Gi,Gj),……,VWi,j(Gi,Gj);
(2)再根据所获得偏好包对项目进行选择分区排序:选择分区排序的步骤为:(a)在所有候选项中选择出一个参考项r:在项目候选集中进行随机抽取m组样本,选择每一组中的最大值,再在这m个最大值中选择中值作为参考项r;(b)候选项基于r项做比较,将所有候选项分区;(c)将最后的分区根据k值进行排序;
(3)最后得到最终的top-k结果。
所述的步骤(2)中,在选择了参考项r之后,利用选择分区排序算法,将所有候选项依次和r比较,得到的结果将分成三组:优于r的Wr,和r相近的Lr,比r差的Tr;其中和r相近的是,由于比较值几乎相等,导致无法确定排名,这样的项成为相近,假设不考虑相近问题,且每两组项都可以在预计的工作量中完成比较,得出结果;在选择了一个恰当的r之后,r仍然可以修剪无结果的项。
有益效果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于九江学院,未经九江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811097218.8/2.html,转载请声明来源钻瓜专利网。





