[发明专利]一种题目去重方法和计算设备有效
申请号: | 201711261758.0 | 申请日: | 2017-12-04 |
公开(公告)号: | CN107977347B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 宋伟伟;王胜前;李启林;陈李江;刘帅;丁芳宏 | 申请(专利权)人: | 海南云江科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/205;G06F40/284;G06F40/289 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 571924 海南省老*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 题目 方法 计算 设备 | ||
1.一种题目去重方法,适于对初始题组中的多道题目进行去重处理,在计算设备中执行,该方法包括:
分别对初始题组中的多道题目进行预处理操作,得到第一题组;
分别计算第一题组中各题目的哈希值,并对具有同一哈希值的多道题目进行去重处理,得到第二题组,具体包括:记录首次出现的哈希值及该哈希值所对应的题目编号;遍历第一题组中的各题目,当有其他题目的哈希值与已记录的哈希值相同时,则对该相同哈希值的题目进行优先级比较,并保留其中优先级最高的一道题目;
分别计算第二题组中各题目的simhash值,以及各题目的simhash值与其他题目的simhash值之间的相似度;
对于第二题组中的每道题目,按照相似度降序排序的方法提取预定数目个相近题目,得到第三题组;以及
分别统计各题目与其各相近题目之间的字符差异,并根据差异内容对所述第三题组进行去重处理,得到目标题组;
其中,所述第二题组中各题目的simhash值的计算方法包括以下步骤:
分别对第二题组中各题目进行分词处理,并确定每个分词的权重,具体包括,从各题目的文本中得到每个分词的词频信息,采用TF-IDF方法确定每个分词的权重,其中,数字类型的分词的权重大于文字类型的权重;
分别计算各题目中每个分词的哈希值,并结合其分词权重对各哈希值进行加权处理,得到各题目中每个分词的哈希序列串,其中,将哈希值中为1的字节设置为正数权重,将哈希值中为0的字节设置为负数权重;以及
对于每道题目,将其所有分词的哈希序列串中位于同一序列位的数值累加,并对各累加值进行二进制转换,得到各题目的simhash值,其中,累加值的正数转换为1,累加值中的负数转换为0。
2.如权利要求1所述的题目去重方法,其中,所述相似度适于以海明距离、欧式距离或余弦相似度表示。
3.如权利要求1所述的题目去重方法,其中,所述计算设备中维护有差异词表,该差异词表包括各词语的同义词和各表述的同义表述,所述根据差异内容对所述第三题组进行去重处理的步骤包括:
对于数学学科内两道simhash值相近的题目,判断其差异内容是否包含数字类差异,若是则不进行去重处理,反之则进行去重处理;以及
对于其他学科内两道simhash值相近的题目,结合该差异词表判断其差异内容是否为同义词或同义表述,若是则进行去重处理,反之则不进行去重处理。
4.如权利要求1所述的题目去重方法,其中,所述预处理操作包括以下操作中的一种或多种:
去掉网页标记、将中文字符统一转换为英文字符、将各种类型的空格转换为英文空格、将各种字符统一至同一编码、去掉停用词、去掉字符集外的乱码字符。
5.如权利要求4所述的题目去重方法,其中,所述计算设备中维护有映射关系表和停用词表,其中,
所述映射关系表包括不同字符或符号的替换内容,各题目的空格和字符转换操作适于结合该映射关系表进行;
所述去掉停用词的步骤包括:对各题目进行分词处理,并将分词后属于停用词表的词汇去除。
6.如权利要求2所述的方法,其中,各分词的权重适于根据TF-IDF方法确定,所述预定数目为10个。
7.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-6中任一项所述的方法的指令。
8.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南云江科技有限公司,未经海南云江科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711261758.0/1.html,转载请声明来源钻瓜专利网。