[发明专利]一种基于关键词解析的试题网络排重检索办法有效
| 申请号: | 201810679402.7 | 申请日: | 2018-06-27 |
| 公开(公告)号: | CN109241395B | 公开(公告)日: | 2021-08-03 |
| 发明(设计)人: | 许楚平 | 申请(专利权)人: | 广州市南方人力资源评价中心有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33;G06F40/289 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510000 广东省广州市番禺区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 关键词 解析 试题 网络 检索 办法 | ||
1.一种基于关键词解析的试题网络排重检索办法,其特征在于:具体包括以下步骤:
S1、文本字数判断:将需要排重的文本进行字数统计,并进行判断,以文本字数超过500字为依据将文本分为两类;
S2、文本智能分词:当步骤S1中的文本字数被判断为不超过500字时,采用IK-Analyzer对文本进行智能分词,并统计词频;
S3、提取关键词:将完成步骤S2的文本中的分词进行分析,提取主要关键词;
S4、截取文本:当步骤S1中的文本字数被判断为超过500字时,随机截取10段38字的文本;
S5、生成关键词列表:将完成步骤S3的关键词或完成步骤S4截取的文本提取关键词,生成关键词列表;
S6、网络排重:通过词频和自定义考试业务关键词,对分词结果进行自动分析,生成关键词信息,并默认提取最主要的15个关键词进行网络排重;
S7、原题与排重结果进行相似度分析:把原题和排重结果进行相似度分析,计算出相似度数值;
S8、排重结果自定义排序展示:用户可选择相似度排序或网络原始排序,进行结果展示。
2.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述步骤S1中提到的文本分为两类,一类为超过500字的文本,另一类为不超过500字的文本。
3.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述步骤S2中提到的IK-Analyzer,所述IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
4.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S3以及S5中提到的关键词为出题人设置的主要知识点关键词,在题库系统中,每一道试题都有所属的测评要素。
5.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S4中提到的截取10段38字的文本,38个字是网络排重支持的最长长度,在排重时,也可以选择30至38区间的字数进行截取,且此文本字数长度不超过试题总长度的20%。
6.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S5中提到的生成关键词列表,测评要素关键词结合智能分词关键词,如果智能分词关键词中存在于测评要素关键词,则优先提取,并按词频排序,词频高的排在前面,其余的智能分词关键词同样按词频紧随着排在后面。
7.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S6中提到的默认提取最主要的15个关键词进行网络排重,其中15个关键词为关键词表中默认排序前15个关键词,用户也可根据需要选取其他关键词进行搜索。
8.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S7中提到的把原题和排重结果进行相似度分析,本地服务器拿到网络排重结果后,将试题原题和网络结果进行文本相似度分析,利用开源算法计算出相似度,提供相似度排序,把相似度高的结果靠前排列,显示前20条结果,迅速定位分析。
9.根据权利要求1所述的一种基于关键词解析的试题网络排重检索办法,其特征在于:所述S3中对试题关键词的搜索排重后,得到一个排重结果,此结果如未发现有文本相似度超过60%的结果,则采用截取的文本的方式进行网络第二次排重,对相似度超过60%的结果合并到第一次排重的结果中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市南方人力资源评价中心有限公司,未经广州市南方人力资源评价中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810679402.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在线查询系统
- 下一篇:一种规避空气中过敏原的目的地选择方法和装置





