[发明专利]一种关键词的选取方法及系统有效
| 申请号: | 202110684931.8 | 申请日: | 2021-06-21 |
| 公开(公告)号: | CN113449073B | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 匡海云 | 申请(专利权)人: | 福州米鱼信息科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 黄宏彪 |
| 地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 关键词 选取 方法 系统 | ||
1.一种关键词的选取方法,其特征在于,包括以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词;
步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值;或者,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
2.根据权利要求1所述的一种关键词的选取方法,其特征在于,还包括:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
3.一种关键词的选取系统,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,该程序被处理器执行时实现以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词;
该程序被处理器执行时具体实现以下步骤:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值;或者,该程序被处理器执行时具体实现以下步骤:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
4.根据权利要求3所述的一种关键词的选取系统,其特征在于,该程序被处理器执行时还实现以下步骤:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州米鱼信息科技有限公司,未经福州米鱼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110684931.8/1.html,转载请声明来源钻瓜专利网。





