[发明专利]一种关键词的选取方法及系统有效
| 申请号: | 202110684931.8 | 申请日: | 2021-06-21 |
| 公开(公告)号: | CN113449073B | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 匡海云 | 申请(专利权)人: | 福州米鱼信息科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 黄宏彪 |
| 地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 关键词 选取 方法 系统 | ||
本发明涉及数据处理技术领域,尤其涉及一种关键词的选取方法及系统。通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词,能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种关键词的选取方法及系统。
背景技术
目前,对于文本中的关键词的选取方法通常是筛选出该文本中所包含的高频词汇,将高频词汇作为关键词以供读者检索使用,然而,仅凭高频词汇这一因素作为关键词的选取条件,往往不能全面地反映出该文本的核心思想,即高频词汇不相当于核心关键词,因此,不利于读者的阅读效果。
发明内容
本发明所要解决的技术问题是:提供一种全新的关键词的选取方法及系统,能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
为了解决上述技术问题,本发明采用的一技术方案为:
一种关键词的选取方法,包括以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
本发明采用的另一技术方案为:
一种关键词的选取系统,包括一个或多个处理器及存储器,所述存储器存储有程序,该程序被处理器执行时实现以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
本发明的有益效果在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州米鱼信息科技有限公司,未经福州米鱼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110684931.8/2.html,转载请声明来源钻瓜专利网。





