[发明专利]一种从多类文本中提取关键词的方法在审
| 申请号: | 202010266133.9 | 申请日: | 2020-04-07 |
| 公开(公告)号: | CN111401056A | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 元方;唐小波 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N20/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 201613 上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 提取 关键词 方法 | ||
本发明公开了一种从多类文本中提取关键词的方法,包括以下步骤:步骤一,文本按类收集;步骤二,关键词按类提取;步骤三,关键词合并;步骤四,关键词精选;将相同类型的文档放到一个集合中,各个类别的文本集合记为D1,D2,D3等,利用关键词提取器提取每个类别下所有文档的关键词,在自然语言处理领域,关键词的提取比较重要,它的应用不限于文本的摘要或者信息的检索或者文本的分类或者文本相似的比较等;本发明是从多个类文本中提取关键词的方法,该过程不依赖昂贵的多次迭代计算,增加软件的运行效率,更加不需要额外的有监督学习的标注工作,还可以应用于初筛关键词的基础上再次精确提取。
技术领域
本发明涉及自然语言处理技术领域,具体为一种从多类文本中提取关键词的方法。
背景技术
关键词该概括了文本主要内容,能帮助人们或者机器学习算法的下游任务能快速获取文本主要信息;另外,提取关键词在信息技术领域也存在广泛地应用,例如,信息检索等;目前,除了形式规范的科技文档提供了关键词外,大部分文档都没有配有关键词;传统依靠人工去阅读文本,然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需求;因此,如何自动并且准确的提取关键词是当前急需解决的一个问题;目前自动提取关键词的方法很多,大致分为统计学方法和机器学习方法两大类;
1)基于统计方法,主要计算词与上下文环境的词出现次数来实现,在自然语言处理界比较典型的有TF-IDF、textRank、Rake等;这类方法的效果比较突出,但是缺少语义层的与文本主题关联,作为关键词初筛比较推荐;
2)机器学习方法中,又分无监督学习(聚类)和有监督学习,但都依赖大量的计算资源;其中无监督方法,依赖于文本向量化(文本转换为数字过程)的准确性,再词基础上用K-means、DBSCAN、BIRCH等,当文本向量维度大时,还需要额外降低维度计算,有监督方法准确率高,但是缺点很明显,需要标注大量数据;国内外的论文中,效果比较好的方法是引入CRF获取关键词;
本发明,可以自动提取类关键词,该过程不依赖大量的计算资源,也不需要标注数据,又可以对初筛的关键词进一步精确提取。
发明内容
本发明的目的在于提供一种从多类文本中提取关键词的方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种从多类文本中提取关键词的方法,包括以下步骤:步骤一,文本按类收集;步骤二,关键词按类提取;步骤三,关键词合并;步骤四,关键词精选;
其中在上述步骤一中,将相同类型的文档放到一个集合中,各个类别的文本集合记为D1,D2,D3等;
其中在上述步骤二中,利用关键词提取器提取每个类别下所有文档的关键词,关键词提取器可以利用上述机器学习方法实现,也可以利用上述统计学方法实现,此步骤不为本发明重点介绍内容,此次发明暂使用textrank与tfidf等多模型融合实现的关键词提取器,每个类别的候选关键词集合用s1,s2,s3...表示
其中在上述步骤三中,此时通过关键词提取器内部的set(key1,key2...)集合中的add()方法将每个文档的候选关键词进行合并,然后通过set()集合的编程算法对候选关键词进行去重操作,将重复的候选关键词进行删除,此时剔除的词一般都为文本集中停用词,而停用词是在自然语言处理中为无作用词,而且会消耗过多的内存占用,特别在机器学习模型中表现为冗余,当单独分析一类文本时,停用词还会引入很多干扰信息,某个类的关键词,只应该出现在该类的文本中;具体类别的文本中的关键词,只应该出现在该类的文本中;反之,如果某类文本的关键词,又出现在其他类的文本中,则该词跟多个主题相关联,这种情况是相矛盾的;要精准的找出每个类别文本中,与该类强相关的词,就不应该出现在其他类的文章,保证每个词只出现一次,这样生成的集合为全文档的候选关键词集合,用S表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010266133.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:皮带传动的摆板式波浪能发电装置
- 下一篇:大气污染监测系统的数据校准系统





