[发明专利]一种基于人工智能的文本挖掘方法、相关装置及设备有效

申请号：	202011001027.4	申请日：	2020-09-22
公开（公告）号：	CN111931501B	公开（公告）日：	2021-01-08
发明（设计）人：	蒋杰;杜广雷;石志林;张长旺;张纪红	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06N20/00
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	李杭
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于人工智能文本挖掘方法相关装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于人工智能的文本挖掘方法，该方法可涉及大数据领域，本申请包括：获取领域候选词所对应的领域候选词特征；根据领域候选词特征，获取领域候选词所对应的词质量分值；根据领域候选词所对应的词质量分值确定新词；根据新词获取关联文本；若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。本申请可以基于机器学习算法自动从领域候选词中筛选出新词，避免了人工设定大量特征阈值的过程，从而降低了人工成本，由此，能够很好地适应互联网时代快速出现的特异化新词。

技术领域

本申请涉及自然语言处理领域以及大数据处理领域，尤其涉及一种基于人工智能的文本挖掘方法、相关装置及设备。

背景技术

在自然语言处理（Nature Language processing，NLP）研究领域中，词语一直是重要的研究对象。在中文环境下，词语之间并无明显的分割字符，主要借助已有词库和统计规则进行分词。随着社会和社交网络的发展，人们使用语言文字的习惯也发生着变化，这使得新词层出不穷。为此，新词发现成为NLP处理中一项重要的任务。

目前，可基于统计方法发现新词，该方法首先需要获取候选词，然后根据候选词统计特征值得出成词概率，在实践中，通常结合凝固度和自由度作为候选词的统计特征，即选择凝固度和自由度超过一定特征阀值的候选词作为新词。

然而，在不同的领域中，文本的内容和长短差别非常大，例如，词语“王者”在新闻中的统计特征与社交群组名称上的统计特征差异很大。因此，基于统计方法发现新词往往需要人工设定大量特征阀值，从而导致人工成本较高。

发明内容

本申请实施例提供了一种基于人工智能的文本挖掘方法、相关装置及设备，可以采用机器学习算法通过领域候选词筛选出新词，避免了人工设定大量特征阈值的过程，从而降低了人工成本，由此，能够很好地适应互联网时代快速出现的特异化新词。

有鉴于此，本申请一方面提供一种基于人工智能的文本挖掘方法，包括：

获取领域候选词所对应的领域候选词特征；

根据领域候选词特征，获取领域候选词所对应的词质量分值；

根据领域候选词所对应的词质量分值确定新词；

根据新词获取关联文本；

若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。

本申请另一方面提供一种文本挖掘装置，包括：

获取模块，用于获取领域候选词所对应的领域候选词特征；