[发明专利]一种基于人工智能的文本挖掘方法、相关装置及设备有效
申请号: | 202011001027.4 | 申请日: | 2020-09-22 |
公开(公告)号: | CN111931501B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 蒋杰;杜广雷;石志林;张长旺;张纪红 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N20/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 文本 挖掘 方法 相关 装置 设备 | ||
本申请公开了一种基于人工智能的文本挖掘方法,该方法可涉及大数据领域,本申请包括:获取领域候选词所对应的领域候选词特征;根据领域候选词特征,获取领域候选词所对应的词质量分值;根据领域候选词所对应的词质量分值确定新词;根据新词获取关联文本;若根据关联文本确定领域种子词满足领域新词挖掘条件,则确定领域种子词为领域新词。本申请可以基于机器学习算法自动从领域候选词中筛选出新词,避免了人工设定大量特征阈值的过程,从而降低了人工成本,由此,能够很好地适应互联网时代快速出现的特异化新词。
技术领域
本申请涉及自然语言处理领域以及大数据处理领域,尤其涉及一种基于人工智能的文本挖掘方法、相关装置及设备。
背景技术
在自然语言处理(Nature Language processing,NLP)研究领域中,词语一直是重要的研究对象。在中文环境下,词语之间并无明显的分割字符,主要借助已有词库和统计规则进行分词。随着社会和社交网络的发展,人们使用语言文字的习惯也发生着变化,这使得新词层出不穷。为此,新词发现成为NLP处理中一项重要的任务。
目前,可基于统计方法发现新词,该方法首先需要获取候选词,然后根据候选词统计特征值得出成词概率,在实践中,通常结合凝固度和自由度作为候选词的统计特征,即选择凝固度和自由度超过一定特征阀值的候选词作为新词。
然而,在不同的领域中,文本的内容和长短差别非常大,例如,词语“王者”在新闻中的统计特征与社交群组名称上的统计特征差异很大。因此,基于统计方法发现新词往往需要人工设定大量特征阀值,从而导致人工成本较高。
发明内容
本申请实施例提供了一种基于人工智能的文本挖掘方法、相关装置及设备,可以采用机器学习算法通过领域候选词筛选出新词,避免了人工设定大量特征阈值的过程,从而降低了人工成本,由此,能够很好地适应互联网时代快速出现的特异化新词。
有鉴于此,本申请一方面提供一种基于人工智能的文本挖掘方法,包括:
获取领域候选词所对应的领域候选词特征;
根据领域候选词特征,获取领域候选词所对应的词质量分值;
根据领域候选词所对应的词质量分值确定新词;
根据新词获取关联文本;
若根据关联文本确定领域种子词满足领域新词挖掘条件,则确定领域种子词为领域新词。
本申请另一方面提供一种文本挖掘装置,包括:
获取模块,用于获取领域候选词所对应的领域候选词特征;
获取模块,还用于根据领域候选词特征,获取领域候选词所对应的词质量分值;
确定模块,用于根据领域候选词所对应的词质量分值确定新词;
获取模块,还用于根据新词获取关联文本;
确定模块,还用于若根据关联文本确定领域种子词满足领域新词挖掘条件,则确定领域种子词为领域新词。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
获取模块,具体用于从领域语料库中获取语句;
对语句中的每个语句进行分词处理,得到文本序列;
根据文本序列获取领域候选词;
根据领域候选词获取领域候选词特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011001027.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防伪检测方法及装置
- 下一篇:一种防伪检测方法及装置