[发明专利]一种关键词的识别方法和装置在审
申请号: | 201710672307.X | 申请日: | 2017-08-08 |
公开(公告)号: | CN107463682A | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 李佳 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙)44285 | 代理人: | 聂秀娜 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 识别 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种关键词的识别方法和装置。
背景技术
随着互联网技术的发展,人们之间的沟通交流具有极大的便利性,但与此同时,也给一些恶意用户从事非法活动提供了便利条件。目前将恶意用户从事破坏活动的集合称为黑色产业,简称黑产,而从事黑色产业的人员则称为黑色产业人员。黑色产业包括故意制作与传播计算机病毒、倒卖公民个人信息、架设钓鱼网站、电话诈骗以及短信诈骗等。
目前考虑到黑色产业人员需要通过互联网来传播黑色产业技术,并拓展自己的业务,因此可以通过查找关键词的方式来检测黑色产业人员。但这种方式检测黑色产业人员的准确率主要依赖于关键词是否准确以及关键词覆盖是否全面,黑色产业人员可以通过改换名称这样简单的方式就可以轻易避开关键词检测。
现有技术中查找关键词是基于中文分词方法,利用词频逆文档频率(Term Frequency Inverse Document Frequency,TFIDF)构造关键词的特征,例如短文本包括:洗钱高手、专业洗钱、洗钱小李,基于如上的短文本,关键词“洗钱”的TF值为3,假设其IDF值为3,则关键词“洗钱”的TFIDF特征值为9。
但是上述现有技术中至少存在如下缺陷:通用的分词词库无法解决未录入该词库的关键词发现问题,举例来讲,目前比较常用的洗钱关键词如“洗料”,“洗支付宝”等,通用的分词词库无法识别。另外,通过关键词的TFIDF构造特征工程时,无法在洗钱黑产领域充分挖掘关键词的信息,例如IDF值,即逆文档频率值,只计算了单条短文本在整个语料库的标注能力,而无法区分各个关键词在单条短文本内的重要程度。
发明内容
本发明实施例提供了一种关键词的识别方法和装置,用于准确识别出符合预设类别要求的关键词。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种关键词的识别方法,包括:
使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合,所述候选关键词集合包括:多个候选关键词;
根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵,所述相邻字符包括:在所述文本语料库的上下文中与所述候选关键词的位置相邻的字符;
将所述候选关键词的信息熵作为文本特征训练机器学习模型,将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。
第二方面,本发明实施例还提供一种关键词的识别装置,包括:
关键词收录模块,用于使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合,所述候选关键词集合包括:多个候选关键词;
信息熵计算模块,用于根据所述候选关键词的相邻字符在所述文本语料库中的出现概率计算所述候选关键词的信息熵,所述相邻字符包括:在所述文本语料库的上下文中与所述候选关键词的位置相邻的字符;
机器识别模块,用于将所述候选关键词的信息熵作为文本特征训练机器学习模型,将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。
本申请的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先使用N元语法模型N-Gram从文本语料库中构造出候选关键词集合,候选关键词集合包括:多个候选关键词,然后根据候选关键词的相邻字符在文本语料库中的出现概率计算候选关键词的信息熵,相邻字符包括:在文本语料库的上下文中与候选关键词的位置相邻的字符,最后将候选关键词的信息熵作为文本特征训练机器学习模型,将机器学习模型输出的候选关键词加入预设类别的关键词库中。本发明实施例中可以使用N元语法模型从文本语料库中筛选出多个的候选关键词,从而摆脱了因过去的语言使用习惯和专家判断的方式对分词的束缚,从而筛选出更多的候选关键词,并且本发明实施例中考虑了文本语料库的上下文,通过候选关键词的相邻字符计算出了候选关键词的信息熵,信息熵可用于衡量候选关键词所处语境的丰富程度,从而可以准确度量候选关键词的重要程度,信息熵可作为文本特征训练机器学习模型,使得机器学习模型输出的候选关键词符合预设类别的要求。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710672307.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种待搜题目的识别方法及装置
- 下一篇:代码元素的命名方法及终端设备