[发明专利]热词的处理方法和装置在审
| 申请号: | 201511001435.9 | 申请日: | 2015-12-28 |
| 公开(公告)号: | CN106919627A | 公开(公告)日: | 2017-07-04 |
| 发明(设计)人: | 李新国 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 韩建伟,朱晓飞 |
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 处理 方法 装置 | ||
技术领域
本申请涉及计算机领域,具体而言,涉及一种热词的处理方法和装置。
背景技术
在对一些话题进行分析时,通常都会需要统计话题中的热词,热词是指在与话题相关的文本中出现次数达到一定百分比的N个词。而在统计热词的过程中经常会遇到相同领域下,不同话题间的热词相似度很大的情况,以及一些该领域常见的热词会在该领域下的几乎所有话题中都会出现的情况。例如分析法律案件的话题时,无论话题是离婚案件还是交通事故案件或者民事纠纷案件,都会出现诸如“原告”、“被告”等词,此类词在所有法律案件的话题中都会出现,因此上述热词的特征程度较低,为非特征词。所以对于表述某个法律案件的话题的特征没有帮助,需要去除掉。现有技术中,通过人工统计的方式将所有话题中都出现的热词删除掉,上述人工统计的方式有如下缺点:第一,人工统计容易发生遗漏;第二,人工统计的准确度不高;第三,人工统计耗时较长。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种热词的处理方法和装置,以至少解决现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题。
根据本申请实施例的一个方面,提供了一种热词的处理方法,包括:对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;将所述多个分词进行聚类,得到多个聚类结果集;计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及从统计出的与所述目标标签相关联的热词中删除所述目标分词。
进一步地,计算所述多个分词中的每个分词在聚类集合中的熵值包括:计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个分词的数量,j依次取1至m(i),m(i)为所述分词Ai对应的目标聚类结果集的数量之和,所述目标聚类结果集Bij为所述多个聚类结果集中包含所述分词Ai的聚类结果集;根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值。
进一步地,根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值包括:根据公式计算所述分词Ai在所述聚类集合中的熵值,其中,HAi为所述分词Ai在所述聚类集合中的熵值。
进一步地,计算分词Ai在目标聚类结果集Bij中出现的概率Pij包括:统计所述分词Ai在所述目标聚类结果集Bij中出现的次数Cij;获取所述目标聚类结果集Bij中包含的分词的总出现次数Cij';根据所述次数Cij和所述总出现次数Cij'计算所述分词Ai在所述目标聚类结果集Bij中出现的概率Pij。
进一步地,在对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词之前,所述方法还包括:将从所述目标标签的文本中爬取到的文本内容作为所述目标语料。
进一步地,在从所述多个分词中筛选出熵值大于所述预设阈值的分词,得到目标分词之后,所述方法还包括:根据所述目标分词生成热词黑名单。
根据本申请实施例的另一方面,还提供了一种热词的处理装置,包括:分词单元,用于对从目标标签的文本中获取到的目标语料进行分词处理,得到多个分词;聚类单元,用于将所述多个分词进行聚类,得到多个聚类结果集;计算单元,用于计算所述多个分词中的每个分词在聚类集合中的熵值,其中,所述熵值用于表征所述分词的特征程度,所述聚类集合为所述多个聚类结果集的集合;筛选单元,用于从所述多个分词中筛选出熵值大于预设阈值的分词,得到目标分词;以及删除单元,用于从统计出的与所述目标标签相关联的热词中删除所述目标分词。
进一步地,所述计算单元包括:第一计算模块,用于计算分词Ai在目标聚类结果集Bij中出现的概率Pij,其中,i依次取1至n,n为所述多个分词的数量,j依次取1至m(i),m(i)为所述分词Ai对应的目标聚类结果集的数量之和,所述目标聚类结果集Bij为所述多个聚类结果集中包含所述分词Ai的聚类结果集;第二计算模块,用于根据概率Pi1至概率Pim(i)计算所述分词Ai在所述聚类集合中的熵值。
进一步地,所述第二计算模块包括:第一计算子模块,用于根据公式计算所述分词Ai在所述聚类集合中的熵值,其中,HAi为所述分词Ai在所述聚类集合中的熵值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511001435.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和装置以及数据查询方法和装置
- 下一篇:嵌入备用照明灯的吊顶





