[发明专利]一种文本分类方法及装置在审
| 申请号: | 201811223396.0 | 申请日: | 2018-10-19 | 
| 公开(公告)号: | CN111078867A | 公开(公告)日: | 2020-04-28 | 
| 发明(设计)人: | 曾宪鹏;杨锦娜 | 申请(专利权)人: | 北京国双科技有限公司 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 | 
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜;王宝筠 | 
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
本申请公开了一种文本分类方法及装置,该方法包括:在从不同收集渠道收集到各个分别描述一个事件的文本后,判断预先构建的文本分类库中是否存在每个文本所描述的事件对应的事件文本集合,若存在,则将描述该事件的文本对应分配至相应地事件文本集合中,若不存在,则可以在文本分类库中为描述该事件的文本创建一个新的事件文本集合,再将描述该事件的文本分配至该新的事件文本集合中。可见,本申请在获取到描述某一事件的文本后,通过对文本分类库中是否存在该事件对应的事件文本集合进行判断,再根据判断结果,将该文本分配至对应事件下的事件文本集合中,进而可以将与该事件相关的各个文本进行聚类,丰富该事件对应的事件文本集合。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类方法及装置。
背景技术
目前,从事新闻挖掘和编辑工作的新闻工作者,非常关注新闻的价值性,因此,如何把突发的一些社会型的重大新闻进行及时捕获,以达到进一步追踪采访的目的,是当前需要解决的问题。
然而,现有技术方案一般是基于普通舆情来进行新闻捕获,具体地,新闻工作者在获知某新闻事件后,会通过大数据平台进行关键词搜索,从而得到与该关键字相关的新闻事件。但是,新闻工作者只能在已知某个新闻事件的基础上做进一步报道,而无法第一时间获知某个突发事件的未知新闻,更不能全面的获取某个新闻事件的全部素材。
发明内容
本申请实施例的主要目的在于提供一种文本分类方法及装置,能够将与同一事件相关的各个文本进行聚类。
本申请实施例提供了一种文本分类方法,包括:
从不同收集渠道收集待分类的各个文本,所述文本是描述一个事件的文本;
判断预先构建的文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,所述文本分类库包括不同具体事件对应的不同事件文本集合,所述事件文本集合包括描述对应具体事件的各个文本;
若存在,则将所述文本分配至其所描述的事件所对应的事件文本集合中;
若不存在,则在所述文本分类库中为所述文本创建一个新的事件文本集合,并将所述文本分配至所述新的事件文本集合中。
可选的,所述文本分类库包括不同事件类型对应的类型文本集合,所述类型文本集合包括相应事件类型下的不同具体事件对应的不同事件文本集合。
可选的,所述判断文本分类库中是否存在每个所述文本所描述的事件对应的事件文本集合,包括:
确定每个所述文本所描述的事件所属的事件类型;
将每个文本与其所描述的事件所属事件类型下的不同事件文本集合进行匹配,得到该文本对应于每一事件文本集合的集合匹配度;
从各个集合匹配度中选择最大匹配度,并判断所述最大匹配度是否大于预设匹配阈值;
若是,则确定所述最大匹配度对应的事件文本集合为该文本所描述的事件对应的事件文本集合,若否,则不存在所述事件对应的事件文本集合。
可选的,所述确定每个所述文本描述的事件所属的事件类型,包括:
将所述文本的标题进行分词处理,得到各个第一词语;
将各个第一词语与预先构建的词库进行匹配,所述词库包括所述不同事件类型下对应的不同词语集合;
将匹配度最高的词语集合对应的事件类型,作为所述事件所属的事件类型。
可选的,所述方法还包括:
若通过所述文本的标题未匹配到所述事件所属的事件类型,则将所述文本的正文进行分词处理,得到各个第二词语;
将各个第二词语与所述词库中的各个词语集合进行匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811223396.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:进气装置、进气方法及半导体加工设备
 - 下一篇:一种拆牌方法和装置
 





