[发明专利]一种新闻文本分类方法以及装置在审
申请号: | 201810700701.4 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108829889A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 杨涛;王肃;杨耀威;李彩虹 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 张海洋 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相关度 新闻关键词 新闻文本 分类 领域关键词 分类新闻 文本 关键词提取 表征领域 分类结果 分类需求 预先生成 申请 词汇 弱化 | ||
本申请提供了一种新闻文本分类方法以及装置,该方法包括:对待分类新闻文本进行关键词提取;基于所提取的新闻关键词,与领域相关度词典中所包括的领域关键词之间的相关度,确定提取的新闻关键词与预先生成的领域相关度词典所表征的领域之间的相关度;其中,所述领域关键词包括:领域名称词和/或与该领域名称词所表征领域相关的领域相关词;基于所述新闻关键词与所述领域之间的相关度,确定所述新闻关键词所属待分类新闻文本的分类。本申请实施例能够在弱化词汇的出现频次对分类结果造成的影响的同时,提高分类的精度,满足较高精度的新闻文本分类需求。
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种新闻文本分类方法以及装置。
背景技术
对新闻文本进行分类的方法主要有两种:频次法以及词频-逆文本频率指数(TermFrequency–Inverse Document Frequency,DF-IDF)法。频次法和DF-IDF算法都属于特征提取法。
其中,频次法的分类结果容易受到词汇出现频率的影响。DF-IDF法虽然弱化了词汇出现频次对分类结果造成的影响,但存在分类精度低,所得到的分类过于笼统,针对领域不够明确,无法满足较高精度的分类需求的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种新闻文本分类方法以及装置,能够在弱化词汇的出现频次对分类结果造成的影响的同时,提高分类的精度,满足较高精度的新闻文本分类需求。
第一方面,本申请实施例提供了一种新闻文本分类方法,包括:
对待分类新闻文本进行关键词提取;
基于所提取的新闻关键词,与领域相关度词典中所包括的领域关键词之间的相关度,确定提取的新闻关键词与预先生成的领域相关度词典所表征的领域之间的相关度;其中,所述领域关键词包括:领域名称词和/或与该领域名称词所表征领域相关的领域相关词;
基于所述新闻关键词与所述领域之间的相关度,确定所述新闻关键词所属待分类新闻文本的分类。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:所述领域相关度词典根据下述步骤生成:
从预设平台获取语料;
采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;
从所述关键词集中确定表征各领域的领域名称词;
针对每个领域名称词,根据关键词集中的各关键词与该领域名称词之间的第一相关度,确定该领域名称词对应的关键词集合,并基于确定的关键词集合和该领域名称词生成对应的领域相关度词典。
结合第一方面第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中:针对每个领域名称词,根据关键词集中的各关键词与该领域名称词之间的第一相关度,确定该领域名称词对应的关键词集合,并基于确定的关键词集合和该领域名称词生成对应的领域相关度词典,包括:
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的领域相关度词典;或者
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度达到预设相关度阈值的关键词以及该领域名称词构成的集合确定为对应的领域相关度词典。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中:所述领域关键词包括与领域名称词对应的领域相关词;所述领域相关度词典中还包括领域名称词与各领域相关词之间的第一相关度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810700701.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非关系型数据库文档管理方法及装置
- 下一篇:一种新型信息化数据的整合方法