[发明专利]一种新闻分类方法和系统有效
申请号: | 202011547928.3 | 申请日: | 2020-12-24 |
公开(公告)号: | CN113010669B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 史云飞;伊文超;赵国强;朱利霞 | 申请(专利权)人: | 华戎信息产业有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/951;G06F40/242;G06F40/289;G06K9/62 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 朱晓熹 |
地址: | 250000 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 分类 方法 系统 | ||
本发明公开一种新闻分类方法和系统,其中,新闻分类方法包括:根据新闻的分类需求,定义新闻的分类目录,其中,所述分类目录包括新闻类别;根据所述分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词;获取待分类新闻,提取所述待分类新闻的多种分类特征;分别根据每种所述分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别。本发明的技术方案能够解决现有技术中新闻分类准确率低的问题。
技术领域
本发明涉及文本分类技术领域,具体为一种新闻分类方法和系统。
背景技术
文本分类是指按照预先设定的主题类别,使用计算机将一篇或多篇文章归于预先设定的某一类或几类文档集合的过程。文本分类是文本挖掘的重要内容和方式。
现有的新闻分类方式是按照一定的分类体系或分类标准进行分类的;其中,新闻的种类包括时政新闻、娱乐新闻和体育新闻等。新闻的分类方法很多,通常能够根据新闻文本的某些关键词判断该新闻所属的类别。具体地,目前各大企业用户通常会将新闻分为特定的种类,然后使用相应的计算机软件提取新闻中的关键词,然后将该关键词与各个新闻种类对应的关键词进行匹配,若匹配成功,则将该新闻划分到该种类之下。
上述新闻分类方式仅仅是通过匹配关键词的方式进行新闻分类的,然而相同词义的关键词,其形式可能存在较大差别,因此仅仅通过匹配关键词的方式其匹配成功率较低,这样就导致新闻分类的准确性较差。
发明内容
本发明提供一种新闻分类方法和系统,旨在解决现有技术关键词匹配成功率较低,新闻分类的准确性较差的问题。
为解决上述问题,本发明提供了一种新闻分类方法,包括:
根据新闻的分类需求,定义新闻的分类目录,其中,分类目录包括新闻类别;
根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词;
获取待分类新闻,提取待分类新闻的多种分类特征;
分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别。
优选地,上述根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词的步骤包括:
分别为分类目录中每一层级的新闻类别设置对应的核心词典,其中,核心词典包括核心分类关键词;
使用核心分类关键词检索新闻,从新闻中提取与核心分类关键词对应的关键词,作为扩充分类关键词;
使用扩充分类关键词,分别为分类目录中每一层级的新闻类别设置扩充词典;
融合核心词典中的核心分类关键词与扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的分类关键词。
优选地,上述分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别的步骤,包括:
计算待分类新闻中的特征关键词与分类关键词之间的关键词相似度;
计算待分类新闻中的实体信息与分类关键词之间的实体相似度;
计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度;
分别根据待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定待分类新闻所属的新闻类别。
优选地,上述计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度的步骤,包括:
查找待分类新闻中与特征向量中分类关键词的词义相同的词语,作为特征关键词;
根据特征关键词在待分类新闻中出现的频率,计算特征关键词的分类权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华戎信息产业有限公司,未经华戎信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011547928.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:窗台防水方法及技术
- 下一篇:一种魔芋种植室的温控系统