[发明专利]一种基于标题高频切分的新闻热点短语提取方法有效

专利信息
申请号: 201710743020.1 申请日: 2017-08-25
公开(公告)号: CN107562843B 公开(公告)日: 2020-07-14
发明(设计)人: 黄瑞章;刘于雷;梁山雪 申请(专利权)人: 贵州耕云科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/279
代理公司: 北京市盛峰律师事务所 11337 代理人: 席小东
地址: 550000 贵州省贵阳市贵阳国家高新技*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于标题高频切分的新闻热点短语提取方法,包括以下步骤:对于每个热点话题类,提取新闻标题;对新闻标题进行分词,统计每个分词的词频,筛选出词频最大的前n个分词作为高频词集;使用高频词集寻找新闻标题的高频切分边界,并根据切分边界对新闻标题进行切分,得到候选短语;由此得到候选短语集;对候选短语集中的各个候选短语进行评价,筛选得到评价指数最高的候选短语,作为最佳短语。优点为:能够对每个热点话题提取出一个精简、准确描述话题内容的热点短语,对当前新闻热点话题内容的快速概括和有效展现提供了解决方案,提高了信息的展现和用户获取信息的效率。
搜索关键词: 一种 基于 标题 高频 切分 新闻 热点 短语 提取 方法
【主权项】:
一种基于标题高频切分的新闻热点短语提取方法,其特征在于,包括以下步骤:步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;步骤2,对于每个所述热点话题类,均执行以下步骤3‑步骤7;步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;步骤5,设高频词集为F={F1、F2...Fn};其中,n代表高频词集包括的高频词的数量;F1、F2...Fn代表高频词集的元素,即各个高频词;E1、E2...En分别代表F1、F2...Fn的词频;步骤6,对于y个新闻标题中的每个新闻标题,表示为S=s1…st;其中si,i∈[1,t]为新闻标题的分词;S表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1‑步骤6.2,得到新闻标题对应的候选短语c:步骤6.1,判断新闻标题S=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题S=s1…st对应的候选短语;否则,执行步骤6.2;步骤6.2,使用高频词集F寻找新闻标题S=s1…st的高频切分边界,并根据切分边界对新闻标题S=s1…st进行切分,得到候选短语c;本步骤具体为:采用下式寻找高频切分左边界位置L和高频切分右边界位置U:L=min{i:si∈F}U=max{i:si∈F}对于新闻标题S=s1…st,切除高频切分左边界位置L的左侧以及高频切分右边界位置U右侧的分词,然后判断得到的短语的字数是否小于设定阈值,如果是,则切分后得到的短语为候选短语c:c=sL…sU步骤7,对于y个新闻标题中的每个新闻标题,采用步骤6的方法处理,得到的各个候选短语c组成候选短语集C;对所述候选短语集C中的各个候选短语c进行评价,筛选得到评价指数最高的候选短语c,作为与所述热点话题类对应的最佳短语,该最佳短语即是描述对应的热点话题内容的热点短语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司,未经贵州耕云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710743020.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top