[发明专利]一种基于标题高频切分的新闻热点短语提取方法有效

专利信息
申请号: 201710743020.1 申请日: 2017-08-25
公开(公告)号: CN107562843B 公开(公告)日: 2020-07-14
发明(设计)人: 黄瑞章;刘于雷;梁山雪 申请(专利权)人: 贵州耕云科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/279
代理公司: 北京市盛峰律师事务所 11337 代理人: 席小东
地址: 550000 贵州省贵阳市贵阳国家高新技*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 标题 高频 切分 新闻 热点 短语 提取 方法
【权利要求书】:

1.一种基于标题高频切分的新闻热点短语提取方法,其特征在于,包括以下步骤:

步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;

统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;

对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;

步骤2,对于每个所述热点话题类,均执行以下步骤3-步骤7;

步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;

对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;

步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;

步骤5,设高频词集为F={F1、F2...Fn};其中,n代表高频词集包括的高频词的数量;F1、F2...Fn代表高频词集的元素,即各个高频词;E1、E2...En分别代表F1、F2...Fn的词频;

步骤6,对于y个新闻标题中的每个新闻标题,表示为S=s1…st;其中si,i∈[1,t]为新闻标题的分词;S表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1-步骤6.2,得到新闻标题对应的候选短语c:

步骤6.1,判断新闻标题S=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题S=s1…st对应的候选短语;否则,执行步骤6.2;

步骤6.2,使用高频词集F寻找新闻标题S=s1…st的高频切分边界,并根据切分边界对新闻标题S=s1…st进行切分,得到候选短语c;

本步骤具体为:

采用下式寻找高频切分左边界位置L和高频切分右边界位置U:

L=min{i:si∈F}

U=max{i:si∈F}

对于新闻标题S=s1…st,切除高频切分左边界位置L的左侧以及高频切分右边界位置U右侧的分词,然后判断得到的短语的字数是否小于设定阈值,如果是,则切分后得到的短语为候选短语c:

c=sL…sU

步骤7,对于y个新闻标题中的每个新闻标题,采用步骤6的方法处理,得到的各个候选短语c组成候选短语集C;

对所述候选短语集C中的各个候选短语c进行评价,筛选得到评价指数最高的候选短语c,作为与所述热点话题类对应的最佳短语,该最佳短语即是描述对应的热点话题内容的热点短语。

2.根据权利要求1所述的基于标题高频切分的新闻热点短语提取方法,其特征在于,步骤7中,对于每个候选短语c=sL…sU,采用以下方法计算得到对应的评价指数:

步骤7.1,高频词词频占比权重wc

其中:的含义为:对于sL…sU这U-L+1个分词,筛选出属于高频词集F的所有分词,再计算筛选到的所有分词的词频和;

Fk代表sL…sU这U-L+1个分词中,属于高频词集F的分词;

Ej含义为:对于sL…sU这U-L+1个分词中的某个属于高频词集F的分词,其对应的词频;

的含义为:高频词集F={F1、F2...Fn}的n个高频词的词频和;

步骤7.2,高频词数权重ws

ws=|F∩{si:L≤i≤U}|/|F|

其中:|F∩{si:L≤i≤U}|含义为:对于sL…sU这U-L+1个分词,属于高频词集F的分词种类数量;

|F|含义为:高频词集F={F1、F2...Fn}的高频词种类数量,即:|F|=n;

步骤7.3,短语长度权重wl

其中,|c|表示候选短语c包含的字数;

步骤7.4,人名地名权重we

步骤7.5,短语出现次数count:

在候选短语集C中,被评价的候选短语的出现次数;

因此,候选短语c的评价指数w采用下式计算得到:

w=count·wl+we+α·wc+β·ws

其中,α为高频词词频占比权重调节因子;β为高频词数权重调节因子。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司,未经贵州耕云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710743020.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top