[发明专利]一种基于标题高频切分的新闻热点短语提取方法有效

申请号：	201710743020.1	申请日：	2017-08-25
公开（公告）号：	CN107562843B	公开（公告）日：	2020-07-14
发明（设计）人：	黄瑞章;刘于雷;梁山雪	申请（专利权）人：	贵州耕云科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/279
代理公司：	北京市盛峰律师事务所 11337	代理人：	席小东
地址：	550000 贵州省贵阳市贵阳国家高新技***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标题高频切分新闻热点短语提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于标题高频切分的新闻热点短语提取方法，其特征在于，包括以下步骤：

步骤1，获取需要分析处理的w篇新闻文章，对所述w篇新闻文章采用增量聚类方法进行聚类，将属于同一新闻话题的新闻文章聚成一类，由此得到p个新闻话题类；

统计每个新闻话题类所包括的新闻文章数量，以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量；即：每个新闻话题类所包括的新闻文章数量越多，则对应的新闻话题热度越高；

对于p个新闻话题类，按照新闻话题热度由高到低的顺序排列，取前m个新闻话题类作为热点话题类；其中，w、p和m均为自然数，m≤p；

步骤2，对于每个所述热点话题类，均执行以下步骤3-步骤7；

步骤3，假设所述热点话题类共包括x篇新闻文章，提取每篇新闻文章的新闻标题，则共提取到x个新闻标题；

对所述x个新闻标题进行去重处理，得到y个新闻标题；其中，x和y均为自然数，y≤x；

步骤4，对于y个新闻标题中的每个新闻标题，进行分词和去停用词处理，得到每个新闻标题所对应的若干个分词；将y个新闻标题得到的所有分词组成集合，记为分词集合；然后，统计每个分词在所述分词集合中的出现次数，即：统计每个分词的词频，筛选出词频最大的前n个分词作为该热点话题类的高频词集；

步骤5，设高频词集为F＝{F₁、F₂...F_n}；其中，n代表高频词集包括的高频词的数量；F₁、F₂...F_n代表高频词集的元素，即各个高频词；E₁、E₂...E_n分别代表F₁、F₂...F_n的词频；

步骤6，对于y个新闻标题中的每个新闻标题，表示为S＝s₁…s_t；其中s_i,i∈[1,t]为新闻标题的分词；S表示新闻标题；t表示新闻标题的分词数量；均采用以下步骤6.1-步骤6.2，得到新闻标题对应的候选短语c：

步骤6.1，判断新闻标题S＝s₁…s_t包含的高频词的数量，如果小于等于1个，则不提取该新闻标题S＝s₁…s_t对应的候选短语；否则，执行步骤6.2；

步骤6.2，使用高频词集F寻找新闻标题S＝s₁…s_t的高频切分边界，并根据切分边界对新闻标题S＝s₁…s_t进行切分，得到候选短语c；

本步骤具体为：

采用下式寻找高频切分左边界位置L和高频切分右边界位置U：

L＝min{i:s_i∈F}

U＝max{i:s_i∈F}

对于新闻标题S＝s₁…s_t，切除高频切分左边界位置L的左侧以及高频切分右边界位置U右侧的分词，然后判断得到的短语的字数是否小于设定阈值，如果是，则切分后得到的短语为候选短语c：

c＝s_L…s_U

步骤7，对于y个新闻标题中的每个新闻标题，采用步骤6的方法处理，得到的各个候选短语c组成候选短语集C；

对所述候选短语集C中的各个候选短语c进行评价，筛选得到评价指数最高的候选短语c，作为与所述热点话题类对应的最佳短语，该最佳短语即是描述对应的热点话题内容的热点短语。

2.根据权利要求1所述的基于标题高频切分的新闻热点短语提取方法，其特征在于，步骤7中，对于每个候选短语c＝s_L…s_U，采用以下方法计算得到对应的评价指数：

步骤7.1，高频词词频占比权重w_c：

其中：的含义为：对于s_L…s_U这U-L+1个分词，筛选出属于高频词集F的所有分词，再计算筛选到的所有分词的词频和；

F_k代表s_L…s_U这U-L+1个分词中，属于高频词集F的分词；

E_j含义为：对于s_L…s_U这U-L+1个分词中的某个属于高频词集F的分词，其对应的词频；

的含义为：高频词集F＝{F₁、F₂...F_n}的n个高频词的词频和；

步骤7.2，高频词数权重w_s：

w_s＝|F∩{s_i:L≤i≤U}|/|F|

其中：|F∩{s_i:L≤i≤U}|含义为：对于s_L…s_U这U-L+1个分词，属于高频词集F的分词种类数量；

|F|含义为：高频词集F＝{F₁、F₂...F_n}的高频词种类数量，即：|F|＝n；

步骤7.3，短语长度权重w_l：

其中，|c|表示候选短语c包含的字数；

步骤7.4，人名地名权重w_e

步骤7.5，短语出现次数count：

在候选短语集C中，被评价的候选短语的出现次数；

因此，候选短语c的评价指数w采用下式计算得到：

w＝count·w_l+w_e+α·w_c+β·w_s；

其中，α为高频词词频占比权重调节因子；β为高频词数权重调节因子。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司，未经贵州耕云科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710743020.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于标题高频切分的新闻热点短语提取方法有效

专利文献下载