[发明专利]一种基于标题高频切分的新闻热点短语提取方法有效
申请号: | 201710743020.1 | 申请日: | 2017-08-25 |
公开(公告)号: | CN107562843B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 黄瑞章;刘于雷;梁山雪 | 申请(专利权)人: | 贵州耕云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 550000 贵州省贵阳市贵阳国家高新技*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标题 高频 切分 新闻 热点 短语 提取 方法 | ||
1.一种基于标题高频切分的新闻热点短语提取方法,其特征在于,包括以下步骤:
步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;
统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;
对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;
步骤2,对于每个所述热点话题类,均执行以下步骤3-步骤7;
步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;
对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;
步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;
步骤5,设高频词集为F={F1、F2...Fn};其中,n代表高频词集包括的高频词的数量;F1、F2...Fn代表高频词集的元素,即各个高频词;E1、E2...En分别代表F1、F2...Fn的词频;
步骤6,对于y个新闻标题中的每个新闻标题,表示为S=s1…st;其中si,i∈[1,t]为新闻标题的分词;S表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1-步骤6.2,得到新闻标题对应的候选短语c:
步骤6.1,判断新闻标题S=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题S=s1…st对应的候选短语;否则,执行步骤6.2;
步骤6.2,使用高频词集F寻找新闻标题S=s1…st的高频切分边界,并根据切分边界对新闻标题S=s1…st进行切分,得到候选短语c;
本步骤具体为:
采用下式寻找高频切分左边界位置L和高频切分右边界位置U:
L=min{i:si∈F}
U=max{i:si∈F}
对于新闻标题S=s1…st,切除高频切分左边界位置L的左侧以及高频切分右边界位置U右侧的分词,然后判断得到的短语的字数是否小于设定阈值,如果是,则切分后得到的短语为候选短语c:
c=sL…sU
步骤7,对于y个新闻标题中的每个新闻标题,采用步骤6的方法处理,得到的各个候选短语c组成候选短语集C;
对所述候选短语集C中的各个候选短语c进行评价,筛选得到评价指数最高的候选短语c,作为与所述热点话题类对应的最佳短语,该最佳短语即是描述对应的热点话题内容的热点短语。
2.根据权利要求1所述的基于标题高频切分的新闻热点短语提取方法,其特征在于,步骤7中,对于每个候选短语c=sL…sU,采用以下方法计算得到对应的评价指数:
步骤7.1,高频词词频占比权重wc:
其中:的含义为:对于sL…sU这U-L+1个分词,筛选出属于高频词集F的所有分词,再计算筛选到的所有分词的词频和;
Fk代表sL…sU这U-L+1个分词中,属于高频词集F的分词;
Ej含义为:对于sL…sU这U-L+1个分词中的某个属于高频词集F的分词,其对应的词频;
的含义为:高频词集F={F1、F2...Fn}的n个高频词的词频和;
步骤7.2,高频词数权重ws:
ws=|F∩{si:L≤i≤U}|/|F|
其中:|F∩{si:L≤i≤U}|含义为:对于sL…sU这U-L+1个分词,属于高频词集F的分词种类数量;
|F|含义为:高频词集F={F1、F2...Fn}的高频词种类数量,即:|F|=n;
步骤7.3,短语长度权重wl:
其中,|c|表示候选短语c包含的字数;
步骤7.4,人名地名权重we
步骤7.5,短语出现次数count:
在候选短语集C中,被评价的候选短语的出现次数;
因此,候选短语c的评价指数w采用下式计算得到:
w=count·wl+we+α·wc+β·ws;
其中,α为高频词词频占比权重调节因子;β为高频词数权重调节因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司,未经贵州耕云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710743020.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:资源数据的保护方法及设备
- 下一篇:一种大数据的存储系统