[发明专利]一种基于标题高频切分的新闻热点短语提取方法有效
申请号: | 201710743020.1 | 申请日: | 2017-08-25 |
公开(公告)号: | CN107562843B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 黄瑞章;刘于雷;梁山雪 | 申请(专利权)人: | 贵州耕云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 550000 贵州省贵阳市贵阳国家高新技*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于标题高频切分的新闻热点短语提取方法,包括以下步骤:对于每个热点话题类,提取新闻标题;对新闻标题进行分词,统计每个分词的词频,筛选出词频最大的前n个分词作为高频词集;使用高频词集寻找新闻标题的高频切分边界,并根据切分边界对新闻标题进行切分,得到候选短语;由此得到候选短语集;对候选短语集中的各个候选短语进行评价,筛选得到评价指数最高的候选短语,作为最佳短语。优点为:能够对每个热点话题提取出一个精简、准确描述话题内容的热点短语,对当前新闻热点话题内容的快速概括和有效展现提供了解决方案,提高了信息的展现和用户获取信息的效率。 | ||
搜索关键词: | 一种 基于 标题 高频 切分 新闻 热点 短语 提取 方法 | ||
【主权项】:
一种基于标题高频切分的新闻热点短语提取方法,其特征在于,包括以下步骤:步骤1,获取需要分析处理的w篇新闻文章,对所述w篇新闻文章采用增量聚类方法进行聚类,将属于同一新闻话题的新闻文章聚成一类,由此得到p个新闻话题类;统计每个新闻话题类所包括的新闻文章数量,以每个新闻话题类所包括的新闻文章数量作为新闻话题热度的度量;即:每个新闻话题类所包括的新闻文章数量越多,则对应的新闻话题热度越高;对于p个新闻话题类,按照新闻话题热度由高到低的顺序排列,取前m个新闻话题类作为热点话题类;其中,w、p和m均为自然数,m≤p;步骤2,对于每个所述热点话题类,均执行以下步骤3‑步骤7;步骤3,假设所述热点话题类共包括x篇新闻文章,提取每篇新闻文章的新闻标题,则共提取到x个新闻标题;对所述x个新闻标题进行去重处理,得到y个新闻标题;其中,x和y均为自然数,y≤x;步骤4,对于y个新闻标题中的每个新闻标题,进行分词和去停用词处理,得到每个新闻标题所对应的若干个分词;将y个新闻标题得到的所有分词组成集合,记为分词集合;然后,统计每个分词在所述分词集合中的出现次数,即:统计每个分词的词频,筛选出词频最大的前n个分词作为该热点话题类的高频词集;步骤5,设高频词集为F={F1、F2...Fn};其中,n代表高频词集包括的高频词的数量;F1、F2...Fn代表高频词集的元素,即各个高频词;E1、E2...En分别代表F1、F2...Fn的词频;步骤6,对于y个新闻标题中的每个新闻标题,表示为S=s1…st;其中si,i∈[1,t]为新闻标题的分词;S表示新闻标题;t表示新闻标题的分词数量;均采用以下步骤6.1‑步骤6.2,得到新闻标题对应的候选短语c:步骤6.1,判断新闻标题S=s1…st包含的高频词的数量,如果小于等于1个,则不提取该新闻标题S=s1…st对应的候选短语;否则,执行步骤6.2;步骤6.2,使用高频词集F寻找新闻标题S=s1…st的高频切分边界,并根据切分边界对新闻标题S=s1…st进行切分,得到候选短语c;本步骤具体为:采用下式寻找高频切分左边界位置L和高频切分右边界位置U:L=min{i:si∈F}U=max{i:si∈F}对于新闻标题S=s1…st,切除高频切分左边界位置L的左侧以及高频切分右边界位置U右侧的分词,然后判断得到的短语的字数是否小于设定阈值,如果是,则切分后得到的短语为候选短语c:c=sL…sU步骤7,对于y个新闻标题中的每个新闻标题,采用步骤6的方法处理,得到的各个候选短语c组成候选短语集C;对所述候选短语集C中的各个候选短语c进行评价,筛选得到评价指数最高的候选短语c,作为与所述热点话题类对应的最佳短语,该最佳短语即是描述对应的热点话题内容的热点短语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司,未经贵州耕云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710743020.1/,转载请声明来源钻瓜专利网。
- 上一篇:资源数据的保护方法及设备
- 下一篇:一种大数据的存储系统