[发明专利]一种话题排序方法及装置有效
申请号: | 201610024262.0 | 申请日: | 2016-01-14 |
公开(公告)号: | CN106970924B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 史立华 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 话题 排序 方法 装置 | ||
本发明公开了一种话题排序方法及装置,涉及计算机技术领域,主要目的在于通过分析话题中关键词的重要程度来区分话题的重要性,并依此排序。本发明主要的技术方案为:确定话题语料中的词语重要性,所述词语重要性为所述话题语料中的词语在区分一个话题时的区别程度;提取所述话题语料中一个话题的关键词;利用所述词语重要性计算所述关键词的话题重要性,所述话题重要性为所述话题语料中的每个话题针对于所述关键词所具有的重要性;根据所述话题重要性对所述话题语料中的话题进行排序。本发明主要用于语料中话题的排序。
技术领域
本发明涉及计算机技术领域,尤其涉及一种话题排序方法及装置。
背景技术
随着各种社交媒体的日益普及,信息传播的速度越来越快,传播途径也越来越广泛,应用在这些信息之上的话题探测和追踪技术(TDT)也变得越来越热门。
一般意义上的话题探测指的就是挖掘出新的、热门的、重要的、有价值的话题,但是,在话题检测的过程中会发现非常多的话题,有的是已经存在话题的延续和变形,有的是新兴话题,当然更多的可能是无意义的垃圾话题。话题探测的目的,就是通过对话题的排序来统计哪些话题是用户感兴趣的话题。而一般的话题排序所参考的因素包括文档的来源(如重大新闻网站新闻头条、统一资源定位符(Uniform Resource Locator,URL)层级深度等)、发布时间(时间越近发布的话题是越热门的)以及话题的提及量等,利用这些因素综合计算一个话题得分,然后通过对得分的排序进行输出。
然而,现有的话题排序技术所需要参考的因素较多,并且许多是附加到话题内容中的附加因素,而各个因素融合的参数调整过程也比较复杂,同时对语料的要求比较高(比如,需要明确知道文档发布时间的,但是通过页面浏览器解析的方式获得的发布时间可能是不准确的甚至是缺失的)。因此,现有的话题排序方式在实际实施过程中,效果并不是特别理想。
发明内容
有鉴于此,本发明提供一种话题排序方法及装置,主要目的在于通过分析话题中关键词的重要程度来区分话题的重要性,并依此排序。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种话题排序方法,该方法包括:
确定话题语料中的词语重要性,所述词语重要性为所述话题语料中的词语在区分一个话题时的区别程度;
提取所述话题语料中一个话题的关键词;
利用所述词语重要性计算所述关键词的话题重要性,所述话题重要性为所述话题语料中的每个话题针对于所述关键词所具有的重要性;
根据所述话题重要性对所述话题语料中的话题进行排序。
另一方面,本发明还提供了一种话题排序装置,该装置包括:
确定单元,用于确定话题语料中的词语重要性,所述词语重要性为所述话题语料中的词语在区分一个话题时的区别程度;
提取单元,用于提取所述话题语料中一个话题的关键词;
计算单元,用于利用所述确定单元确定的词语重要性计算所述提取单元提取的关键词的话题重要性,所述话题重要性为所述话题语料中的每个话题针对于所述关键词所具有的重要性;
排序单元,用于根据所述计算单元计算的话题重要性对所述话题语料中的话题进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610024262.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:话题检测的方法和装置
- 下一篇:用户观点的异常预警方法和装置