[发明专利]一种网络评论精华文章的获取方法、装置和系统有效
申请号: | 201210151075.0 | 申请日: | 2012-05-15 |
公开(公告)号: | CN102682120A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 陈学文;张宇峰;姚健;潘柏宇;卢述奇 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 评论 精华 文章 获取 方法 装置 系统 | ||
技术领域
本发明属于文本分析技术领域,尤其涉及一种网络评论精华文章的获取方法、装置和系统。
背景技术
随着互联网技术的发展,以WEB2.0为基础的互联网应用越来越普及,用户个人可以在互联网上以个人名义进行文章的发布、观点的表达,由此也导致互联网上的信息成指数性增长。当然,这当中可能也包含了很多垃圾信息。因此,如何在如此之多的信息中获得有用的、精华的内容,是人们普遍关心的问题。而现有技术中获取某一主题的相关精华评论主要采用以下三种方式:
1、管理者标记精华评论。这种方式局限于管理者的人工干预,所以难免出现只会有部分的视频有精华评论标记,且标记评论的过程主观性强,而且对于突发性强的视频评论精华评论标记时间过长,比如某个同步播放的电视剧当天评论有存在上千条,则不能快速响应。而且,采用这种方式对于人力资源的依赖度比较高,而且缺乏足够的客观性,错漏率比较高。因此,不单管理成本较高,而且实际效果也不好。
2、使用系统统计回复数量的方式来计算精华评论。这种方式局限于用户对于评论的参与情况,而且采用此方式精华标记的评论不一定具有精华性质,受到人为干预影响较大,比如说:争论、回答问题等。因此,这种方式所反馈出来的结果往往并不客观,用户体验比较差。
3、使用“赞同反对”“顶踩”等投票方式计算精华。这种方式局限于用户对于评论的参与情况,且当大量信息评论涌现后,用户只针对前几页的评论有兴趣,而对早期评论的关注度会较少。因此,这种方式所反馈出来的结果往往较为片面,而不能把客观事实完全地反馈给用户,容易让用户错失了重要的信息。
以上的评论计算方式都存在一定的局限性,且有精华评论标记遗漏的可能。
发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种网络评论精华文章的获取方法、装置和系统,使用计算机程序和算法自动获取精华文章,降低网络管理成本、提高文章获取的精华程度。
为了达到上述目的,本发明提供了一种网络评论精华文章的获取方法,其特征在于包括如下步骤:
S1、提取评论中的关键字;
S2、获取所提取的关键字在评论库中价值;
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论库中的价值计算关键字在该主题下的价值;
S4、计算评论的标点符号价值;
S5、计算评论相似度的价值;
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的符号价值以及步骤S5中计算得到的相似度价值相乘来计算每一条评论的得分;
S7、在获取多条评论的得分之后,取得分超过一定阈值的评论作为精华评论。
进一步,本发明所述的网络评论精华文章的获取方法,其特征在于步骤S1的具体过程包括:
S11、对评论内容进行分词;
S22、分词后根据停用词表去掉停用词,剩余的则为评论内容的关键字。
进一步,本发明所述的网络评论精华文章的获取方法,其特征在于步骤S2中关键字在评论库中价值是通过反文档频率(IDF)计算来实现的。
进一步,本发明所述的网络评论精华文章的获取方法,其特征在于步骤S4中评论中符号越符合规律,那么这条评论价值越高。
进一步,本发明所述的网络评论精华文章的获取方法,其特征在于步骤S4的具体过程包括:
S41、统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个符号的分布得分;
S42、对符号分布得分进行处理,形成一个汉字与符号分布曲线;
S43、根据分布曲线计算评论中符号因素得分。
进一步,本发明所述的网络评论精华文章的获取方法,其特征在于步骤S5中评论与历史评论相似度越高价值越低。
进一步,本发明所述的网络评论精华文章的获取方法,其特征在于对于还可以通过后台管理程序,设定哪些评论为精华评论,并优先展示。
本发明所述的网络评论精华文章的获取方法和系统采用计算机程序对网络评论下的精华文章进行计算,自动获取出精华评论,精华评论获取结果真实客观,量大,减少遗漏。评论内容可以按照一定得分进行排序,方便对评论及相关信息进行筛选,减少人工干预及评论维护成本。
附图说明
图1是本发明所述的网络评论精华文章的获取方法的流程图;
图2是本发明所述的网络评论精华文章的获取装置的框图;
图3是本发明所述的网络评论精华文章的获取系统的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210151075.0/2.html,转载请声明来源钻瓜专利网。