[发明专利]一种网络评论精华文章的获取方法、装置和系统有效
申请号: | 201210151075.0 | 申请日: | 2012-05-15 |
公开(公告)号: | CN102682120A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 陈学文;张宇峰;姚健;潘柏宇;卢述奇 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 评论 精华 文章 获取 方法 装置 系统 | ||
1.一种网络评论精华文章的获取方法,其特征在于包括如下步骤:
S1、提取评论中的关键字;
S2、获取所提取的关键字在评论库中价值;
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论库中的价值计算关键字在该主题下的价值;
S4、计算评论的标点符号价值;
S5、计算评论相似度的价值;
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的符号价值以及步骤S5中计算得到的相似度价值相乘来计算每一条评论的得分;
S7、在获取多条评论的得分之后,取得分超过一定阈值的评论作为精华评论。
2.根据权利要求1所述的网络评论精华文章的获取方法,其特征在于步骤S1的具体过程包括:
S11、对评论内容进行分词;
S22、分词后根据停用词表去掉停用词,剩余的则为评论内容的关键字。
3.根据权利要求1所述的网络评论精华文章的获取方法,其特征在于步骤S2中关键字在评论库中价值是通过反文档频率(IDF)计算来实现的。
4.根据权利要求1所述的网络评论精华文章的获取方法,其特征在于步骤S4中评论中符号越符合规律,那么这条评论价值越高。
5.根据权利要求1或4所述的网络评论精华文章的获取方法,其特征在于步骤S4的具体过程包括:
S41、统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个符号的分布得分;
S42、对符号分布得分进行处理,形成一个汉字与符号分布曲线;
S43、根据分布曲线计算评论中符号因素得分。
6.根据权利要求1所述的网络评论精华文章的获取方法,其特征在于步骤S5中评论与历史评论相似度越高价值越低。
7.根据权利要求1所述的网络评论精华文章的获取方法,其特征在于对于还可以通过后台管理程序,设定哪些评论为精华评论,并优先展示。
8.一种网络评论精华文章的获取装置,其特征在于包括如下模块:
关键字提取模块,用于提取评论中的关键字;
关键字评论库价值获取模块,用于获取所提取的关键字在评论库中价值;
评论关键字价值计算模块,用于根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论库中的价值计算关键字在该主题下的价值;
评论标点符号价值计算模块,用于计算评论的标点符号价值;
评论相似度计算模块,用于计算评论相似度的价值;
评论得分计算模块,用于将评论关键字价值计算模块中计算得到的关键字价值与评论标点符号价值计算模块中得到的符号价值以及评论相似度计算模块中计算得到的相似度价值相乘来计算每一条评论的得分;
精华评论确定模块,用于在获取多条评论的得分之后,取得分超过一定阈值的评论作为精华评论。
9.一种网络评论精华文章的获取系统,其特征在于包括如下装置:
关键字提取装置,用于提取评论中的关键字;
关键字评论库价值获取装置,用于获取所提取的关键字在评论库中价值;
评论关键字价值计算装置,用于根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论库中的价值计算关键字在该主题下的价值;
评论标点符号价值计算装置,用于计算评论的标点符号价值;
评论相似度计算装置,用于计算评论相似度的价值;
评论得分计算装置,用于将评论关键字价值计算模块中计算得到的关键字价值与评论标点符号价值计算模块中得到的符号价值以及评论相似度计算模块中计算得到的相似度价值相乘来计算每一条评论的得分;
精华评论确定装置,用于在获取多条评论的得分之后,取得分超过一定阈值的评论作为精华评论。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210151075.0/1.html,转载请声明来源钻瓜专利网。