[发明专利]一种中文评论分析方法有效
| 申请号: | 201911372086.X | 申请日: | 2019-12-27 |
| 公开(公告)号: | CN111046651B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 董君 | 申请(专利权)人: | 淄博职业学院 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;H04N21/435;H04N21/488 |
| 代理公司: | 深圳紫晴专利代理事务所(普通合伙) 44646 | 代理人: | 陈映辉 |
| 地址: | 255000 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 评论 分析 方法 | ||
本发明一种中文评论分析方法包括如下步骤:将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表;根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成,从而剔除掉非法评论。
技术领域
本发明涉及一种数据分析方法,特别是涉及一种用于中文评论的数据分析方法。
背景技术
中文评论一直是互联网的核心。在网上,人们看着文字评论、弹幕等多种评论而可以发现视频内容相关联的很多信息,使视频内容观看起来更加有意思。
然而,目前无论是文字评论或者弹幕都会出现很多与视频内容无关的非法词汇,其包括了非法评论,因此,目前亟需一种能够剔除上述评论,以及在评论过多状况下分析评论是否与内容有关的中文评论分析方法。
发明内容
本发明要解决的技术问题是提供一种能够剔除上述评论,以及在评论过多状况下分析评论是否与内容有关的中文评论分析方法。
本发明一种中文评论分析方法,包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
本发明一种中文评论分析方法,包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的字形输入法对应的字母的个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
本发明一种中文评论分析方法,其中所述构建图表的方式为:
将其按照主语、谓语、宾语、其他语的顺序构建柱状图,其中,所述柱状图的宽度为1,柱状图的高度与每个主语、谓语、宾语、其他语的汉语拼音的字母个数相同。
本发明一种中文评论分析方法,其中判定所述预设阈值的方式为:
分别按照主语、谓语、宾语、其他语的汉语拼音的字母个数a1、a2、a3、 a4按如下公式输出预设阈值b:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淄博职业学院,未经淄博职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911372086.X/2.html,转载请声明来源钻瓜专利网。





