[发明专利]一种自动提取反馈热点的方法和装置在审
申请号: | 201610060514.5 | 申请日: | 2016-01-28 |
公开(公告)号: | CN105740232A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 路远;林惠娟;杨丽霞 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 提取 反馈 热点 方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,尤其涉及一种自动提取反馈热点的方法和装置。
【背景技术】
在互联网产品中,用户反馈是一个重要的信息源。通过分析用户反馈信息,可以得到当前的产品缺陷及用户新的需求。这些信息对于产品的修正及未来发展方向都有极为重要的参考意义。
通常对用户反馈信息进行分析的方式是通过人工来实现的,即通过人手工的对一个时间段内的用户反馈信息进行处理。
处理流程一般为:对于一个时间段内的用户反馈进行分析,确定其重要程度;根据重要程度得出当前的反馈热点问题,反馈热点问题包括:
a)新出现的问题或者需求,急需跟踪处理的问题。
b)已知但未解决的问题,但是被多位用户重复提及的。
上述流程仅适用于用户反馈量较少的情况。对于产品用户量级较大的情况,如日均反馈量超过500条,对这些反馈进行全面的人工分析需要大量的人力。因此对于这种情况,只能采用抽样的方式,然后再有人工对抽样的反馈信息进行处理。
对大数据的抽样是一个已知的信息提取方式,确实能够反映一个统计学上的问题趋势。但是在热点的提取上却不合适,比如如果需要从10000条用户反馈中发现一个热点问题,当热点问题涉及的反馈数是个位数时,是容易被遗漏的。即抽样能够发现较多的问题,但是会遗漏极少数但有价值的反馈。
然而现有技术中无论是通过人工全面挖掘反馈热点,还是通过人工抽样挖掘反馈热点,其所挖掘的结果都不一定合理,有意义,不一定是真正关注的热点。
【发明内容】
本发明提供了一种自动提取反馈热点的方法和装置,解决因人工处理大量反馈信息从而提取反馈热点造成的人力消耗大,且提取的反馈热点准确率不高的问题。
具体技术方案如下:
本发明提供了一种自动提取反馈热点的方法,所述方法包括:
预处理从评估区间获取的反馈信息以得到分词集合;
依据分词的出现频率确定评估区间的分词集合中各分词的分值;
根据反馈信息的属性对各分词的分值进行校正;
基于校正后的分值确定作为反馈热点的分词。
根据本发明一优选实施例,所述预处理包括:
依据分词词典对评估区间的反馈信息进行分词处理;
去除反馈信息中无意义或者重复的内容。
根据本发明一优选实施例,所述去除反馈信息中无意义或者重复的内容包括:
确定评估区间的反馈信息中分词的个数,如果分词的个数小于或等于预定值,则删除该反馈信息;或者,
对于具有相同反馈人ID以及投诉人ID的N个反馈信息,仅保留N个反馈信息中的任一个反馈信息,其中所述N为大于等于2的正整数;或者,
对评估区间的反馈信息之间的首尾进行字符串匹配,如果字符串匹配成功,则仅保留字符串匹配的反馈信息中的任一个反馈信息;或者,
对评估区间的反馈信息之间进行语义相似度计算,如果相似度高于预定值,则仅保留相似度高于预定值的反馈信息中的任一个反馈信息。
根据本发明一优选实施例,所述依据分词的出现频率确定评估区间的分词集合中各分词的分值包括:
对评估区间的分词集合中分词的出现频率进行统计;
依据分词在评估区间的分词集合中出现频率由高到低的顺序,赋予分词由低到高的第一权重;
依据分词在评估区间的各反馈信息中出现频率由高到低的顺序,赋予分词由高到低的第二权重;
根据评估区间的分词集合中分词的第一和第二权重确定各分词的分值。
根据本发明一优选实施例,所述反馈信息的属性包括反馈信息的出现时间标记,反馈信息的来源ID,或者反馈信息中各分词的内容。
根据本发明一优选实施例,所述根据反馈信息的属性对各分词的分值进行校正包括:
预处理从训练区间获取的反馈信息以得到分词集合,其中所述评估区间或所述训练区间是通过反馈信息的出现时间标记来区分的;
对训练区间的分词集合中分词的出现频率进行统计;
依据训练区间中分词的出现频率由高到低的顺序,为评估区间中的对应分词按照由低到高的顺序赋予第三权重;
基于第三权重对各分词的分值进行校正。
根据本发明一优选实施例,所述根据反馈信息的属性对各分词的分值进行校正包括:
将分词的来源ID与预设的来源列表进行匹配以确定第四权重,其中所述来源列表维护有各反馈来源与权重的对应关系;
基于第四权重对各分词的分值进行校正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610060514.5/2.html,转载请声明来源钻瓜专利网。