[发明专利]核心短语的提取方法、装置及可读存储介质在审
申请号: | 201810689744.7 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108959253A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 洪婉玲 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短语 短语分析 评论信息 候选短语 可读存储介质 服务质量提供 去噪 挖掘 统计 | ||
本发明提供的核心短语的提取方法、装置及可读存储介质,通过对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语的方式,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。
技术领域
本发明涉及数据处理技术,尤其涉及一种核心短语的提取方法、装置及可读存储介质。
背景技术
随着信息时代的到来和互联网技术的发展,及时获取并分析用户对产品的反馈成为企业在提高产品质量和优化企业服务过程中并不缺少的环节。
在很多场景下,企业会通过各种渠道收集用户对服务或产品产生的反馈或建议等评论信息。但是,这些评论信息的数据量庞大,信息内容丰富,如何能够准确的挖掘到评论信息的核心短语成为企业为用户提升产品质量和服务质量时所需解决的重要技术问题。
发明内容
针对上述提及的如何能够准确的挖掘到评论信息的核心短语的技术问题,本发明提供了一种核心短语的提取方法、装置及可读存储介质。
一方面,本发明提供了一种核心短语的提取方法,包括:
对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;;
根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
在其中一种可选的实施方式中,所述短语分析方法包括情感分析方法;
当采用情感分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;
利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;
根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。
在其中一种可选的实施方式中,所述短语分析方法包括句法分析方法;
当采用句法分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;
利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810689744.7/2.html,转载请声明来源钻瓜专利网。