[发明专利]核心短语的提取方法、装置及可读存储介质在审
| 申请号: | 201810689744.7 | 申请日: | 2018-06-28 |
| 公开(公告)号: | CN108959253A | 公开(公告)日: | 2018-12-07 |
| 发明(设计)人: | 洪婉玲 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
| 地址: | 100193 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 短语 短语分析 评论信息 候选短语 可读存储介质 服务质量提供 去噪 挖掘 统计 | ||
1.一种核心短语的提取方法,其特征在于,包括:
对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;
根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
2.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括情感分析方法;
当采用情感分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;
利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;
根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。
3.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括句法分析方法;
当采用句法分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;
利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语。
4.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括序列化标注分析方法;
当采用序列化标注分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
利用预设的长短期记忆模型对所述评论信息的文本进行处理,获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;
根据所述评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同分析短语方法时得到的候选短语,具体包括:
根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。
5.根据权利要求1-4任一项所述的核心短语的提取方法,其特征在于,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,还包括:
根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810689744.7/1.html,转载请声明来源钻瓜专利网。





