[发明专利]一种语料处理方法和装置及语料分析方法和装置在审
申请号: | 201510705434.6 | 申请日: | 2015-10-27 |
公开(公告)号: | CN106610932A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 牛国扬 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 工业和信息化部电子专利中心11010 | 代理人: | 秦莹 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 处理 方法 装置 分析 | ||
技术领域
本发明涉及移动通讯领域,特别是涉及一种语料处理方法和装置及语料分析方法和装置。
背景技术
随着海量网络信息的积累和规模的高速增长,准确快捷的找到自己所需要的信息已成为人们迫切的需求。自动问答系统通过理解人们自然语言形式的问句,返回答案或者包含答案的文本片段,在一定程度上提高了用户检索的效率和准确性。
但是,在实际的应用环境中,由于自然语言自身的特性和用户对系统的不熟悉,导致用户录入的交互信息很随意;有时是寒暄信息,或业务质询,或对系统的投诉;有时是价格咨询,或业务流程咨询,或产品基本信息咨询;如果不做区别的应答,答案的准确性将会大打折扣,无法满足用户需求,极大地影响了用户的满意度,降低了用户体验。
发明内容
鉴于现有技术中自动问答系统,无法满足用户需求,及大地影响了用户的满意度,降低了用户体验的问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语料处理方法和装置及语料分析方法和装置。
本发明提供一种语料处理方法,包括:
获取所有或部分语料,作为语料集合;
确定语料集合中每一条语料对应的意图;
对语料集合中的每一条语料进行分词,确定每条语料中的词语;
确定语料集合中每个词语出现的次数;
确定每个词语在每个意图上出现的次数;
根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。
本发明还提供了一种语料处理装置,包括:
获取模块,用于获取所有或部分语料,作为语料集合;
意图确定模块,用于确定语料集合中每一条语料对应的意图;
分词确定模块,用于对语料集合中的每一条语料进行分词,确定每条语料中的词语;
次数确定模块,用于确定语料集合中每个词语出现的次数,以及用于确定每个词语在每个意图上出现的次数;
权重确定模块,用于根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。
本发明还提供了一种语料分析方法,包括:
获取一条语料;
对语料进行分词处理,确定语料中的每个词语;
获取每个词语在每个意图上的权重;
根据每个词语在每个意图上的权重,确定每个意图的权重值;
将大于或等于预定阈值的权重值对应的意图,确定为语料的意图。
其中,根据每个词语在每个意图上的权重,确定每个意图的权重值的处理包括:
对于每一种意图,将每个词语在该意图上权重相加,作为该意图的权重值。
本发明还提供了一种语料分析装置,其特征在于,包括:
语料获取模块,用于获取一条语料;
分词处理模块,用于对语料进行分词处理,确定语料中的每个词语;
权重获取模块,用于获取每个词语在每个意图上的权重;
权重值确定模块,用于根据每个词语在每个意图上的权重,确定每个意图的权重值;
意图处理模块,用于将大于或等于预定阈值的权重值对应的意图,确定为语料的意图。
本发明有益效果如下:
借助于本发明实施例的语料处理方法和装置及语料分析方法和装置,解决了现有技术中自动问答系统,无法满足用户需求,极大地影响了用户的满意度,降低了用户体验的问题,能够根据用户的交互信息,来分析用户的交流目的,即对用户的意图进行识别,以便对用户的问题有针对性的答复,满足了用户需求,提高了用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的语料处理方法的流程图;
图2是本发明实施例的语料分析方法的流程图;
图3是本发明实施例的语料处理装置的结构示意图;
图4是本发明实施例的语料分析装置的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510705434.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:话题名称的提取方法及装置
- 下一篇:关键词标签的配置方法及装置