[发明专利]一种语料处理方法和装置及语料分析方法和装置在审
| 申请号: | 201510705434.6 | 申请日: | 2015-10-27 |
| 公开(公告)号: | CN106610932A | 公开(公告)日: | 2017-05-03 |
| 发明(设计)人: | 牛国扬 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 工业和信息化部电子专利中心11010 | 代理人: | 秦莹 |
| 地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料 处理 方法 装置 分析 | ||
1.一种语料处理方法,其特征在于,包括:
获取所有或部分语料,作为语料集合;
确定所述语料集合中每一条语料对应的意图;
对语料集合中的每一条语料进行分词,确定每条语料中的词语;
确定所述语料集合中每个词语出现的次数;
确定每个词语在每个意图上出现的次数;
根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。
2.如权利要求1所述的方法,其特征在于,利用下述公式确定每个词语在每个意图上的权重F(Xi):
F(Xi)=(Mi/P)*(1/Ln(P)),其中,Xi表示词语,i表示词语的序号,i的取值范围是自然数,M表示意图,Mi表示Xi在意图M上出现的次数,P表示Xi在所述语料集合中出现的总次数,Ln是自然对数。
3.如权利要求1或2所述的方法,其特征在于,所述对语料集合中的每一条语料进行分词,确定每条语料中的词语的处理包括以下之一:ansj分词、stanford分词、庖丁解牛。
4.一种语料处理装置,其特征在于,包括:
获取模块,用于获取所有或部分语料,作为语料集合;
意图确定模块,用于确定所述语料集合中每一条语料对应的意图;
分词确定模块,用于对语料集合中的每一条语料进行分词,确定每条语料中的词语;
次数确定模块,用于确定所述语料集合中每个词语出现的次数,以及用于确定每个词语在每个意图上出现的次数;
权重确定模块,用于根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数,确定每个词语在每个意图上的权重。
5.如权利要求4所述的装置,其特征在于,利用下述公式确定每个词语在每个意图上的权重F(Xi):
F(Xi)=(Mi/P)*(1/Ln(P)),其中,Xi表示词语,i表示词语的序号,i的取值范围是自然数,M表示意图,Mi表示Xi在意图M上出现的次数,P表示Xi在所述语料集合中出现的总次数,Ln是自然对数。
6.如权利要求4或5所述的装置,其特征在于,所述对语料集合中的每一条语料进行分词,确定每条语料中的词语的处理包括以下之一:ansj分词、stanford分词、庖丁解牛。
7.一种语料分析方法,其特征在于,包括:
获取一条语料;
对所述语料进行分词处理,确定所述语料中的每个词语;
获取每个词语在每个意图上的权重;
根据所述每个词语在每个意图上的权重,确定每个意图的权重值;
将大于或等于预定阈值的权重值对应的意图,确定为所述语料的意图。
8.如权利要求7所述的方法,其特征在于,所述根据所述每个词语在每个意图上的权重,确定每个意图的权重值的处理包括:
对于每一种意图,将每个词语在该意图上权重相加,作为该意图的权重值。
9.一种语料分析装置,其特征在于,包括:
语料获取模块,用于获取一条语料;
分词处理模块,用于对所述语料进行分词处理,确定所述语料中的每个词语;
权重获取模块,用于获取每个词语在每个意图上的权重;
权重值确定模块,用于根据所述每个词语在每个意图上的权重,确定每个意图的权重值;
意图处理模块,用于将大于或等于预定阈值的权重值对应的意图,确定为所述语料的意图。
10.如权利要求9所述的装置,其特征在于,权重值确定模块具体用于对于每一种意图,将每个词语在该意图上权重相加,作为该意图的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510705434.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:话题名称的提取方法及装置
- 下一篇:关键词标签的配置方法及装置





