[发明专利]模型确定方法、装置及设备在审
| 申请号: | 201811539843.3 | 申请日: | 2018-12-17 |
| 公开(公告)号: | CN109783620A | 公开(公告)日: | 2019-05-21 |
| 发明(设计)人: | 宋元峰;鲍思琪;姜迪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 孙静;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 主题库 装置及设备 第一数据 模型确定 目标主题 目标模型 数据集 | ||
1.一种模型确定方法,其特征在于,包括:
在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;
根据所述目标主题确定所述第一数据集对应的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述在主题库中获取第一数据集对应的目标主题,包括:
获取所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型;
根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一数据集与所述主题库中每个主题之间的相似度,包括:
获取所述第一数据集的第一数据分布,所述第一数据分布包括多个词汇和每个词汇在所述第一数据集中出现的概率;
根据所述第一数据分布和所述主题库中每个主题的数据分布,获取所述第一数据集与所述主题库中每个主题之间的相似度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题,包括:
确定第一主题集合和第二主题集合,初始时,所述第一主题集合为空,所述第二主题集合与所述主题库相同;
获取所述第一数据集与所述第二主题集合中各主题之间的相似度;
执行目标主题确定操作,所述目标主题确定操作包括:根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,将所述第一主题添加至所述第一主题集合,并在所述第二主题集合中删除所述第一主题;
重复执行所述目标主题确定操作,直至所述第一主题集合中包括N个主题,或者所述第一数据集与所述第二主题集合中各主题的相似度均小于第一预设相似度时,将所述第一主题集合中的主题确定为所述目标主题,所述N为目标主题的个数,所述N为大于或等于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,包括:
在第二主题集合中确定第二主题,所述第二主题为所述第二主题集合中与所述第一数据集相似度最高的主题;
在所述第二主题的类型与所述第一主题集合中各主题的类型均不相同时,则将所述第二主题确定为所述第一主题;
在所述第二主题的类型与所述第一主题集合中至少一个主题的类型相同时,判断所述第二主题与所述第一数据集的相似度是否经过打折处理,若是,则将所述第二主题确定为所述第一主题,若否,则将所述第二主题与所述第一数据集的相似度进行打折处理,并根据打折处理后的所述第二主题与所述第一数据集的相似度重新在所述第二主题集合中确定所述第二主题,打折处理后的相似度小于打折处理前的相似度。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述在主题库中获取第一数据集对应的目标主题之前,还包括:
获取数据集集合,所述数据集集合中包括多个数据集;
对所述数据集集合中的数据集进行训练,得到多个待选主题;
对所述多个待选主题进行去冗余处理,得到所述主题库。
7.根据权利要求6所述的方法,其特征在于,所述对所述多个待选主题进行去冗余处理,得到所述主题库,包括:
根据所述多个待选主题确定至少一个主题组,一个主题组中每两个主题之间的相似度均大于第二预设相似度;
将每个主题组中的一个主题确定为所述主题库中的主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811539843.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据过滤挖掘方法
- 下一篇:对话生成方法、装置及设备





