[发明专利]一种生成分类模板的方法、装置及计算机可读存储介质在审
| 申请号: | 201910336111.2 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN110069634A | 公开(公告)日: | 2019-07-30 |
| 发明(设计)人: | 宁超 | 申请(专利权)人: | 北京泰迪熊移动科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 赵福梅 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类模板 测试文本 训练结果 计算机可读存储介质 语义 配对算法 文本分类 分类 文本 人力成本 文本类别 撰写 自动化 | ||
1.一种生成分类模板的方法,其特征在于,所述方法包括:
获取多个测试文本;
通过语义配对算法对所获取的多个测试文本进行文本分类训练,得到分类训练结果;
针对所述分类训练结果中每一个文本类别进行分类模板训练,以生成对应每一个文本类别的分类模板。
2.根据权利要求1所述的方法,其特征在于,所述通过语义配对算法对所获取的多个测试文本进行文本分类训练,包括:
针对所获取的每一个测试文本,提取所述测试文本中的关键词;
通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;
根据所述测试文本的语义配对特征确定所述测试文本的文本类别。
3.根据权利要求1所述的方法,其特征在于,所述语义配对算法为Skip-gram算法。
4.根据权利要求1所述的方法,其特征在于,针对所述分类训练结果中每一个文本类别进行分类模板训练,以生成对应每一个文本类别的分类模板,包括:
将所述分类训练结果中每一个文本类别中的每一个测试文本进行文字转换,得到包括至少一个语义配对特征的集合;
对所得到的对应每一个文本类别的所有包括至少一个语义配对特征的集合进行频繁项提取,从而得到对应每一个文本类别的频繁项集合;
根据所得到的对应每一个文本类别的频繁项集合进行分类模板训练,以生成对应每一个文本类别的分类模板。
5.根据权利要求4所述的方法,其特征在于,通过Fp-growth算法对所得到的对应每一个文本类别的所有包括至少一个语义配对特征的集合进行频繁项提取。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在得到包括至少一个语义配对特征的集合之后,对所得到的包括至少一个语义配对特征的集合进行去重处理。
7.根据权利要求4所述的方法,其特征在于,所述根据所得到的对应每一个文本类别的频繁项集合进行分类模板训练,以生成对应每一个文本类别的分类模板,包括:
通过权重累加分值对所得到的对应每一个文本类别的频繁项集合进行排序,得到排序后的频繁项集合;
从所述排序后的频繁项集合的头部开始,选择头部频繁项进行包含关系检测,得到包含关系检测结果,所述包含关系检测结果用于表征所述头部频繁项在第一文本类别中的包含比例达到特定阈值;
根据所得到的包含关系检测结果生成包括用于表征所述第一文本类别的第一部分和第二部分的分类模板,所述第一部分为仅包括头部频繁项的部分,所述第二部分为包括所述头部频繁项与至少一个不包括在所述头部频繁项中的语义配对特征的部分。
8.一种生成分类模板的装置,其特征在于,所述装置包括:
获取模块,用于获取多个测试文本;
文本分类训练模块,用于通过语义配对算法对所获取的多个测试文本进行文本分类训练,得到分类训练结果;
分类模板训练模块,用于针对所述分类训练结果中每一个文本类别进行分类模板训练,以生成对应每一个文本类别的分类模板。
9.根据权利要求8所述的装置,其特征在于,所述文本分类训练模块包括:
关键词提取单元,用于针对所获取的每一个测试文本,提取所述测试文本中的关键词;
语义配对特征提取单元,用于通过语义配对算法根据所提取的关键词进行配对特征提取,得到所述测试文本的语义配对特征;
文本类别训练单元,用于根据所述测试文本的语义配对特征确定所述测试文本的文本类别。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-7任一项所述生成分类模板的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泰迪熊移动科技有限公司,未经北京泰迪熊移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910336111.2/1.html,转载请声明来源钻瓜专利网。





