[发明专利]分类模型的训练方法、评论信息的分类方法及装置在审
| 申请号: | 202010206016.3 | 申请日: | 2020-03-23 |
| 公开(公告)号: | CN111428034A | 公开(公告)日: | 2020-07-17 |
| 发明(设计)人: | 刘中伟;张一凡;刘云 | 申请(专利权)人: | 京东数字科技控股有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨俊辉;刘芳 |
| 地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类 模型 训练 方法 评论 信息 装置 | ||
本发明提供一种分类模型的训练方法、评论信息的分类方法及装置。其中训练过程包括:获取第一评论样本和第二评论样本,其中第一评论样本与第二评论样本中的样本数据一一对应。根据第一评论样本对原始的第一模型进行训练,并根据第二评论样本对原始的第二模型进行训练,分别得到训练后的第一模型和第二模型,将训练后的第一模型和训练后的第二模型进行组合,得到最终的分类模型。该分类模型用于确定评论信息的评论等级。由于上述训练过程采用的训练样本充分考虑了评论信息内在文字之间的联系,为模型训练提供高效的样本数据。构建的分类模型输出评论信息的分类结果更加准确。
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种分类模型的训练方法、评论信息的分类方法及装置。
背景技术
随着计算机和互联网技术的不断发展,人们可以方便地从网络平台或应用中获取需要的信息和服务,例如购物平台、地图应用、订餐应用等。用户可在网络平台或应用中查看其他用户对某物品或某项服务的评价信息,进行自主选择。
随着众多服务平台或应用的发展,不可避免地会出现用户刷单评论、差评营销等操作,造成评论和评论等级不一致。针对上述情况,平台或应用应当具备对评论信息的等级分类,确保平台或应用中的评论信息真实可信。
目前针对服务平台上评论信息的评论等级分类大多依赖于模型的训练数据,没有充分挖掘文本内在特征,导致分类准确性不高。
发明内容
本发明实施例提供一种分类模型的训练方法、评论信息的分类方法及装置,提高对评论信息分类的准确性。
本发明的第一方面提供一种分类模型的训练方法,所述分类模型用于确定评论信息的评论等级,所述方法包括:
获取第一评论样本,所述第一评论样本包括第一评论词汇序列和所述第一评论词汇序列对应的第一评论等级序列;所述第一评论词汇序列是对原始评论信息进行分词处理得到的;
获取第二评论样本,所述第二评论样本包括第二评论词汇序列和所述第二评论词汇序列对应的第二评论等级序列;所述第二评论词汇序列是对所述原始评论信息进行分词处理和词汇组合得到的;
根据所述第一评论样本对原始的第一模型进行训练,得到训练后的第一模型,并根据所述第二评论样本对原始的第二模型进行训练,得到训练后的第二模型;
将所述训练后的第一模型和所述训练后的第二模型进行组合,得到所述分类模型。
在一种可能的实现方式中,所述对所述原始评论信息进行分词处理和词汇组合,包括:
对所述原始评论信息进行分词处理,得到原始评论词汇序列;
采用预设窗口距离对所述原始评论词汇序列进行词汇组合,得到所述第二评论词汇序列,所述第二评论词汇序列中包括多组评论词汇。
在一种可能的实现方式中,所述原始评论信息包括标点符号;所述采用预设窗口距离对所述原始评论词汇序列进行词汇组合,得到所述第二评论词汇序列,包括:
结合所述标点符号的位置,采用预设窗口距离对所述原始评论词汇序列进行词汇组合,得到所述第二评论词汇序列;其中,所述标点符号之前和之后的词汇不进行词汇组合。
可选的,所述第一评论词汇序列包括标注词性的多个评论词汇。
可选的,所述第二评论词汇序列包括多组评论词汇,每一组评论词汇包括标注词性的至少两个词汇。
可选的,所述第一评论等级序列包括所述第一评论词汇序列中不同评论等级的数量,所述第二评论等级序列包括所述第二评论词汇序列中不同评论等级的数量。
在一种可能的实现方式中,所述将所述训练后的第一模型和所述训练后的第二模型进行组合,得到所述分类模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010206016.3/2.html,转载请声明来源钻瓜专利网。





