[发明专利]话题生成方法、装置、存储介质和电子设备有效
申请号: | 202011052743.5 | 申请日: | 2020-09-29 |
公开(公告)号: | CN111897965B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 郭林森;曹雪智;谢睿;王仲远 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/35 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 生成 方法 装置 存储 介质 电子设备 | ||
1.一种话题生成方法,所述方法包括:
获取用户生成内容对应的语料数据;
根据所述语料数据确定至少一种场景词信息,其中,每种所述场景词信息包括多个场景词,用于表征所述语料数据的一个目标场景;
针对每种所述场景词信息,确定与所述场景词信息对应的话题模板,其中,所述话题模板包括多个词填充位,每一所述词填充位分别对应于一种场景词的属性;
根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题;
其中,根据所述语料数据确定至少一种场景词信息,包括:
根据所述语料数据确定候选分词;
根据场景词分类模型确定每一所述候选分词的第一场景参数,在所述第一场景参数大于预设阈值的情况下,将所述候选分词确定为场景词,其中所述第一场景参数用于表征所述候选分词形成场景的可能性;
对所述场景词进行组合,获得所述场景词信息。
2.根据权利要求1所述的方法,其中,所述根据所述话题模板和所述场景词信息,生成所述目标场景对应的目标话题,包括:
根据所述场景词信息中每一场景词的属性,将所述场景词添加至所述话题模板中该属性对应的词填充位,获得候选话题;
确定每一所述候选话题的匹配参数,其中,所述匹配参数用于表征该候选话题与所述目标场景的匹配程度;
根据所述匹配参数确定所述目标话题。
3.根据权利要求1所述的方法,其中,所述方法还包括:
在当前时刻满足模板挖掘时段要求或者接收到模板挖掘指令的情况下,根据所述语料数据中的场景词,确定话题场景词组合;
针对每一所述话题场景词组合,从所述语料数据中确定包含该话题场景词组合中的全部场景词的属性的话题语句;用所述场景词的属性来标识所述话题语句中该场景词对应的词填充位,以获得候选模板;通过模板分类模型对所述候选模板进行分类,并根据分类结果确定新挖掘的话题模板;存储所述新挖掘的话题模板;
所述确定与所述场景词信息对应的话题模板,包括:
从存储的话题模板中,将包含所述场景词信息中的全部场景词的属性的话题模板确定为与所述场景词信息对应的话题模板。
4.根据权利要求1所述的方法,其中,通过以下中的至少一者确定所述候选分词:
将所述语料数据的分词作为所述候选分词;
对所述语料数据的分词进行命名实体识别,并将识别到的实体对应的分词作为所述候选分词;
根据所述语料数据的分词进行新词发现,将获得的新词作为所述候选分词。
5.根据权利要求1所述的方法,其中,所述对所述场景词进行组合,获得所述场景词信息,包括:
从所述场景词中选择预设数量的场景词进行组合,确定初始场景词组合;
通过场景成立模型确定所述初始场景词组合对应的第二场景参数,其中,所述第二场景参数用于表征所述初始场景词组合中的全部场景词属于同一场景的可能性;
在所述初始场景词组合对应的第二场景参数大于场景阈值的情况下,将所述初始场景词组合确定为所述场景词信息。
6.根据权利要求5所述的方法,其中,所述场景成立模型通过以下方式训练获得:
获取训练样本,其中,所述训练样本中包括人工标注的场景负样本和从线上数据中提取出的场景正样本,所述场景负样本和所述场景正样本均由多个场景词组成;
将根据所述训练样本生成的训练向量作为模型的输入向量,并将所述训练样本的分类作为模型的目标输出,对所述模型进行训练,以获得所述场景成立模型;
其中,所述训练向量通过以下中的至少一者生成:
所述训练样本中每一场景词的长度、词性、词向量特征、位置分布特征、在目标类型商户下的频率、在不同类型商户下的频率分布,多个场景词对应的词共现频率、条件概率、在目标类型的商户下分布的相对熵、在目标类型的商户下分布的交叉熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011052743.5/1.html,转载请声明来源钻瓜专利网。