[发明专利]生成词向量的方法、装置、计算机存储介质和电子设备有效
| 申请号: | 202010535868.7 | 申请日: | 2020-06-12 |
| 公开(公告)号: | CN111695358B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/237 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成 向量 方法 装置 计算机 存储 介质 电子设备 | ||
1.一种生成词向量的方法,其特征在于,包括:
获得包括多个语句的训练语料集;其中,每一个所述语句均包括预先指定的目标文本单元,所述目标文本单元包含至少一个连续的文字;
针对训练语料集中的每一个语句,抽取所述语句的目标文本单元的上下文窗口中的每一个实体文本单元,并从文本数据库中获取除所述目标文本单元以外的每一个所述实体文本单元的关联文本单元;
利用文档主题生成模型挖掘包括每一个所述目标文本单元的上下文窗口的关联文本的文本集合,得到每一个所述目标文本单元的上下文窗口对应的主题分布向量;其中,一个所述目标文本单元的上下文窗口的关联文本包括:所述上下文窗口中的每一个实体文本单元的关联文本单元;
为所述训练语料集的每一个所述语句中的所述目标文本单元配置对应的语义标签,得到携带语义标签的目标文本单元;其中,对应的主题分布向量的相似度大于或等于相似度阈值的两个目标文本单元携带的语义标签相同,对应的主题分布向量的相似度小于所述相似度阈值的两个目标文本单元携带的语义标签不同;
用添加语义标签后的训练语料集训练词向量模型,并从训练后的词向量模型中获得所述训练语料集的每一个所述实体文本单元的词向量;其中,所述实体文本单元包括所述目标文本单元,所述目标文本单元对应有多个词向量,且每一个所述词向量唯一对应于一种所述语义标签。
2.根据权利要求1所述的方法,其特征在于,所述用添加语义标签后的训练语料集训练词向量模型,包括:
生成待训练的词向量模型和每一个所述实体文本单元的编码;其中,所述词向量模型包括每一个所述实体文本单元对应的初始词向量和多个参数向量;携带的所述语义标签相同的两个所述目标文本单元的编码相同,携带的所述语义标签不相同的两个所述目标文本单元的编码不同;
对所述添加语义标签后的训练语料集中的每一个所述实体文本单元执行下述训练过程:
获得所述实体文本单元的上下文窗口内其他文本单元的词向量;
若所述实体文本单元不是携带语义标签的目标文本单元,对所述上下文窗口包含的其他文本单元的词向量累加得到计算结果;
若所述实体文本单元是携带语义标签的目标文本单元,对所述上下文窗口包含的其他文本单元的词向量和所述上下文窗口对应的主题分布向量累加得到计算结果;
根据所述计算结果,所述词向量模型的参数向量和所述实体文本单元的编码,计算所述词向量模型的损失;
若所述词向量模型的损失不满足收敛条件,基于所述词向量模型的损失更新所述上下文窗口内其他文本单元的词向量和所述词向量模型的参数向量,并返回执行所述获得所述实体文本单元的上下文窗口内的其他文本单元的词向量,直至所述词向量模型的损失满足收敛条件为止;其中,满足收敛条件的词向量模型中所述实体文本单元的词向量,作为所述实体文本单元的词向量。
3.根据权利要求1所述的方法,其特征在于,所述用添加语义标签后的训练语料集训练词向量模型,并从训练后的词向量模型中获得所述训练语料集的每一个所述实体文本单元的词向量之后,还包括:
获得包含所述目标文本单元的待处理文本;
针对所述待处理文本的所述目标文本单元,获得所述目标文本单元的上下文窗口的关联文本,并将所述关联文本添加至所述文本集合;
利用文档主题生成模型挖掘所述文本集合,得到所述待处理文本的所述目标文本单元的对应的主题分布向量;
针对所述待处理文本的所述目标文本单元,计算所述目标文本单元的主题分布向量和所述训练语料集中携带语义标签的目标文本单元的主题分布向量的相似度,并将所述训练语料集中对应的相似度大于或等于所述相似度阈值的目标文本单元所携带的语义标签作为所述待处理文本中所述目标文本单元的语义标签;
组合所述待处理文本的每一个实体文本单元的词向量,得到所述待处理文本的词向量表示,并利用预先构建的情感分析模型处理所述待处理文本的词向量表示,从而确定所述待处理文本对应的情感标签;其中,所述待处理文本的目标文本单元的词向量是对应的所述语义标签的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010535868.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自适应下水道盖板
- 下一篇:转向系统及车辆





