[发明专利]基于BERT技术的表情输入法及其装置有效
| 申请号: | 201910679545.2 | 申请日: | 2019-07-25 |
| 公开(公告)号: | CN110543242B | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 周诚 | 申请(专利权)人: | 北京智慧章鱼科技有限公司 |
| 主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F40/30;G06F40/289;G06F16/35;G06N3/0464;G06N3/049;G06N3/0442 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 100020 北京市朝阳区延静里*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 bert 技术 表情 输入法 及其 装置 | ||
1.一种基于BERT技术的表情输入法,其特征在于,包括:
S1:预训练语料特征BERT模型,将用户所要表达的字/词进行特征表达的特征提取训练;
S2:预训练分类器模型,将多种预设定的表情进行分类,并根据特征预训练所述表情的分类;
S3:当接收到用户输入的语料信息,以字/词为单位进行包括分语、停用词在内的语料文字处理,并设置成语料特征BERT模型所需的输入数据格式;
S4:输入至语料特征BERT模型进行特征提取,获得对应的特征向量v1,v2,...,vk,其中k为所有语料分词后得到的总词数;
S5:将特征向量v1,v2,...,vk输入至预训练好的分类器模型,并利用SoftMax函数将特征向量的类别概率归一化,从情感分类中找到最终所属的表情;
S6:通过用户使用历史表情利用User-CF或者Item-CF展示用户所需表情相对应的图片、动画在内表情展示信息;
S6进一步包括:
根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,采用计算“K-Nearest Neighbor”的算法;然后,基于这K个邻居的历史偏好信息,为当前用户进行推荐;
用户相关或相近用户群,该用户群有表情a,表情b,...,表情n每个表情具有若干N个表情标签,表情a具有标签(taga):taga1、taga2、taga3…tagaN,则taga中的关键字通过BERT模型得到其相应的特征向量:
v(taga1)=[v11,v12,...,v1m]
v(taga2)=[v21,v22,...,v2m]
…
v(taga3)=[v31,v32,...,v3m]
…
v(tagaN)=[vN1,vN2,...,vNm]
对taga每个关键字向量加权求平均得:
v(taga)=[v11+v21+v31,v12+v22+v32,...,vNm+vNm+vNm]/m
=[V11,V12,...,V1m]
同理表情b有标签tagb,其每一个标签关键字经过BERT模型得到相应的特征向量v(tagb)=[V21,V22,...,V2m],表情c有标签tagc,其每一个标签关键字经过BERT模型得到相应词的特征向量v(tagc)=[V31,V32,...,V3m]
…以此类推则可以利用余弦相似度求得表情间的相似程度:
表情a与表情b的相似程度为:cos(taga,tagb):
表情a与表情c的相似程度为:cos(taga,tagc):
表情b与表情c的相似程度为:cos(tagb,tagc):
…
某一表情,通过计算其若干相关表情cos值,计算上述cos值最小的为表情最相似,可将相似表情推荐于该用户。
2.如权利要求1所述的表情输入法,其特征在于,所述S3中的所述预训练好的语料特征BERT模型为一种BERT模型,对一个句子x=x1,x2,......,xn,句子中的每一个字或词使用token embedding、segment embedding、position embedding三个表示相加产生,并使用Masked Language Model和Next Sentence Prediction为优化目标,对字至少三种表示进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧章鱼科技有限公司,未经北京智慧章鱼科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910679545.2/1.html,转载请声明来源钻瓜专利网。





