[发明专利]语句向量的确定方法、装置、电子设备及存储介质在审
申请号: | 202010214440.2 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111476026A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 陈功;马雅奇;陈彦宇;谭泽汉;刘坤 | 申请(专利权)人: | 珠海格力电器股份有限公司;珠海联云科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F17/16 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 韩来兵;李雪 |
地址: | 519070*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 向量 确定 方法 装置 电子设备 存储 介质 | ||
1.一种语句向量的确定方法,其特征在于,所述方法包括:
获取待处理的各目标文本;
对各所述目标文本进行分词处理,得到分词集合;
通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述目标文本的文本向量计算奇异向量,包括:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
3.根据权利要求1所述的方法,其特征在于,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
4.根据权利要求1所述的方法,其特征在于,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
5.根据权利要求1所述的方法,其特征在于,所述计算该目标文本包含的分词的词频逆文本频率指数,包括:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
在各所述目标文本对应的文本集合中,统计包含该分词的文本的数目,基于包含该分词的文本的数目和所述文本集合的总文本数,计算该分词的逆文本频率指数;
将该分词的词频与该分词的逆文本频率指数的乘积,作为该分词的词频逆文本频率指数。
6.根据权利要求1所述的方法,其特征在于,所述目标文本的语句向量的计算公式为:
v's=vs-uuTvs
其中,v's为所述目标文本的语句向量,u为奇异向量,vs为所述目标文本的文本向量。
7.根据权利要求1所述的方法,其特征在于,所述获取待处理的各目标文本,包括:
接收用户输入的目标询问语句;
在预设的数据库中确定预设数目个与所述目标询问语句相匹配的目标样本询问语句,其中,所述数据库包含多个预设的样本询问语句和每个样本询问语句对应的回答语句;
将所述目标询问语句和目标样本询问语句作为待处理的目标文本。
8.根据权利要求7所述的方法,其特征在于,所述基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量之后,所述方法还包括:
根据所述目标询问语句的语句向量、以及各目标样本询问语句的语句向量,分别计算所述目标询问语句与每个目标样本询问语句的相似度;
获取相似度最大的目标样本询问语句对应的目标回答语句;
向用户反馈所述目标回答语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司;珠海联云科技有限公司,未经珠海格力电器股份有限公司;珠海联云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010214440.2/1.html,转载请声明来源钻瓜专利网。