[发明专利]语句向量的确定方法、装置、电子设备及存储介质在审
申请号: | 202010214440.2 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111476026A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 陈功;马雅奇;陈彦宇;谭泽汉;刘坤 | 申请(专利权)人: | 珠海格力电器股份有限公司;珠海联云科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F17/16 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 韩来兵;李雪 |
地址: | 519070*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 向量 确定 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种语句向量的确定方法、装置、电子设备及存储介质,属于计算机技术领域。所述方法包括:获取待处理的各目标文本;对各所述目标文本进行分词处理,得到分词集合;通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。采用本申请可以提高确定语句向量的准确度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种语句向量的确定方法、装置、电子设备及存储介质。
背景技术
在自然语言处理的众多应用场景中,都有涉及到语句语义理解的任务,比如问答系统、文本分类、机器翻译等。其中,语句向量的算法是这些自然语言处理任务的重要组成模块,语句向量中包含了根据上下文环境得到的相似度信息,能够有效的帮助语句语义理解。
目前,通常是基于CNN结构的模型来计算语句向量。人们可以预先训练用于计算语句向量的CNN模型,以通过CNN模型确定某文本的语句向量。然而,CNN模型存在只能获取短程的语义依赖信息的问题,对于较长语句的语句向量的捕获准确度较低。
发明内容
本申请实施例的目的在于提供一种语句向量的确定方法、装置、电子设备及存储介质,以解决CNN模型对于较长语句的语句向量的捕获准确度较低的问题。具体技术方案如下:
第一方面,提供了一种语句向量的确定方法,所述方法包括:
获取待处理的各目标文本;
对各所述目标文本进行分词处理,得到分词集合;
通过预先训练的词向量模型,确定所述分词集合中各分词的词向量;
针对每个目标文本,计算该目标文本包含的分词的词频逆文本频率指数,并根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量;
根据各所述目标文本的文本向量计算奇异向量,基于各所述目标文本的文本向量和所述奇异向量,分别计算各所述目标文本的语句向量。
可选的,所述根据各所述目标文本的文本向量计算奇异向量,包括:
将各所述目标文本的文本向量构成向量矩阵;
通过奇异值分解SVD算法计算所述向量矩阵的奇异向量。
可选的,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的每个分词对应的乘积的和值;
将所述和值与该目标文本包含的总词数的比值,作为该目标文本的文本向量。
可选的,所述根据该目标文本包含的分词的词向量和词频逆文本频率指数,计算该目标文本的文本向量,包括:
针对该目标文本包含的每个分词,计算该分词的词频逆文本频率指数与该分词的词向量的乘积;
计算该目标文本包含的各分词对应的乘积的和值,得到该目标文本的文本向量。
可选的,所述计算该目标文本包含的分词的词频逆文本频率指数,包括:
针对该目标文本包含的每个分词,基于该分词在该目标文本中的出现次数和该目标文本的总词数,计算该分词的词频;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司;珠海联云科技有限公司,未经珠海格力电器股份有限公司;珠海联云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010214440.2/2.html,转载请声明来源钻瓜专利网。