[发明专利]一种词向量的确定方法、装置、存储介质和电子装置在审
申请号: | 202110601305.8 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113342934A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 梁吉光;徐凯波 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/242;G06F40/279 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军;张娜 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 向量 确定 方法 装置 存储 介质 电子 | ||
本申请涉及一种词向量的确定方法、装置、存储介质和电子装置,其中,该方法包括:获取未登录词中包含的多个目标字符和获取每个目标字符的字符向量,其中,未登录词为不包含在预设词典中的词;确定目标字符在预设词典中的构词关系,其中,构词关系为目标字符与预设词典中包含的已登录词之间的关系;根据构词关系和每个字符向量确定未登录词的词向量。本申请解决了未登录词的词向量生成的效率较低的技术问题。
技术领域
本申请涉及自然语言处理领域,尤其涉及一种词向量的确定方法、装置、存储介质和电子装置。
背景技术
随着信息技术的不断发展使得许多领域的信息呈现爆炸式增长,因此为满足人们的需求,大量的文本信息被电子化,通过自然语言的处理满足人们对数据挖掘、文本分类、数据管理、数据查询等方面的需求;在进行自然语言处理时首先要做的就是对文本进行自然语言向量化,词作为语言的重要组成部分,是最小的能够独立运行的语言单位,也是人类思维的最小语言单位,通过对词语构建词向量以获得文本的内在语义关系。
相关技术中通过使用与训练的词向量模型的方法获取词的词向量,然而随着社会的发展,每天都会有新词涌入,这给预训练词向量模型生成词向量带来了巨大压力,因为预训练词向量模型的训练需要根据当下收集到的语料进行词向量生成的训练,也就是说当前的词向量生成模型只能对已登录的词进行词向量生成,对未登录词无能为力,为满足使用需求,当前的技术通过不断增加词典内容的方式来尽量减缓词向量问题,然而这只能尽量减少未登录词向量的比例,并不能解决问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种词向量的确定方法、装置、存储介质和电子装置,以至少解决相关技术中未登录词的词向量生成的效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种词向量的确定方法,包括:获取未登录词中包含的多个目标字符和获取每个目标字符的字符向量,其中,未登录词为不包含在预设词典中的词;确定目标字符在预设词典中的构词关系,其中,构词关系为目标字符与预设词典中包含的已登录词之间的关系;根据构词关系和每个字符向量确定未登录词的词向量。
可选地,根据构词关系和每个字符向量确定未登录词的词向量包括:根据构词关系确定每个目标字符在未登录词中的目标权重值;基于目标权重值对每个目标字符的字符向量进行赋权计算,以得到未登录词的词向量。
可选地,根据构词关系确定每个目标字符在未登录词中的目标权重值包括:统计构词关系以得到第一参数值、第二参数值、第三参数值、第四参数值以及第五参数值,其中,第一参数值为预设词典中包含的已登录词的数量,第二参数值为未登录词中包含的目标字符的数量,第三参数值为预设词典中与目标字符共同构成的已登录词中包含的其他字符的数量,第四参数值为预设词典中包含目标字符的已登录词的数量,第五参数值为预设词典中同时包括第一目标字符和第二目标字符的已登录词的数量,第一目标字符为未登录词中包含的多个目标字符中的任意一个字符,第二目标字符为多个目标字符中除第一目标字符以外的字符;对第一参数值、第二参数值、第三参数值、第四参数值以及第五参数值进行目标计算,得到每个目标字符的初始权重值;对初始权重值进行归一化处理,得到每个目标字符的目标权重值。
可选地,对第一参数值、第二参数值、第三参数值、第四参数值以及第五参数值进行目标计算,得到每个目标字符的初始权重值包括:使用第一公式对第一参数值、第二参数值、第三参数值、第四参数值以及第五参数值进行计算,得到初始权重值,其中,第一公式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110601305.8/2.html,转载请声明来源钻瓜专利网。