[发明专利]一种学习字向量方法、系统、电子设备及存储介质在审
申请号: | 202110552809.5 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113343669A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 梁吉光;徐凯波 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/289 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 习字 向量 方法 系统 电子设备 存储 介质 | ||
本申请公开了一种学习字向量方法、系统、电子设备及存储介质,学习字向量方法包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;PM I获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PM I;字向量计算步骤:对所述PM I进行归一化后,根据归一化后的PM I与所述词语的词向量,加权计算获取字向量。本发明将词向量转化为字向量,然后用字向量进行文本表示,从而解决中文分词与预训练语言模型的分词标准不一致的问题。
技术领域
本申请涉及深度学习技术领域,尤其涉及一种学习字向量方法、系统、电子设备及存储介质。
背景技术
近年来,预训练语言模型(Pre-trained Language Models,PLMs)的出现将自然语言处理(Neutral Language Processing,NLP)领域带入了新的纪元,现已成为NLP领域不可或缺的主流技术。PLMs的主要目的是学习出好的词嵌入(word embedding),将对词语粒度学习出好的向量表示,即词向量。在实际应用中,预训练语言模型属于上游任务,经常作为特定下游任务的输入,服务于下游任务,比如进行下游文本分类任务、情感分类任务以及命名实体识别任务等。预训练语言模型的优劣对下游任务的精度影响非常大,因此,如何训练出有效的PLMs成为NLP领域的研究热点。
当前,PLMs的研究主要基于英文,公开的训练数据集、训练好的预训练语言模型以英文居多,中文的研究还很少。即便有公开的训练好的预训练语言模型,在实际应用中还必然会遇到一个问题:应用场景下采用的中文分词算法与预训练语言模型采用的中文分词算法不匹配的问题,双方因分词标准不一致造成词典不一致,分出的词找不到词向量。基本上所有的基于预训练语言模型的NLP任务都面临这一问题,且迄今为止并未得到有效解决。
发明内容
本申请实施例提供了一种学习字向量方法、系统、电子设备及存储介质,以至少通过本发明解决了中文分词与预训练语言模型的分词标准不一致以及预训练词向量模型中的未登录词等问题。
本发明提供了学习字向量方法,包括:
字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;
PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PMI;
字向量计算步骤:对所述PMI进行归一化后,根据归一化后的PMI与所述词语的词向量,加权计算获取字向量。
上述的学习字向量方法,所述字典组建步骤包括:
词典生成步骤:读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;
字典生成步骤:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典。
上述的学习字向量方法,所述PMI获取步骤包括:
映射表组建步骤:根据所述字与所述词语的构词关系,组建字词映射表;
字频与共现频率统计步骤:统计所述字在所述词语中出现的所述字频以及所述字构成的词语在所述词典中的词语中出现的所述共现频率;
PMI计算步骤:通过对所述字频以及所述共现频率进行计算获取所述字的所述PMI。
上述的学习字向量方法,所述字向量计算步骤包括,遍历所述映射表,对所述PMI进行归一化后,根据归一化后的所述PMI与所述词语的所述词向量,加权计算获取所述字向量。
本发明还提供学习字向量系统,其中,适用于上述所述的学习字向量方法,所述学习字向量系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110552809.5/2.html,转载请声明来源钻瓜专利网。