[发明专利]一种基于中文单词特征子串的词嵌入学习方法在审
| 申请号: | 202010280002.6 | 申请日: | 2020-04-10 |
| 公开(公告)号: | CN111476036A | 公开(公告)日: | 2020-07-31 |
| 发明(设计)人: | 刘勇国;郑子强;李巧勤;杨尚明 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/284 |
| 代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 中文 单词 特征 嵌入 学习方法 | ||
1.一种基于中文单词特征子串的词嵌入学习方法,其特征在于,该方法包括以下步骤:
S1:获取中文文本,并通过预处理得到相应的词序列;
S2:从步骤S1得到的词序列中获取中文目标单词及其上下文单词,将中文目标单词拆分为若干个汉字;对每个汉字在中文字典中进行检索,并对每个汉字的拼音、笔画和结构特征进行编码并串联,生成特征子串来表示汉字的部分特征或多个特征;
S3:根据步骤S2将中文目标单词表示为具有拼音、笔画和结构特征的特征子串,采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型,并对预测模型进行训练,将上下文单词嵌入作为输出结果,得到最终的词嵌入表示。
2.根据权利要求1所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行编码,包括:
构建拼音特征,汉字的拼音由声母、韵母和音调组成,采用26个小写字母对声母和韵母进行编码,并使用5个大写英文符号表示音调,同时对音调进行对应编码;
构建笔画特征,根据现代汉语通用字表,将笔画分为五种类型,包括横、竖、撇、点、折,并采用阿拉伯数字1至5对其对应编码;
构建结构特征,根据笔画在平面空间中的不同组合,汉字全体字组合模式分为四大类13小类,采用区别于笔画特征的阿拉伯数字对其13小类进行对应编码。
3.根据权利要求1或2所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,所述步骤S2中对每个汉字的拼音、笔画和结构特征进行串联,生成特征子串来表示汉字的部分特征或多个特征;包括:
将每个汉字的拼音、笔画和结构编码进行串联,然后定义一个大小从1到编码长度L的滑动窗口生成特征子串,每个特征子串都有一个d维的嵌入,从而生成特征子串来表示汉字的部分特征或多个特征;
其中,设定中文目标单词的编码长度为L,则生成个特征子串。
4.根据权利要求1所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,所述步骤S3具体包括:
S31:从语料库中给定一个中文文本,词序列表示为w1,…,wt,…,wN,其中wt为中文目标单词,N表示词的数量,wt的上下文单词表示为:
Ct={wt+i},(i∈[-c,0)∪(0,c])
其中c表示中文目标单词wt的上下文窗口大小,使用wc表示Ct中的单词,即wc∈Ct;
S32:采用二元对数似然法构建基于中文目标单词对上下文单词嵌入的预测模型;对于中文目标单词wt,将中文目标单词wt所在的所有样本句子作为正样本,并从语料库中随机抽取单词替换正样本中的上下文单词构成等量的负样本,保证正负样本数量均衡;给定一个上下文单词wc∈Ct,通过使用二元对数损失得到以下负对数似然:
其中表示负样本集合,wu表示负样本中的上下文单词,s(wt,wc)为得分函数;将逻辑损失函数表示为l(x)=log(1+e-x),则目标函数可以重写为:
S33:随机初始化特征子串和上下文单词的嵌入,基于标准梯度法优化步骤S32中的目标函数,并进行模型训练,将上下文的词嵌入作为输出结果,得到最终的词嵌入表示。
5.根据权利要求1或4所述的一种基于中文单词特征子串的词嵌入学习方法,其特征在于,利用预先爬取的指定数量的汉字及其特征信息构成中文字典,采用搜狗实验室的全网新闻数据SogouCA作为语料库,对预测模型进行优化和训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010280002.6/1.html,转载请声明来源钻瓜专利网。





