[发明专利]一种基于中文语素和拼音联合统计的词向量表示方法有效
| 申请号: | 201811465623.0 | 申请日: | 2018-12-03 |
| 公开(公告)号: | CN109815476B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 潘坚跃;刘祝平;潘艺旻;王译田;陈文康;王汝英;李欣荣;赵光俊;周航帆;魏伟;刘畅;李艳 | 申请(专利权)人: | 国网浙江省电力有限公司杭州供电公司;天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06N3/0464;G06N3/08 |
| 代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 董一宁 |
| 地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 中文 语素 拼音 联合 统计 向量 表示 方法 | ||
1.一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:包括如下步骤:
①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;
②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp;
③基于上下文语素和拼音联合统计的中文词表示模型,对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小窗口内的上下文语素来预测中心目标词xi,构造中文单个语素表示向量;
④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测,该神经网络包括输入层、一个隐含层和输出层,其输入层特征为基于语素、拼音和词频统计的融合特征,输出层为softmax层用于预测中心目标词,输入层与输出层包含节点数量均等于词汇表的大小。
2.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:
上述步骤③的具体步骤是:对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小窗口内的上下文语素来预测中心目标词xi,该步骤以(2m+1)为窗口大小,将中心语素的前m个和后m个语素{xi-m,...,xi-1,xi+1,...,xi+m}及其对应的拼音作one-hot编码,生成语素向量组Ci={ci-m,...,ci-1,ci+1,...,ci+m},其中ci-m为语素xi-m编码后大小为T×1的语素向量,同理,生成拼音向量组Pi={pi-m,...,pi-1,pi+1,...,pi+m},构造中文单个语素表示向量di为:
其中i仅表示为窗口中心位于语素xi位置。
3.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:
上述步骤④中输入层和输出层神经元节点数量等于词汇表大小T,其输入特征即为di,输出层采用softmax函数激活用于预测中心目标词,隐含层将输入层节点乘上输入权重矩阵WT×N得到隐含层经过输出权重矩阵W'N×T得到zi=W'TN×T·UN=W'T·WT·di,则有输出层对zi进行softmax激活,
其中,xi表示中心目标词,UN为隐含层输出向量,w'j表示输出权向量矩阵中的第j列向量。
4.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:
上述中心目标词xi的损失函数为:
最后采用梯度下降法来求解目标函数,即只需对一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
输出权重矩阵,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司杭州供电公司;天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司,未经国网浙江省电力有限公司杭州供电公司;天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811465623.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文本匹配方法、装置、计算设备及系统
- 下一篇:识别浏览器信息的方法和装置





