[发明专利]一种基于词向量表示学习的中文分词方法及系统在审
| 申请号: | 202011007743.3 | 申请日: | 2020-09-23 |
| 公开(公告)号: | CN112149418A | 公开(公告)日: | 2020-12-29 |
| 发明(设计)人: | 赵尔平 | 申请(专利权)人: | 西藏民族大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06K9/62 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 崔玥 |
| 地址: | 712082*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 向量 表示 学习 中文 分词 方法 系统 | ||
1.一种中文分词方法,其特征在于,包括:
获取待分词文本;
对所述待分词文本进行初步分词处理,得到初步分词文本;
将所述初步分词文本输入BERT模型进行训练,得到语料词向量;
将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;所述特征词向量能够反映词的位置信息和文本语义特征;
计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;
判断所述余弦相似度值是否大于或等于预设阈值;若大于或等于所述预设阈值,则将所述相邻两个特征词向量对应词的初步分词结果进行合并;若小于所述预设阈值,则保留所述相邻两个特征词向量对应词的初步分词结果。
2.根据权利要求1所述的中文分词方法,其特征在于,所述对所述待分词文本进行初步分词处理,得到初步分词文本,具体包括:
采用jieba分词工具对所述待分词文本进行初步分词处理,得到初步分词文本。
3.根据权利要求2所述的中文分词方法,其特征在于,所述将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量,具体包括:
将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
4.根据权利要求3所述的中文分词方法,其特征在于,所述将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态,具体包括:
将所述语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态;
将所述语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态;
将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
5.根据权利要求4所述的中文分词方法,其特征在于,所述计算相邻两个特征词向量的余弦相似度,得到余弦相似度值,具体包括:
根据如下公式计算相邻两个特征词向量的余弦相似度:
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
6.一种中文分词系统,其特征在于,包括:
待分词文本获取模块,用于获取待分词文本;
初步分词处理模块,用于对所述待分词文本进行初步分词处理,得到初步分词文本;
语料词向量生成模块,用于将所述初步分词文本输入BERT模型进行训练,得到语料词向量;
特征词向量生成模块,用于将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;所述特征词向量能够反映词的位置信息和文本上下文语义特征;
余弦相似度计算模块,用于计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;
判断模块,用于判断所述余弦相似度值是否大于或等于预设阈值;若大于或等于所述预设阈值,则执行词合并模块;若小于所述预设阈值,则执行词保留模块;
词合并模块,用于将所述相邻两个特征词向量对应词的初步分词结果进行合并;
词保留模块,用于保留所述相邻两个特征词向量对应词的初步分词结果。
7.根据权利要求6所述的中文分词系统,其特征在于,所述初步分词处理模块,具体包括:
初步分词处理单元,用于采用jieba分词工具对所述待分词文本进行初步分词处理,得到初步分词文本。
8.根据权利要求7所述的中文分词系统,其特征在于,所述特征词向量生成模块,具体包括:
隐藏状态生成单元,用于将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
特征词向量生成单元,用于计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西藏民族大学,未经西藏民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011007743.3/1.html,转载请声明来源钻瓜专利网。





