[发明专利]一种改进词向量模型的语义计算方法有效
申请号: | 201710452382.5 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107291693B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 刘志煌;刘冶;李宏浩;傅自豪;邝秋华 | 申请(专利权)人: | 广州赫炎大数据科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/30 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 向量 模型 语义 计算方法 | ||
1.一种改进词向量模型的语义计算方法,其特征在于:包括以下步骤:
S1:语料预处理,对语料进行清理,规范化,分词操作;
S2:词性标注,对语料预处理后得到的词语进行标注词性;
S3:向量初始化,对词性标注后得到的词语和词性进行向量化;
S4:上下文向量整合,将词语向量和词性向量求和,求和的结果除以词语个数得到向量均值,向量均值与中心词的词性向量取差值得到向量整合结果;
S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;
S6:向量获取,获取词语向量和词性向量;
S7:向量应用,应用词语向量和词性向量进行语义计算。
2.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S1中,具体包括:
S11:去除无关字符,包括去除标点符号和乱码;
S12:统一表达规范,将中文语料都转为中文简体,将英文语料统一为英文小写;
S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。
3.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S2中,具体为:对语料中分词后的每个词语采用jieba分词词典进行词性标注。
4.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S3中,具体为:对词语向量和词性向量进行随机向量化,首先设定向量的维度,然后使用服从均匀分布的数据填充向量的每一维度。
5.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S5中,具体包括:
S51:构建哈夫曼树,该哈夫曼树的叶子节点为词向量;
S52:判断误差是否达到阈值,若未达到阈值,则继续训练网络,并返回步骤S4;若达到阈值,则停止训练,并执行步骤S6。
6.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S6中,具体为:从训练好的哈夫曼树中得到词语向量和词性向量。
7.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S7中,具体包括:
S71:词语向量余弦相似度的语义计算,输出给定词的前N个相似词,所述前N为正整数,从而找到与给定词相似的词语;
S72:词语和词性的语义计算,输出给定词对应的向量和给定词性对应的向量的和的相似词,从而找到与给定词相关的词性为给定词性的词语;
S73:词语语义范围的语义计算,选取若干个词语,递归找出与选取词语相关的词语,并绘制词语间的关系图,从而了解选取词语的语义范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州赫炎大数据科技有限公司,未经广州赫炎大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710452382.5/1.html,转载请声明来源钻瓜专利网。