[发明专利]一种自然语言信息的处理方法在审
| 申请号: | 202010595643.0 | 申请日: | 2020-06-28 | 
| 公开(公告)号: | CN111753088A | 公开(公告)日: | 2020-10-09 | 
| 发明(设计)人: | 汪秀英 | 申请(专利权)人: | 汪秀英 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06N3/04 | 
| 代理公司: | 长沙正务联合知识产权代理事务所(普通合伙) 43252 | 代理人: | 郑隽;吴婷 | 
| 地址: | 410205 湖南省长沙市高新*** | 国省代码: | 湖南;43 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 自然语言 信息 处理 方法 | ||
1.一种自然语言信息的处理方法,其特征在于,所述方法包括:
利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;
利用预训练的LC-CRF模型提取自然语言向量的前后信息以及局部特征信息,并对每个字符向量进行标注,从而依据每个字符的类别进行分词;
提取歧义词的词汇单元向量,并构成歧义词特征矩阵;
将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;
利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重;
利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,选择前N个权重比较大的词语作为关键词;
将所述自然语言信息中的关键词向量,作为基于分段池化层的神经网络的输入,从而利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。
2.如权利要求1所述的一种自然语言信息的处理方法,其特征在于,所述利用Huffman树将自然语言信息进行存储,包括:
取一个适当大小的窗口当做语境,将所述自然语言信息输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;
输出层是一个巨大的二叉树,叶节点代表自然语言信息中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是Huffman树;
隐层的每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有K条连边,每条边上也会有权值。
3.如权利要求2所述的一种自然语言信息的处理方法,其特征在于,所述利用LC-CRF模型对每个字符向量进行标注,从而依据每个字符的类别进行分词,包括:
LC-CRF模型将经过卷积运算的字符向量输入到输出层中,所述输出层对自然语言向量l中每一个句子向量s进行评分,所述评分函数为:
其中:
i为句子向量s中的第i个字符;
λ为超参数;
li为给第i个字符注明的词性;
li-1为给第i-1个字符注明的词性;
对所述评分分数进行指数化和标准化处理,即可以得到自然语言向量l中一个句子向量s的词性标注正确概率值,若该概率值大于0.8,则认为该句子向量的词性标注正确,本发明则根据所标注的词性进行分词处理,否则将自然语言向量重新输入LC-CRF模型进行分词处理,所述概率值计算公式为:
其中:
l为自然语言向量;
s为自然语言向量中的一个句子向量。
4.如权利要求3所述的一种自然语言信息的处理方法,其特征在于,所述提取歧义词的词汇单元向量,包括:
根据所述自然语言向量,对于自然语言信息中所存在的歧义词汇w,本发明分别提取歧义词汇w左侧第二个词汇单元向量FL2,左侧第一个词汇单元向量FL1,右侧第一个词汇单元向量FR1,右侧第二个词汇单元向量FR2;
以词汇单元向量FL2、FL1、FR1和FR2为基础,构造特征矩阵Feature={FL2,FL1,FR1,FR2}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪秀英,未经汪秀英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010595643.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锑氧化物溶胶的合成方法及阻燃助剂
- 下一篇:一种绞线模具
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





