[发明专利]一种自然语言信息的处理方法在审

专利信息
申请号: 202010595643.0 申请日: 2020-06-28
公开(公告)号: CN111753088A 公开(公告)日: 2020-10-09
发明(设计)人: 汪秀英 申请(专利权)人: 汪秀英
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06F40/30;G06N3/04
代理公司: 长沙正务联合知识产权代理事务所(普通合伙) 43252 代理人: 郑隽;吴婷
地址: 410205 湖南省长沙市高新*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自然语言 信息 处理 方法
【权利要求书】:

1.一种自然语言信息的处理方法,其特征在于,所述方法包括:

利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;

利用预训练的LC-CRF模型提取自然语言向量的前后信息以及局部特征信息,并对每个字符向量进行标注,从而依据每个字符的类别进行分词;

提取歧义词的词汇单元向量,并构成歧义词特征矩阵;

将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;

利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重;

利用基于词语综合权重的加权节点初始值及节点概率转移矩阵进行权重迭代更新,选择前N个权重比较大的词语作为关键词;

将所述自然语言信息中的关键词向量,作为基于分段池化层的神经网络的输入,从而利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。

2.如权利要求1所述的一种自然语言信息的处理方法,其特征在于,所述利用Huffman树将自然语言信息进行存储,包括:

取一个适当大小的窗口当做语境,将所述自然语言信息输入到窗口中,并将它们的K维向量加和在一起,形成隐藏层K个节点;

输出层是一个巨大的二叉树,叶节点代表自然语言信息中所有的词,语料含有V个独立的词,则二叉树有|V|个叶节点,而这整颗二叉树构建的算法就是Huffman树;

隐层的每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有K条连边,每条边上也会有权值。

3.如权利要求2所述的一种自然语言信息的处理方法,其特征在于,所述利用LC-CRF模型对每个字符向量进行标注,从而依据每个字符的类别进行分词,包括:

LC-CRF模型将经过卷积运算的字符向量输入到输出层中,所述输出层对自然语言向量l中每一个句子向量s进行评分,所述评分函数为:

其中:

i为句子向量s中的第i个字符;

λ为超参数;

li为给第i个字符注明的词性;

li-1为给第i-1个字符注明的词性;

对所述评分分数进行指数化和标准化处理,即可以得到自然语言向量l中一个句子向量s的词性标注正确概率值,若该概率值大于0.8,则认为该句子向量的词性标注正确,本发明则根据所标注的词性进行分词处理,否则将自然语言向量重新输入LC-CRF模型进行分词处理,所述概率值计算公式为:

其中:

l为自然语言向量;

s为自然语言向量中的一个句子向量。

4.如权利要求3所述的一种自然语言信息的处理方法,其特征在于,所述提取歧义词的词汇单元向量,包括:

根据所述自然语言向量,对于自然语言信息中所存在的歧义词汇w,本发明分别提取歧义词汇w左侧第二个词汇单元向量FL2,左侧第一个词汇单元向量FL1,右侧第一个词汇单元向量FR1,右侧第二个词汇单元向量FR2

以词汇单元向量FL2、FL1、FR1和FR2为基础,构造特征矩阵Feature={FL2,FL1,FR1,FR2}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪秀英,未经汪秀英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010595643.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top