[发明专利]一种自然语言信息的处理方法在审

专利信息
申请号: 202010595643.0 申请日: 2020-06-28
公开(公告)号: CN111753088A 公开(公告)日: 2020-10-09
发明(设计)人: 汪秀英 申请(专利权)人: 汪秀英
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06F40/30;G06N3/04
代理公司: 长沙正务联合知识产权代理事务所(普通合伙) 43252 代理人: 郑隽;吴婷
地址: 410205 湖南省长沙市高新*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自然语言 信息 处理 方法
【说明书】:

发明涉及一种自然语言处理的技术领域,揭露了一种自然语言信息的处理方法,包括:利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;利用预训练的LC‑CRF模型对自然语言向量进行分词处理;提取歧义词的词汇单元向量,并构成歧义词特征矩阵;将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;基于词语综合权重的加权节点初始值及节点概率转移矩阵对每个词语的权重进行迭代更新,选择前N个权重比较大的词语作为关键词;将所述自然语言信息中的关键词向量作为输入向量,利用所述基于分段池化层的神经网络对自然语言信息中的情感进行识别。本发明实现了对自然语言信息的处理。

技术领域

本发明涉及自然语言处理的技术领域,尤其涉及一种自然语言信息的处理方法。

背景技术

现阶段,整个世界的信息化程度随着互联网技术的发展已经达到了新的高度,同时为人类社会的信息量带来的难以想象的增长速度。在生活中,海量的自然语言信息为人类带来便利的同时也带来了很大困扰,即如何从大规模的信息高效获取所需内容。

由于自然语言存在较大的复杂性,一方面,自然语言没有固定的模式,因此有着丰富的表达方式,人类表达思想时有着自己的习惯,因此不同的人在描述同一事物时其表述方式往往不同;另一方面,自然语言本身蕴含着丰富的信息,对于相同内容文字,不同的人可能有着不同的理解。因此,对于计算机系统而言,处理这些只有人类才能理解的内容丰富的自然语言组成的文本是十分困难的。

在现有技术中,对自然语言信息进行处理的方式主要为基于jieba进行分词,然后基于语义词典进行词义消歧,并使用关键词抽取算法对自然语言中的关键词进行抽取。由于jieba分词技术是基于Trie树结构实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,并未考虑到词与词之间的相互联系,因此分词结果并未包含词语中的内在信息;基于概率统计学的词义消歧方法,灵活性好,消歧效率高,但是消歧任务为语料库体量和类别所制约,其准确性较低,而基于语义词典的方法准确率较高,但构建词典需耗费大量的工作,效率难以提高,并且消歧方法单一;现有的关键词抽取算法主要为TextRank算法,该算法是基于图的排序算法,利用共现窗口实现部分词语之间的关系构建,对后续关键词进行排序,直接从文本本身中提取关键词,但是该方法没有分析词语重要性的不同是否会影响相邻节点权值转移的问题,并且没有利用文档语料库的整体信息,词语的权重信息并没有实际意义,不能区分连接上的强弱。

鉴于此,在实现基于词语间相互关系的自然语言信息分词,并准确对其中的歧义进行消除的基础上,如何对自然语言信息中的关键词信息进行抽取,并利用所抽取的关键词进行自然语言信息的分类,成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种自然语言信息的处理方法,在实现基于词语间相互关系的自然语言信息分词,并准确对其中的歧义进行消除的基础上,实现了对自然语言信息中的关键词信息进行抽取,并利用所抽取的关键词进行自然语言信息的分类。

为实现上述目的,本发明提供的一种自然语言信息的处理方法,包括:

利用Huffman树将自然语言信息进行存储,将所述自然语言信息转换为自然语言向量;

利用预训练的LC-CRF模型提取自然语言向量的前后信息以及局部特征信息,并对每个字符向量进行标注,从而依据每个字符的类别进行分词;

提取歧义词的词汇单元向量,并构成歧义词特征矩阵;

将歧义词特征矩阵输入预构建的词义消歧模型,利用所述词义消歧模型对歧义词的语义进行识别;

利用基于平均信息熵的权重计算算法计算自然语言信息中每个词汇向量的权重;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪秀英,未经汪秀英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010595643.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top