[发明专利]文本语义分析方法有效

专利信息
申请号: 201811012430.X 申请日: 2018-08-31
公开(公告)号: CN109271626B 公开(公告)日: 2023-09-26
发明(设计)人: 谢前前;李欣;黄鲁成 申请(专利权)人: 北京工业大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/284;G06F40/211
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 语义 分析 方法
【说明书】:

一种文本语义分析方法与系统,可实现对文本数据基于词汇层面、句子层面的语义分析。针对词汇层面的语义分析,本发明首先采用改进分词算法,解决英文仅以空格分词带来的不足;其次基于分词基础进行TF‑IDF建模,得到权重值;然后将权重值与Word2Vec训练得到的词向量进行加权求和将文本向量化,最后求解文档相似度。本发明同时考虑词汇对文档内容贡献度和语义地位计算文档相似度,结果具有更高准确度,为后续的文本聚类提供良好的基础。针对句子层面的语义分析,本发明以文本分词、词性标注、句法分析、依存关系为基础,进行主谓宾结构提取。本发明实现了全方面、多种句子类型的主谓宾结构提取,并实现了名词扩展功能,更符合人工提取结果。

技术领域

本发明涉及自然语言处理中的文本语义分析方法,具体涉及文本数据词汇层面、句子层面语义分析方法与系统。

背景技术

随着互联网技术和信息技术的不断发展,以及大数据时代的来临,特定技术领域的数据不断丰富,数据总量越来越大,数据之间的关系也越来越复杂,如何准确且快速地从规模庞大的文本数据中提取有价值的信息成为现阶段我们面临的挑战。

文本分词是自然语言处理必经步骤,一个好的分词对后续建模分析有着至关重要的影响。现有的英文分词都是基于空格来划分英文单词,虽得到了广泛的应用,但针对某一特定研究领域,现有的英文分词方法无法满足研究人员需要。对文档进行分词处理后,可根据词形和词频计算文本相似度,虽然这种方法模型简单,易于构造,但是没有考虑到文本内容中词汇语义上的联系,无法解决“一词多义”和“一义多词”的问题,同时准确性也有待提升。为解决以上问题,研究者们提出基于语义分析的文本相似度求解算法,而基于语义分析的文本相似度在准确性方面虽有较大的提升。但现有的基于语义分析的文本相似度求解算法模型复杂,耗时耗力,无法快速地计算长文档之间的相似度。基于此,本发明针对目前英文分词无法得到专业技术词组以及长文本的文本相似度计算提供一种基于词汇层面的语义分析方法。

随着信息技术的不断发展,基于SAO结构的文本语义分析方法在很多领域得到了广泛的应用,SAO结构在表达语义的同时,还可以有效展示语句元素之间的语义关系,从而获得一个更加完整的语义理解。Sandford Parser虽然对英文文本的依存句法分析已经有一定的研究,但没有涉及不同句子类型的分析,且提供的分词、词性标注功能无法满足于特定专业领域的需要。基于此,本发明针对以上的不足提供一种基于句子层面的语义分析方法提取文本中SAO结构。

发明内容

本发明的目的就是针对现有技术的局限和不足,公开的一种文本语义分析方法与系统,涉及文本数据词汇层面、句子层面的语义分析方法。

本发明的目的可通过以下技术方案来实现:

文本语义分析方法与系统包括以下功能:

S1:对输入的非结构化文本数据进行基于词汇层面的语义分析;

S2:对输入的非结构化文本数据进行基于句子层面的语义分析。

为实现对输入的非结构化文本数据基于词汇层面的语义分析功能,本发明公开的方法包括:

步骤S1-1:对输入的非结构化文本数据进行文本预处理,分句,以及采用改进的分词算法进行分词,得到分词后文档。

步骤S1-2:利用TF-IDF模型对分词后文档进行建模,得到分词结果在文本中权重。

步骤S1-3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示。

步骤S1-4:将步骤S1-2中得到的权重值与步骤S1-3中得到的词向量表示进行加权求和,得到文档向量值表示。

步骤S1-5:针对文档向量值采用余弦相似度计算文档之间相似度。

为实现对输入的非结构化文本数据基于句子层面的语义分析功能,本发明公开的方法包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811012430.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top