[发明专利]文本语义分析方法有效
申请号: | 201811012430.X | 申请日: | 2018-08-31 |
公开(公告)号: | CN109271626B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 谢前前;李欣;黄鲁成 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F40/211 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文本语义分析方法与系统,可实现对文本数据基于词汇层面、句子层面的语义分析。针对词汇层面的语义分析,本发明首先采用改进分词算法,解决英文仅以空格分词带来的不足;其次基于分词基础进行TF‑IDF建模,得到权重值;然后将权重值与Word2Vec训练得到的词向量进行加权求和将文本向量化,最后求解文档相似度。本发明同时考虑词汇对文档内容贡献度和语义地位计算文档相似度,结果具有更高准确度,为后续的文本聚类提供良好的基础。针对句子层面的语义分析,本发明以文本分词、词性标注、句法分析、依存关系为基础,进行主谓宾结构提取。本发明实现了全方面、多种句子类型的主谓宾结构提取,并实现了名词扩展功能,更符合人工提取结果。 | ||
搜索关键词: | 文本 语义 分析 方法 | ||
【主权项】:
1.文本语义分析方法,其特征在于,涉及两个粒度的文本语义处理,包括:S1:对输入的非结构化文本数据进行基于词汇层面的语义分析;S2:对输入的非结构化文本数据进行基于句子层面的语义分析;其特征在于:基于词汇层面语义分析S1的具体过程为:步骤S1‑1:对输入的非结构化文本数据进行文本预处理,分句,以及采用改进分词算法进行分词,得到分词后文档;步骤S1‑2:利用TF‑IDF模型对分词后文档进行建模,得到分词结果在文本中权重;步骤S1‑3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示;步骤S1‑4:将步骤S1‑2中得到的权重值与步骤S1‑3中得到的词向量表示进行加权求和,得到文档向量值表示;步骤S1‑5:针对文档向量值采用余弦相似度计算文档之间相似度;基于句子层面语义分析S2的具体过程为:步骤S2‑1:对输入的非结构化文本数据进行文本预处理,分句以及采用步骤S1‑1中分词算法进行分词,得到分词后文档;步骤S2‑2:利用组合标注器方法对分词后的文档进行词性标注,得到词性标注集;步骤S2‑3:以步骤S1‑1中的文本分词、步骤S2‑2中的词性标注、句法分析、依存关系为基础,对输入的非结构文本数据进行主谓宾结构提取,提取文本信息中的主语,谓语,宾语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811012430.X/,转载请声明来源钻瓜专利网。