[发明专利]一种保留非结构化文本语义的文本可视化方法有效

专利信息
申请号: 201911081479.5 申请日: 2019-11-07
公开(公告)号: CN110781289B 公开(公告)日: 2022-07-15
发明(设计)人: 周锋;汪文君;李小勇 申请(专利权)人: 北京邮电大学
主分类号: G06F16/338 分类号: G06F16/338;G06F40/106;G06F40/284;G06F40/289;G06F40/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 保留 结构 文本 语义 可视化 方法
【说明书】:

发明提供了一种保留非结构化文本语义的社交媒体文本可视化方法,包括如下步骤:步骤S101,对输入本文进行分词、过滤、词性标注、获取依赖关系;步骤S102,基于词性标注与词汇间的依赖关系,构建句法二叉树,计算每条文本的情感极性,将文本集划分为正、负两类;步骤S103,分别对正负两类文本,基于词频与词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系;步骤S106,引入交互设计,使用户可关注局部细节。采用本发明的方法,实现对社交媒体文本的可视化,清晰呈现文本的情感取向、观点语义与舆论支持度,有效呈现文本信息,有助于文本分析。

技术领域

本发明涉及一种数据可视化技术领域,特别是涉及一种保留非结构化文本语义的文本可视化方法。

背景技术

数据可视化技术所涉及的传统学科有科学可视化和信息可视化,目的是从大数据中掘取信息、洞察知识,并以一种直观的方式展现出来。在可视化技术中,文本信息的可视化是一个重要研究分支。文本信息可视化是为了将大量文本中蕴含的语义特征(例如词语出现频率、词语重要程度、文本的逻辑结构、多文本的主题聚类、主题的动态变化趋势等)形象、直观地展现出来。

典型的本文可视化技术有word clouds(或tag clouds),将提取出的关键字按照一定规则进行排序(例如:词频),再根据一定的规律排列、布局,通过设置不同的字号、色彩或是字体等图形属性加以区分,实现对关键词的可视化。在能够很好地感知主题热度后,科研热点转向展示文本所蕴含的语义,即其逻辑结构和叙述模式。自此,一系列的文本语义结构可视化模型被提出,例如:DAViewer用树的形式展现某一文本的叙述结构,实现语义的可视化,与此同时,列表展现文本间的相似性统计、文本的修辞结构和具体的文本内容;DocuBurst则将文本的语义结构用放射状圆环来展示。

现有可视模型在一定程度上取得了良好的成果,但或关注感知整体内容,或关注反应文本本身语义,限制了文本分析能力。故发明提出一种新型可视化结构,既能够感知情感走势,又能够保留非结构化文本自身的语义内容,并以直观、形象的方式展示给用户,便于舆情分析者或是普通用户更好地感知文本信息。

发明内容

有鉴于此,本发明设计了一种保留非结构化文本语义的文本可视化方法,包括如下步骤:

步骤S101,对输入本文进行分词、过滤、词性标注和词汇间依赖关系的获取;

步骤S102,基于词性标注与词汇间的依赖关系,计算每条文本的情感极性,将文本集划分为正、负两类;

步骤S103,分别对正负两类文本,基于词频和词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;

步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;

步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系;

步骤S106,引入交互设计,使用户可关注局部细节。

步骤S102中计算单条文本情感极性的具体方法为:首先利用句法分析器进行句法分析,得到词语之间的依赖关系和单个词汇的情感极性,再基于所得依存关系,为句子构建句法二叉树结构,利用词语间的依赖关系和规则的方法,将句子情感判断转化为基于树的符号计算。

步骤S102中构建句法二叉树的具体方法为:第一步,创建空栈,读入句首词汇;第二步,若下一个词汇不存在,跳转至第五步,否则,读入下一个词汇;第三步,读取栈顶两个节点的依存关系,若存在依存关系,则生成父节点,并依据情感计算规则计算父节点的词性,进入下一步;若不存在依存关系,则跳转到第二步;第四步,若此时栈内多余两个节点,则跳转至第三步,否则,跳转至第二步;第五步,输出栈内节点的情感极性,即整条文本的情感极性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911081479.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top