[发明专利]一种保留非结构化文本语义的文本可视化方法有效
| 申请号: | 201911081479.5 | 申请日: | 2019-11-07 |
| 公开(公告)号: | CN110781289B | 公开(公告)日: | 2022-07-15 |
| 发明(设计)人: | 周锋;汪文君;李小勇 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F40/106;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 保留 结构 文本 语义 可视化 方法 | ||
本发明提供了一种保留非结构化文本语义的社交媒体文本可视化方法,包括如下步骤:步骤S101,对输入本文进行分词、过滤、词性标注、获取依赖关系;步骤S102,基于词性标注与词汇间的依赖关系,构建句法二叉树,计算每条文本的情感极性,将文本集划分为正、负两类;步骤S103,分别对正负两类文本,基于词频与词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系;步骤S106,引入交互设计,使用户可关注局部细节。采用本发明的方法,实现对社交媒体文本的可视化,清晰呈现文本的情感取向、观点语义与舆论支持度,有效呈现文本信息,有助于文本分析。
技术领域
本发明涉及一种数据可视化技术领域,特别是涉及一种保留非结构化文本语义的文本可视化方法。
背景技术
数据可视化技术所涉及的传统学科有科学可视化和信息可视化,目的是从大数据中掘取信息、洞察知识,并以一种直观的方式展现出来。在可视化技术中,文本信息的可视化是一个重要研究分支。文本信息可视化是为了将大量文本中蕴含的语义特征(例如词语出现频率、词语重要程度、文本的逻辑结构、多文本的主题聚类、主题的动态变化趋势等)形象、直观地展现出来。
典型的本文可视化技术有word clouds(或tag clouds),将提取出的关键字按照一定规则进行排序(例如:词频),再根据一定的规律排列、布局,通过设置不同的字号、色彩或是字体等图形属性加以区分,实现对关键词的可视化。在能够很好地感知主题热度后,科研热点转向展示文本所蕴含的语义,即其逻辑结构和叙述模式。自此,一系列的文本语义结构可视化模型被提出,例如:DAViewer用树的形式展现某一文本的叙述结构,实现语义的可视化,与此同时,列表展现文本间的相似性统计、文本的修辞结构和具体的文本内容;DocuBurst则将文本的语义结构用放射状圆环来展示。
现有可视模型在一定程度上取得了良好的成果,但或关注感知整体内容,或关注反应文本本身语义,限制了文本分析能力。故发明提出一种新型可视化结构,既能够感知情感走势,又能够保留非结构化文本自身的语义内容,并以直观、形象的方式展示给用户,便于舆情分析者或是普通用户更好地感知文本信息。
发明内容
有鉴于此,本发明设计了一种保留非结构化文本语义的文本可视化方法,包括如下步骤:
步骤S101,对输入本文进行分词、过滤、词性标注和词汇间依赖关系的获取;
步骤S102,基于词性标注与词汇间的依赖关系,计算每条文本的情感极性,将文本集划分为正、负两类;
步骤S103,分别对正负两类文本,基于词频和词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;
步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;
步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系;
步骤S106,引入交互设计,使用户可关注局部细节。
步骤S102中计算单条文本情感极性的具体方法为:首先利用句法分析器进行句法分析,得到词语之间的依赖关系和单个词汇的情感极性,再基于所得依存关系,为句子构建句法二叉树结构,利用词语间的依赖关系和规则的方法,将句子情感判断转化为基于树的符号计算。
步骤S102中构建句法二叉树的具体方法为:第一步,创建空栈,读入句首词汇;第二步,若下一个词汇不存在,跳转至第五步,否则,读入下一个词汇;第三步,读取栈顶两个节点的依存关系,若存在依存关系,则生成父节点,并依据情感计算规则计算父节点的词性,进入下一步;若不存在依存关系,则跳转到第二步;第四步,若此时栈内多余两个节点,则跳转至第三步,否则,跳转至第二步;第五步,输出栈内节点的情感极性,即整条文本的情感极性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911081479.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汉语由字组词方法及装置
- 下一篇:一种长篇章结构化文本摘要提取方法





