[发明专利]一种文本数据处理方法及其装置在审
| 申请号: | 202010518710.9 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN113779973A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 陈小宾;冯新平;韩啸天;边雪飞;忻贵春;翁宇旋;姚利刚 | 申请(专利权)人: | 杭州晨熹多媒体科技有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/289 |
| 代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
| 地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 数据处理 方法 及其 装置 | ||
本申请公开了一种文本数据处理方法及其装置,所述方法包括:将获取的文本数据按照预定方式转换为候选短语;确定每个候选短语中的分词是否属于至少一个预设词典;若属于至少一个预设词典,则将对应的候选短语确定为可视化短语。采用本申请,使得用户表达的语义可读性更高且语义更丰富。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本数据处理方法及其装置。
背景技术
随着技术的发展,数据可视化可借助于图形化的手段,能够将相对晦涩的数据,通过可视的、交互的方式进行展示,从而形象、直观地表达出数据蕴含的信息和规律,因此作为新研究领域越来越受到人们关注。
词云作为数据可视化的重要展示方式,能够将网络文本(例如,评论)中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或者“关键词渲染”,从而过滤掉大量的文本信息。但是按照现有技术生成的词云通常晦涩难懂且信息重叠度高,因此,需要一种能够生成可读性高且信息丰富的技术方案。
上述信息仅作为背景信息被呈现以帮助理解本公开。至于任何上述信息是否可应用为针对本公开的现有技术,尚未做出决定,也未做出声明。
发明内容
本申请实施例提供一种文本数据处理方法及其装置,旨在至少解决以上提到的技术问题。
本申请实施例还提供一种文本数据处理方法,所述方法包括:将获取的文本数据按照预定方式转换为候选短语;确定每个候选短语中的分词是否属于至少一个预设词典;若属于至少一个预设词典,则将对应的候选短语确定为可视化短语。
本申请实施例还提供一种文本数据处理装置,所述装置包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以上方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现以上方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请的示例性实施例的文本数据处理方法可利用预设词典从文本数据中提取出可视化短语,使得呈现出的词云可读性更高且语义更丰富。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请的示例性实施例的文本数据处理系统的示图;
图2是根据本申请的示例性实施例的文本数据处理方法的步骤流程图;
图3是根据本申请的示例性实施例的生成至少一个预定词典的步骤流程图;
图4是根据本申请的示例性实施例提供的词云的示例图;
图5是根据本申请的另一示例性实施例的文本数据处理方法的步骤流程图;
图6是根据本申请的示例性实施例的文本数据处理装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是根据本申请的示例性实施例的文本数据处理系统的示图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州晨熹多媒体科技有限公司,未经杭州晨熹多媒体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010518710.9/2.html,转载请声明来源钻瓜专利网。





