[发明专利]一种文本数据处理方法及其装置在审
| 申请号: | 202010518710.9 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN113779973A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 陈小宾;冯新平;韩啸天;边雪飞;忻贵春;翁宇旋;姚利刚 | 申请(专利权)人: | 杭州晨熹多媒体科技有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/289 |
| 代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
| 地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 数据处理 方法 及其 装置 | ||
1.一种文本数据处理方法,所述方法包括:
将获取的文本数据按照预定方式转换为候选短语;
确定每个候选短语中的分词是否属于至少一个预设词典;
若属于所述至少一个预设词典,则将对应的候选短语确定为可视化短语。
2.如权利要求1所述的方法,其中,将获取的文本数据按照预定方式转换为候选短语包括:
获取网页中的文本数据;
将所述文本数据按照标点符号拆分为文本分句;
利用所述文本分句生成候选短语。
3.如权利要求2所述的方法,其中,利用所述文本分句生成候选短语包括:
确定每个文本分句的长度是否小于预设阈值;
若文本分句的长度小于预设阈值,则所述文本分句被确定为候选短语。
4.如权利要求3所述的方法,所述方法还包括:
若文本分句的长度大于所述预设阈值,则确定大于所述预设阈值的文本分句中的分词的词性;
根据所述分词的词性,按照窗口设置方式从大于所述预设阈值的文本分句中提取出满足窗口大小的文本分句作为候选短语。
5.如权利要求2所述的方法,其中,在将所述文本数据按照标点符号拆分为文本分句前包括:
通过对所述文本数据执行预处理,将预处理后的文本数据执行拆分步骤。
6.如权利要求5所述的方法,其中,确定每个候选短语中的分词是否属于至少一个预设词典包括:
利用历史文本数据生成所述至少一个预设词典;
按照候选短语的词性,将候选短语划分为不同词性的分词;
确定每个分词是否属于所述至少一个预设词典。
7.如权利要求6所述的方法,其中,利用历史文本数据生成所述至少一个预设词典后包括:
基于所述至少一个预设词典,引入对应的同义词词典,生成对应的至少一个预设同义词词典。
8.如权利要求7所述的方法,其中,对应的候选短语确定为可视化短语后还包括:
将所述可视化短语中的每个分词按照所述至少一个预设同义词词典执行聚类,生成聚类后的可视化分词。
9.如权利要求1所述的方法,所述方法还包括:
从获取的文本数据中提取出多个高频分词;
对所述多个高频分词进行聚类处理,获取到聚类后的可视化分词。
10.如权利要求8所述的方法,所述方法还包括:
将所述可视化短语和可视化分词按照预设方式生成可视化词云。
11.如权利要求1所述的方法,其中,所述至少一个预设词典包括情感词词典和主体词词典。
12.一种文本数据处理装置,所述装置包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1至11中的任一权利要求所述的方法。
13.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至11中的任一权利要求所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州晨熹多媒体科技有限公司,未经杭州晨熹多媒体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010518710.9/1.html,转载请声明来源钻瓜专利网。





