[发明专利]一种航运及贸易数据的高频产品关键词及词组展示系统在审
申请号: | 202110633531.4 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113407616A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 童友俊 | 申请(专利权)人: | 大连瀚闻资讯有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/2458;G06F16/215;G06F16/35;G06F40/216;G06F40/237;G06F40/289 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 修睿;李洪福 |
地址: | 116000 辽宁省大连市高*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 航运 贸易 数据 高频 产品 关键词 词组 展示 系统 | ||
1.一种航运及贸易数据的高频产品关键词及词组展示系统,其特征在于,包括:
数据更新单元,自动通过邮箱获取客户提供的非结构型的文本数据,并将获取的数据传递至系统中,并使用清洗单元对数据进行整理;
清洗单元,用于获取原始航运及贸易数据,并将获取的数据清洗,基于清洗后的数据构建基本数据库;
高频产品关键词及词组挖掘单元,用于对历史数据进行分词处理,进行词频统计并计算出权重,提取出高频产品关键词及词组作为词库,再对更新数据进行分词处理,留取名词和词组,进行词频统计,对比词库获取权重较大的词和词组,并作词频排序,基于权重和阈值的对比,筛选结果;
存储单元,用于存储高频产品关键词及词组挖掘单元挖掘的结果;
可视化单元,用于将高频产品关键词及词组以日、月、年为单位,绘制不同的可视化图形报表。
2.根据权利要求1所述的航运及贸易数据的高频产品关键词及词组展示系统,其特征在于,获取的原始航运及贸易数据,将其非结构型数据转换成结构性数据利用SQL视图方法清洗数据。
3.根据权利要求1所述的航运及贸易数据的高频产品关键词及词组展示系统,其特征在于,所述高频产品关键词及词组挖掘单元使用基于隐马尔科夫模型的词性标注获得最大概率词性,具体地,
使用基于隐马尔科夫模型的词性标注,对英文标注词性语料使用HMM模型得到一个HMM链:
获得HMM链对历史数据分词进行此行判断,获得最大概率词性,将名词性最大概率单词筛选出来并获得该词前后相关的词组。
4.一种航运及贸易数据的高频产品关键词及词组展示系统,其特征在于,包括如下步骤:
获取原始航运及贸易数据;
将获取的非结构型数据转换成结构性数据,利用SQL视图方法清洗数据,清洗后构建成基本数据库;
对历史数据进行分词处理,留取名词和词组,剔除停用词和无意义词;进行词频统计并计算出权重,提取出高频产品关键词及词组作为词库;再对更新数据进行分词处理,留取名词和词组,进行词频统计,对比词库获取权重较大的词和词组,并作词频排序,基于预设的阈值,筛选结果;
将输出的数据进行可视化处理。
5.根据权利要求1所述的航运及贸易数据的高频产品关键词及词组展示系统,其特征在于,所述将输出的数据进行可视化处理前,还包括如下步骤:重新构造数据源为结构性数据和计算出的高频产品关键词及词组数据存储至sql server数据库中,使用sql的视图进行规范性的清洗,重构数据库的数据存入hadoop分布式系统中,作为可视化网站的后台数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连瀚闻资讯有限公司,未经大连瀚闻资讯有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110633531.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置