[发明专利]一种基于文本主题模型的可视化分析系统在审
申请号: | 201610028107.6 | 申请日: | 2016-01-15 |
公开(公告)号: | CN105550365A | 公开(公告)日: | 2016-05-04 |
发明(设计)人: | 王健;张桂刚;杨颐;黄卫星 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京博维知识产权代理事务所(特殊普通合伙) 11486 | 代理人: | 郭文浩 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 主题 模型 可视化 分析 系统 | ||
1.一种基于文本主题模型的可视化分析系统,其特征在于,该系 统包括互联网文本数据采集模块、语料库模块、主题分析模块、主题聚 类模块、数据可视化模块;
互联网文本数据采集模块用于从互联网采集网页文本数据,并对所 采集到的各篇文本数据进行清洗;
语料库模块用于存储互联网文本数据采集模块清洗后的文本数据, 并对存储的网页文本数据进行中文分词和词频统计,生成包含单词与所 存储的网页文本数据之间的映射关系和词频统计数据的词频数据;
主题分析模块用于依据语料库模块生成的词频数据建立主题模型, 利用Gibbs抽样方法对所建立主题模型进行计算,存储并输出计算得到 的文档-主题向量集和主题-单词向量集;
主题聚类模块对主题分析模块输出的文档-主题向量集进行聚类分 析,存储并输出聚类数据;
数据可视化模块将主题分析模块和主题聚类模块输出的数据以图 形的显示出来;数据可视化模块还用于显示和调整语料库模块、主题分 析模块、主题聚类模块中可变参数。
2.如权利要求1所述的一种基于文本主题模型的可视化分析系统, 其特征在于,所述的互联网文本数据采集模块包括网页抓取单元和数据 清洗单元;
网页抓取单元用于从互联网上采集网页中的文本数据;该单元使用 网络爬虫技术,给出种子网站后,通过种子网站的链接跳转到其他网站, 实现自动网页爬行;
数据清洗单元用于将网页抓取单元采集的文本数据进行清洗,去除 与网页内容无关的数据,保留的数据包括网页的标题、作者、时间、出 处、以及正文内容。
3.如权利要求2所述的一种基于文本主题模型的可视化分析系统, 其特征在于,所述的语料库模块包含语料库构建单元、语料库、中文分 词单元、词频数据管理单元、词频库;
语料库构建单元用于将清洗过的文本数据存储在基于关系型数据 库的语料库中;
中文分词单元用于将语料库中的数据进行中文分词,并根据在该单 元中定义的停用词表去除与正文内容无关的停用词;
词频数据管理单元用将中文分词单元得到的分词结果进行词频统 计,将得到的统计数据存入词频库;词频库中所存储的词频数据包括分 词结果中各单词与语料库中的文本数据之间的映射关系和词频数据管 理单的统计数据;所述的统计数据包括分词结果中各单词在对应各篇文 本数据中出现的次数、各篇文本数据中所包含的每个单词的出现次数。
4.如权利要求3所述的一种基于文本主题模型的可视化分析系统, 其特征在于,所述的主题分析模块包含LDA主题模型构建单元、Gibbs 抽样计算单元、结果向量集管理单元、向量集数据库;
LDA主题模型构建单元用于根据词频数据构建LDA主题模型;
Gibbs抽样计算单元用于利用Gibbs抽样方法对LDA模型进行计算, 得到用于描述描述每篇文本数据中包含主题的文档-主题向量集和用于 描述每个主题中包含关键词的主题-单词向量集。
结果向量集管理单元用于将Gibbs抽样计算单元得到的向量集保存 到基于关系型数据库的向量集数据库中。
5.如权利要求4中所述的一种基于文本主题模型的可视化分析系 统,其特征在于,所述的主题聚类模块包括聚类分析单元、主题聚类数 据集管理单元、文档聚类库;
聚类分析单元用于对文档-主题向量集进行聚类分析得到文本聚类 数据,文本聚类数据包括每个文档簇中所包含的文本、每篇文本所属的 文档簇;
主题聚类数据集管理单元用于将文本聚类数据保存在基于关系型 数据库的文档聚类库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610028107.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种异构数据的整合方法及系统
- 下一篇:一种配置文件管理的方法和系统