[发明专利]一种热点主题挖掘方法和系统在审
| 申请号: | 201910762850.8 | 申请日: | 2019-08-19 |
| 公开(公告)号: | CN110852085A | 公开(公告)日: | 2020-02-28 |
| 发明(设计)人: | 刘跃华 | 申请(专利权)人: | 湖南正宇软件技术开发有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284 |
| 代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 卢钟廷 |
| 地址: | 410000 湖南省长沙市高新开*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 热点 主题 挖掘 方法 系统 | ||
1.一种热点主题挖掘系统,其特征在于,包括主题数据库模块、关键词数据库模块、中文分词模块、中文名词打分模块、相似度分析模块和综合评分模块,其中,主题数据库模块,用于将数据对象划分为某一主题;关键词数据库模块,用于提取数据对象中涉及到的关键词;中文分词模块,用于将数据对象中的中文名称提取出来;中文名词打分模块,用于计算数据对象中每个中文名称的权重;相似度分析模块,用于计算数据对象之间的相似性;综合评分模块,用于对数据对象进行总体评分。
2.根据权利要求1所述的一种热点主题挖掘系统,其特征在于,所述主题数据库模块,通过积累的主题,将数据对象划分为某一主题。
3.根据权利要求2所述的一种热点主题挖掘系统,其特征在于,所述主题为青少年儿童保护;科技、经济、农业。
4.根据权利要求1所述的一种热点主题挖掘系统,其特征在于,所述关键词数据库模块将全国最新发布的地区数据库入库,包含全国所有的省市县区,以及村镇、街道信息入库,同时收集全国的园区信息、楼盘名,统一作为关键词数据库,用于提取数据对象中涉及到的关键词。
5.根据权利要求1所述的一种热点主题挖掘系统,其特征在于,所述中文分词模块采用中文分词IKAnalyzer,并搭配收集的中文词库,将数据对象中的中文名称提取出来。
6.根据权利要求1所述的一种热点主题挖掘系统,其特征在于,所述中文名词打分模块通过TF-IDF权重打分算法,计算数据对象中每个词语的权重,筛选出中文名词打分模块中的关键词;所述综合评分模块综合数据对象之间的内容相似度,涉及到关键词和主题作为参数进行总体评分。
7.根据权利要求5所述的一种热点主题挖掘系统,其特征在于,所述中文词库为信息词库;相似度分析模块利用余弦算法,计算数据对象之间的相似度。
8.一种热点主题挖掘方法,其特征在于,步骤为:数据对象的使用用户选择待办理的数据对象提交至权利要求1所述的一种热点主题挖掘系统分析,开始审查数据对象,选择中文分词模块对数据对象内容进行中文分词,并利用中文名词打分模块对所有中文名词打分后排名,选择权重高的词作为关键词列表,根据关键词列表,与主题数据库和关键词数据库,得到该数据对象所属的主题和关键词;同时,相似度分析模块通过数据对象数据库计算数据对象之间的内容相似度,通过对关键词、主题、内容相似度综合评分后,返回可合并的数据对象列表,供用户参考。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求8中所述的方法。
10.一种存储有计算机程序的存储介质,其特征在于,该程序被处理器执行时实现如权利要求8中所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南正宇软件技术开发有限公司,未经湖南正宇软件技术开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910762850.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置和驱动显示装置的方法
- 下一篇:操作MRI装置的方法





