[发明专利]基于多层级地理的精准高效网络舆情检测及预警方法在审
| 申请号: | 201811149977.4 | 申请日: | 2018-09-29 |
| 公开(公告)号: | CN109388749A | 公开(公告)日: | 2019-02-26 |
| 发明(设计)人: | 金勇;李力 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9537 |
| 代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
| 地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多层级 地理 网络舆情 监测 知识库 预警 网络舆情信息 不同条件 层次标记 地理标签 地理区域 定向监测 分层管理 热点区域 热点事件 实体识别 使用机器 学习算法 用户提供 舆情信息 展示效果 全面性 检测 分发 保证 重复 优化 改进 分析 帮助 | ||
1.基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于,包括以下步骤:
S1、使用多层级地理知识库与实体识别手段,对网络舆情信息进行分析,定位舆情发生地,打上相应的地理标签;
S2、使用机器学习算法优化舆情信息在不同条件下的展示效果。
2.根据权利要求1所述的基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于,所述步骤S1具体为:
S11、多层级地理知识库和机构名知识库以及当地信息库的构建;
S12、使用预先训练的深度学习模型,对采集数据进行实体消歧,对舆情文本信息进行预处理;
S13、使用多层级的地理标签对舆情数据进行标识,根据不同用户的实际需求推送舆情内容。
3.根据权利要求2所述的基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于,所述步骤S11具体为:
S111、构建多级的地址知识库、多层级的地理标识,明确各地理词之间的从属关系,所述地理标识通过官方的行政区划划分,分层级设置包括省、市、区以及县的多个层级的地理标识;
S112、构建用于采集数据的标识的政府机构名和其他机构名知识库;
S113、构建包括各地理词的别称、代称、简称,以及专有称谓的地方信息库。
4.根据权利要求2所述的基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于,所述步骤S12具体为:
S121、对所有采集数据通过字符串匹配的方式进行地理标签标记,覆盖可能的地理信息,减少账号数据遗漏;
S122、使用预先训练的深度学习模型,对标记的数据进行处理,识别出文本中的实体名,排除实体名再进行标注,同时通过文本摘要模型提取主题,使用tf-idf提取包括文章关键词的特征。
5.根据权利要求4所述的基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于,所述步骤S122中深度学习模型对标记的数据进行处理的过程具体为:
S1221、将标记的数据中的语料进行预处理;
S1222、将步骤S1221中预处理后的语料输入预设的学习模型,调整学习模型的参数并保存;
S1223、根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,对于未知语料,利用分词算法进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注;
S1224、将步骤S1223中初次标注的未知语料进行调优,对调优后的语料进行最终标注。
6.根据权利要求5所述的基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,所述步骤S1221中的预处理包括合并大粒度分词和统一格式。
7.根据权利要求5所述的基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,所述步骤S1222中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。
8.根据权利要求5所述的基于Bi-LSTM和CRF的文本序列标注方法,其特征在于,所述步骤S1224中的调优具体为:
a、对于分词没有结果的语料,在分词算法中加入词库强制分词;
b、对于训练语料中没有出现的语料,通过加入词库或者正则化处理方法进行调优。
9.根据权利要求2所述的基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于,所述步骤S13具体为:
S131、根据特定细分领域的要求,对相同标签的数据进行包括重要度排序、情感计算及事件聚类的操作;
S132、通过标记的层级关系来确定不同用户对应的标记信息,然后根据用户的需求呈现出不同的结果,上级用户可以显示下级用户的数据。
10.根据权利要求9所述的基于多层级地理的精准高效网络舆情检测及预警方法,其特征在于:
所述情感计算为使用情感词典和深度学习模型并用的方法,给出情感得分;
所述事件聚类为使用关键词的simhash计算文本的距离,设定阈值,使相同事件聚在一起,并根据时间变换聚类中心;
所述重要度排序为根据舆情监测的业务词汇,以及用户在使用中的点击信息,对采集的舆情文本进行特征抽取,使用抽取的特征进行神经网络模型训练,输出结果在0到1之间代表重要程度,最后增加时间因素,调整用户数据的显示结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811149977.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种评论信息的回复方法、存储介质和服务器
- 下一篇:信息推送方法及装置





