[发明专利]话题演变的可视化展现方法、应用服务器及计算机可读存储介质有效
申请号: | 201810031859.7 | 申请日: | 2018-01-12 |
公开(公告)号: | CN108170838B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 王健宗;吴天博;黄章成;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种话题演变的可视化展现方法,包括:提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;从多个所述主题中筛选出包含重要事件的多个第一主题;提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的话题演变的可视化展现方法、应用服务器及计算机可读存储介质可将一事件的话题演变过程进行可视化显示,让用户能够快速地了解和分析整个事件的演变过程。 | ||
搜索关键词: | 话题 演变 可视化 展现 方法 应用 服务器 计算机 可读 存储 介质 | ||
提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;
从多个所述主题中筛选出包含重要事件的多个第一主题;
提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及
将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
2.如权利要求1所述的可视化展现方法,其特征在于,所述可视化展现方法还包括:对所述多个文本资料进行预处理,所述预处理包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号。
3.如权利要求1所述的可视化展现方法,其特征在于,所述建立所述主题流的步骤之后还包括:识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及
对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。
4.根据权利要求1所述的可视化展现方法,其特征在于,所述确定每一所述主题之间的关联关系,以建立一主题流的步骤包括:通过分层狄利克雷过程确定每一所述主题之间的关联关系,以建立所述主题流;
其中,所述分层狄利克雷过程包括计算从时刻t‑1到时刻t,簇r中来自簇s的比例,及从时刻t‑1到时刻t,簇s中流向簇r的比例,以确定每一所述主题之间的关联关系,将t时刻到来的第i个资料记为xit,其所在的簇记为zit,所述簇r中来所述自簇s的比例通过以下公式计算得到:
所述簇s中流向所述簇r的比例通过以下公式计算得到:
利用信息熵算法来计算每一所述主题的分值;及
根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题;
其中,所述信息熵算法的计算公式为:
R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。
6.根据权利要求1所述的可视化展现方法,其特征在于,所述提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系的步骤包括:利用TF‑IDF算法提取每一所述第一主题的关键字;及
通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。
7.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的话题演变的可视化展现系统,所述话题演变的可视化展现系统被所述处理器执行时实现如下步骤:提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;
从多个所述主题中筛选出包含重要事件的多个第一主题;
提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及
将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
8.如权利要求7所述的应用服务器,其特征在于,所述建立所述主题流的步骤之后还包括:识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及
对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。
9.如权利要求7所述的应用服务器,其特征在于,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:利用信息熵算法来计算每一所述主题的分值;及
根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题;
其中,所述信息熵算法的计算公式为:
R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有话题演变的可视化展现系统,所述话题演变的可视化展现系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1‑6中任一项所述的话题演变的可视化展现方法的步骤。该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810031859.7/,转载请声明来源钻瓜专利网。