[发明专利]一种动态知识热点演化及趋势分析方法在审
| 申请号: | 202010528034.3 | 申请日: | 2020-06-11 |
| 公开(公告)号: | CN111694930A | 公开(公告)日: | 2020-09-22 |
| 发明(设计)人: | 侯颖;崔运鹏;刘娟 | 申请(专利权)人: | 中国农业科学院农业信息研究所 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/34;G06F16/35 |
| 代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 申星宇 |
| 地址: | 100081 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 动态 知识 热点 演化 趋势 分析 方法 | ||
1.一种动态知识热点演化及趋势分析方法,其特征在于:
包括以下步骤:
S10用户根据需求收集文献元数据,并输出或形成以制表符分隔且编码格式为UTF-8的包含标题、摘要等字段的记录文件;
S20对导出的文献元数据进行预处理工作;
S30选取预处理后文献元数据的摘要和出版年份,进行潜在主题的动态建模分析及文献主题的偏好计算得到热点单词;
S40对所述热点单词的主题聚类进行可视化,显示与每个主题每个年份最相关的热点单词;
S50对主题中热点单词的变化趋势进行可视化:用户选取主题中感兴趣的单词,通过曲线图显示该单词在时间序列上的变化趋势。
2.根据权利要求1所述的一种动态知识热点演化及趋势分析方法,其特征在于,收集文献元数据主要包括标题、摘要、出版年份等字段,文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型,数据集可以从Web of Science核心数据库导出对应的格式,或者为符合格式要求的其他自定义数据集。
3.根据权利要求1所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述预处理工作包括删除无效元数据、完成词干化、去停用词、清除无意义字符和识别短语步骤。
4.根据权利要求1所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述主题建模分析采用变分推断来近似后验分布。该方法基于如下假设:
1)数据按时间片划分;
2)与时间片t相关联的主题从与时间片t-1相关联的主题演变而来;
3)每个时间片使用K分量主题模型对文档建模。
5.根据权利要求1所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述热点单词的主题聚类进行可视化是对模型分析结果中热点单词的显示,按照主题分类显示各个时间片(如年份)的热点单词,单词按照模型分析结果的概率大小顺序显示。
6.根据权利要求1所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述可视化方法具体步骤如下:
1)获取用户选择的热点单词;
2)基于接收到的第一交互指令,对所述主题动态建模分析结果中的热点单词信息进行附加图示计算,所述图示包括等值点;基于所述主题动态建模分析结果中的热点单词信息渲染获得对应的相位点值;
3)基于接收到的第二交互指令,在所述栅格图形上连接多个所述相位点渲染所述附加图示获得曲线趋势图形。
7.根据权利要求1或4所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述主题动态建模分别以5、10、15、20、25不同的主题数量计算coherence值,以获得最佳的主题数量。
8.根据权利要求1或4所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述主题动态建模中分析时间片t上的序列语料的生成过程如下:
1)根据βt|β(t-1)~N(β(t-1),δ2I)生成时间片t上的主题-词汇概率分布βt;
2)根据αt|α(t-1)~N(α(t-1),δ2I)生成时间片t上的先验主题先验分布αt;
3)对于时间片t上的每一篇文章d,根据η~N(αt,a2I)生成时间片t上的文档-主题概率分布η;
4)对于文档d中的每一个单词n,根据Z~Mult(π(η))生成词-主题分配标识向量Z;根据W(t,d,n)~Mult(π(βt,z))生成词W(t,d,n)。
9.根据权利要求1所述的一种动态知识热点演化及趋势分析方法,其特征在于,所述主题动态建模分析文献或所述偏好计算使用的近似变分后验公式为:
上述变分方法优化潜在变量(主题βt,k,混合比例θt,d和主题指标Zt,d,n)上分布的参数。在{βk,1,...,βk,T}变分分布中,通过设置具有高斯“变分观测值”的动态模型保留主题的顺序结构。文档级潜在变量的变分分布中,每个比例向量θt,d被赋予自由Dirichlet参数γt,d;主题指标Zt,d,n被赋予自由多项式参数Φt,d,n。使用共轭梯度法来优化主题级变分观测,由此得到的自然主题参数{βk,1,...,βk,T}的变分近似结合了时间动态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010528034.3/1.html,转载请声明来源钻瓜专利网。





