[发明专利]文档网络主题建模方法、变分邻域编码器、终端及介质有效
申请号: | 202310135750.9 | 申请日: | 2023-02-20 |
公开(公告)号: | CN115879515B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 刘德喜;张子靖;刘嘉鸣;万齐智;邓辉 | 申请(专利权)人: | 江西财经大学 |
主分类号: | G06N3/047 | 分类号: | G06N3/047;G06N3/048;G06N3/084;G06F40/242 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 黄攀 |
地址: | 330000 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 网络 主题 建模 方法 邻域 编码器 终端 介质 | ||
本发明提供了一种文档网络主题建模方法、变分邻域编码器、终端及介质,该方法包括:获取文档网络集,并分别确定所述文档网络集中各文档的文档输入表示;将各文档的文档输入表示输入预训练后的变分邻域编码器进行编码处理,得到各文档的隐藏层表示,并根据所述隐藏层表示确定中心文档的表示;根据所述中心文档的表示确定文档‑主题分布,并根据所述文档‑主题分布确定主题‑词分布。本发明基于各文档的隐藏层表示能有效地确定到中心文档的表示,基于中心文档的表示能有效地确定到文档‑主题分布,基于文档‑主题分布能有效地确定到主题‑词分布,以达到对文档网络的主题建模效果。
技术领域
本发明涉及主题建模技术领域,尤其涉及一种文档网络主题建模方法、变分邻域编码器、终端及介质。
背景技术
文档网络是由文档及其关系组成的网络,例如,由学术论文互相引用组成的网络,由网页文本互相链接组成的网络等。文档网络作为文本数据的重要组成部分,获取文档网络中文档的主题能够让人们更好地理解文档的内容分布,因此,如何有效地对文档网络中的文档进行主题建模,是目前亟需解决的问题。
发明内容
本发明实施例的目的在于提供一种文档网络主题建模方法、变分邻域编码器、终端及介质,旨在解决现有技术中,如何能有效地对文档网络中的文档进行主题建模的问题。
本发明实施例是这样实现的,一种文档网络主题建模方法,所述方法包括:
获取文档网络集,并分别确定所述文档网络集中各文档的文档输入表示;
将各文档的文档输入表示输入预训练后的变分邻域编码器进行编码处理,得到隐藏层表示,并根据所述隐藏层表示确定中心文档的表示;
根据所述中心文档的表示确定文档-主题分布,并根据所述文档-主题分布确定主题-词分布。
进一步地,所述分别确定所述文档网络集中各文档的文档输入表示采用的公式包括:
;
;
;
其中,
进一步地,其特征在于,所述将各文档的文档输入表示输入预训练后的变分邻域编码器进行编码处理之前,还包括:
获取各样本文档的样本输入表示,并将各样本文档的样本输入表示输入所述变分邻域编码器进行编码处理,得到样本推断分布参数;
根据所述样本推断分布参数确定样本主题表示,并根据所述样本主题表示对各样本文档进行重构,得到重构文档;
根据所述各样本文档的样本推断分布参数和先验正态分布参数确定先验损失,并根据各样本文档和所述重构文档确定重构损失;
根据所述先验损失和所述重构损失对所述变分邻域编码器进行参数更新,直至所述变分邻域编码器收敛,得到预训练后的所述变分邻域编码器。
进一步地,所述根据所述各样本文档的样本推断分布参数和先验正态分布参数确定先验损失,并根据各样本文档和所述重构文档确定重构损失采用的公式包括:
;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西财经大学,未经江西财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310135750.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电动三轮车的变速装置
- 下一篇:设备保养的方法及系统