[发明专利]基于条件熵下随机游走的FW-LDA主题识别方法在审
申请号: | 202110197982.8 | 申请日: | 2021-02-22 |
公开(公告)号: | CN113378551A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 邰悦;葛斌;蔡威林;李涵 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/284;G06F40/30;G06F40/216 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 随机 游走 fw lda 主题 识别 方法 | ||
本发明公开了一种基于条件熵下随机游走的FW‑LDA主题识别方法,该方法首先采用条件熵计算所有资源中任意两个资源之间的关联关系,并生成资源关系图;根据资源关系图使用随机游走方法获取每个资源的权重值;将每个资源的权重值作用于每个资源的特征词上并进行特征词加权方法计算;根据每个特征词的对应的权值形成一组加权向量并作用于FW‑LDA中,以及将文档输入FW‑LDA中用于获取文档资源的潜在主题。本发明充分考虑的不同资源的之间的潜在关联关系,有效提升模型对潜在主题的挖掘和语义理解性上的提高。
技术领域
本发明属于互联网标签与评论文本挖掘领域,具体是一种基于条件熵下随机游走的FW-LDA主题识别方法。
背景技术
随着在线电子商务平台和社交平台的爆炸式发展,各大电商平台和网站都提供了各种的标注服务。这些数据来源于用户对图像,视频,商品,音乐等进行了自我选择和自主化标注,这些标注称之为社交标签。社会化标注系统是Web2.0时代的重要应用方式之一,也是网络信息管理方式的新潮流,为网络信息资源进行有效利用提供了一个良好的平台。可以更好的了解web资源对象和用户意图与喜好。社会化标注系统允许广大互联网用户在一个自由开放的环境中根据自身的亲身体验,喜好或者其他理解对感兴趣的网络资源进行评价或者标注。这样的网络资源的种类是丰富多样的,如:文字类型的文档资源,社交平台的文字评论内容,电商平台的商品文字评价内容,多媒体类型的电影、音乐、视频和图片等;而标签种类可以是平台进行提供给用户进行选择,也可以是用户根据自己喜好进行标注。标签词汇可以是现有词汇表中的词或短语,也可以是当今社会流行创作的新词汇,作为一种社会用户产生的元数据,标签包含着特别的语义信息。
现有主题识别的主流方法为使用常规聚类算法,如使用K-Means,谱聚类等,还有就是LDA或者LDA的改进模型,如基于词袋模型的LDA主题识别方法或者使用LDA的各种改进模型如s-LDA,L-LDA等,以上主题识别方法在主题建模方面取得了良好的效果,但是这些方法都存在着缺陷:资源之间存在独立同分布特性,导致识别精度较低,潜在主题质量不高,语义理解性较差等问题。
发明内容
本发明的目的是提供一种基于条件熵下随机游走的FW-LDA主题识别方法,该基于条件熵下随机游走的FW-LDA主题识别方法,可以解决互联网资源之间存在的独立同分布特性,更好的在主题区分度和语义可理解性上提高文本的主题识别效率和质量。
本发明实现发明目的采用如下技术方案:
一种基于条件熵下随机游走的FW-LDA主题识别方法的特点是按如下步骤进行:
步骤1、基于原始互联网文本资源,包括社会化标签和评论,构建语料库;对语料库进行停止词预处理,得到预处理后的语料库,其中以文档集合的形式表示,假设有M个资源,记为R={r1,r2,…,ri,…,rM},并构建所有资源的资源分布图re_G=(R);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110197982.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备及其控制方法
- 下一篇:容纳部组件及用于其的锁定系统