[发明专利]一种基于词向量增强的短文本主题抽取方法有效
| 申请号: | 201810816147.6 | 申请日: | 2018-07-24 |
| 公开(公告)号: | CN109086375B | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 彭敏;高望;胡刚;谢倩倩;李冬 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于词向量增强的短文本主题抽取方法,具体涉及了一种新的短文本主题抽取模型,称为CRFTM(Condition Random Field regularized Topic Model)。首先,本发明设计了一种通用的短文本距离衡量方式——基于词向量的平均最小距离,通过将短文本聚合成伪文档来缓解稀疏性问题。其次,CRFTM还利用条件随机场(CRF)正则化模型,对语义相关的词语进行语义强化,使其以更高的概率分配至同一的主题。在新闻数据集上的实验结果表明,本发明的短文本主题抽取方法在主题连贯性指标上优于5种基准主题模型。 | ||
| 搜索关键词: | 一种 基于 向量 增强 文本 主题 抽取 方法 | ||
【主权项】:
1.一种基于词向量增强的短文本主题抽取方法,其特征在于,包括:步骤1、对短文本语料数据集进行预处理;步骤2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本,具体是基于以下定义:对于短文本s1和s2,计算出s1中的每个词与s2中每个词的词向量余弦相似度,并将其保存在距离矩阵D中;D中每行的最小距离平均值表示s1到s2的距离d(s1‑>s2),而每列的最小距离平均值表示s2到s1的距离d(s2‑>s1),则衡量s1,s2之间的距离的方式为
步骤3、识别伪长文本中的语义相关词对,为步骤4语义强化奠定基础;具体是首先判断词对中两个词的词向量余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其进行语义强化,否则,不进行语义强化;步骤4、基于主题模型CRFTM对强化后的伪长文本进行主题抽取,具体是利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;步骤5、利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810816147.6/,转载请声明来源钻瓜专利网。





