[发明专利]一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质在审
申请号: | 202010623820.1 | 申请日: | 2019-04-16 |
公开(公告)号: | CN111859898A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中森云链(成都)科技有限责任公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 614100 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐藏 关联 网络 领域 文本 特征 抽取 方法 计算机 存储 介质 | ||
1.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被执行时实现基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于包括以下步骤:
步骤1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵;
步骤2:根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果;
步骤3:利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络;
步骤4:对于需要进行隐式特征抽取的句子,得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该隐式特征类中得到最可能的隐式特征词。
2.根据权利要求1所述的计算机可读存储介质,其特征在于:所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵,具体为:对语料进行分句、分词处理得到训练数据,使用训练数据进行词向量训练得到语料中每个词的词向量;对语料进行分句、分词、词性标注、依存分析预处理,从句子中选择可能的名词作为主体词加入主体词集,否则作为特征词候选,句子中的形容词作为观点词候选,根据依存分析得到的依存树,挑选被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集;统计出主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。
3.根据权利要求1所述的计算机可读存储介质,其特征在于:所述步骤2中根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果,具体为:首先根据所述步骤1训练得到的词向量在三个词集内部进行初步聚类,然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联,得到相互关联矩阵,利用词与词之间的关联相似度和内容相似度进行相互增强的迭代聚类,最终收敛得到主体-特征、特征-观点词集的聚类结果;利用主体-特征词集相互增强聚类得到的主体词集聚类结果,对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类,保证最后得到的特征词集聚类结果同时包含主体和观点信息;
聚类时,词之间的相似度度量定义如下:
其中,Scontent(Wi,Wj)表示词Wi和词Wj之间的词向量相似度,这里称Scontent(Wi,Wj)为词Wi和词Wj之间的内容相似度;Srel(Wi,Wj)表示词Wi和词Wj之间的相互关联矩阵中对应的关联向量相似度,这里称Srel(Wi,Wj)为词Wi和词Wj之间的关联相似度;表示内部相似度所占权重,对于两个词集F和O之间的相互增强聚类流程如下:
a.只考虑内容相似度,即词向量间的余弦相似度,将集合F中的词聚类成k个类;
b.根据集合F的聚类结果更新集合O的相互关联矩阵M1,对于集合O中的任何一个词Oi,词Oi对应的与集合F聚类结果之间的关联向量由表示,关联向量中的每个分量对应集合F聚类后的k个类之一,其中词Oi与集合F聚类后的第x个类之间的权重,是词Oi与第x个类中的所有词的同现频率之和,x∈[1,k];最终由集合O中n个词的关联向量构成新的n×k维的相互关联矩阵M1;
c.根据b中更新的集合O和集合F之间的相互关联矩阵M1,将集合O中的数据对象聚类成l个类;
d.根据集合O的聚类结果更新集合F的相互关联矩阵M2,对于集合F中的任何一个词Fi,词Fi对应的与集合O聚类结果之间的关联向量由表示,关联向量中的每个分量对应集合O聚类后的l个类之一,其中词Fi与集合O聚类后的第y个类之间的权重,是词Fi与第y个类中的所有词的同现频率之和,y∈[1,l];最终由集合F中m个词的关联向量构成新的m×l维的相互关联矩阵M2;
e.根据d中更新的集合F和集合O之间的相互关联矩阵M2,将集合F中的数据对象重新聚类为k个类;
f.迭代步骤b-e,直到两个词集的聚类结果收敛;
利用主体-特征词集相互增强聚类得到的主体词集聚类结果Sr,对特征-观点词集相互增强聚类得到的特征词集聚类结果Fr进行重新聚类的过程如下:
假设主体词集聚类结果Sr包含p个双向增强聚类得到的类,特征词集聚类结果Fr包含q个双向增强聚类得到的类;对于需要重新聚类的特征词集聚类结果Fr,Fr中的任意一个特征词Yi对应的与主体词集聚类结果Sr之间的关联向量由表示;关联向量R″i中的每个分量对应主体词集聚类结果Sr的p个类之一,其中是特征词Yi与主体词集聚类结果Sr的第z个类之间的权重,z∈[1,p];在特征词集聚类结果Fr的每个类中,特征词两两配对计算关联向量相似度进行比较,对关联向量相似度小于阈值t的特征词划分到新的类中,最终得到重新聚类后的特征词集Ffr。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中森云链(成都)科技有限责任公司,未经中森云链(成都)科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010623820.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种配电网综合优化运行方法
- 下一篇:一种多料道挤塑模头