[发明专利]一种基于二元和三元共词潜在语义信息的文献表示方法有效
申请号: | 201710096317.3 | 申请日: | 2017-02-22 |
公开(公告)号: | CN106844301B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 牛奉高 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/117;G06F40/284 |
代理公司: | 山西五维专利事务所(有限公司) 14105 | 代理人: | 郭海燕 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二元 三元 潜在 语义 信息 文献 表示 方法 | ||
本发明属于文献信息处理方法技术领域,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。本发明一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步:三元共现层矩阵表示;第五步:计算关键词之间的共词矩阵;第六步:三元共现频次的计算;第七步:共现强度计算;第八步:二元、三元加权CLSVSM的构建。
技术领域
本发明属于文献信息处理方法技术领域,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。
背景技术
文本数据挖掘是数据挖掘的一个主要方向,通过对出现在文本数据中的高频关键词进行词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些关键词按照出现频次由高到低的排列还不能表现出这些高频关键词之间的联系,因此可以采用共现分析的技术来进一步挖掘这些关键词之间的联系。关键词的共现分析是根据关键词在同一篇论文中共同出现的次数来表示关键词之间的联系。一般认为,如果两个关键词频繁在同一篇论文中同时出现,往往表明这两个关键词之间具有比较密切的联系,这就是共现分析的理论基础。
目前,对共现分析的研究大都考虑的两两词之间的共现关系,三词共现或者更多词的共现已可以进一步挖掘和利用。根据共现理论,多词共现更能凸现主题相似性,因此理论上讲,利用多词共现的信息能提高文本语义信息的挖掘。在国内冷伏海老师首次研究了三元共词,并定义了稳定度和影响力两个指标对三元共词进行量化。与之相近的概念是三重共现,首次由庞弘燊和方曙提出,指三个以上(含三个)相同类型或不同类型特征项共同出现的现象。本研究沿用“元”的概念,将两词、三词共现称为二元、三元共词或二元、三元共现,通过对关键词二元和三元共词信息的提取进而实现文献向量的表示。
发明内容
本发明的目的是提供一种基于二元和三元共词潜在语义信息的文献表示方法。
本发明为实现上述目的而采取的技术方案为:
一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:
第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1 al2 al3 … alm)T∈Rm,l=1,2,…,n
其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m;
第四步:三元共现层矩阵表示
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710096317.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动套袋机
- 下一篇:一种全自动棉签封装机组