[发明专利]一种基于词频共现分析的文献表示方法有效

申请号：	202010065058.X	申请日：	2020-01-20
公开（公告）号：	CN111259150B	公开（公告）日：	2022-07-19
发明（设计）人：	牛奉高;闫涛	申请（专利权）人：	山西大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06F40/216
代理公司：	太原申立德知识产权代理事务所(特殊普通合伙) 14115	代理人：	程园园
地址：	030006***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词频分析文献表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于文本挖掘技术领域，具体涉及一种基于词频共现分析的文献表示方法。本发明通过数据收集引入布尔权重，构建VSM，根据CLSVSM计算出共现矩阵，获得特征词的出现频次以及特征词之间两两共现频次和共现相对强度矩阵，引入指标集，构建CLSVSM，整理文本数据，从文本分词中搜寻并对应统计相关频次，最后构建文本词频向量；基于词频共现分析方法，运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型。本发明构建新的文本向量空间从而提升文本分类检索的效果。

技术领域

本发明属于文本挖掘技术领域，具体涉及一种基于词频共现分析的文献表示方法。

背景技术

近几年，大数据观念深入人心，由于信息量的急剧增长，文献资源的丰富在给人们提供巨大便利的同时，数量巨大和种类繁多也带来存储处理和有效检索的困扰，传统文本信息检索方法虽然提高了不同文献的辨识度且起到了一定分类作用，但是并没有挖掘文献之间内在语义联系，耗时长且检索效率不高。因此，其数据化表示和存储也成为了人们关注的焦点，尤其是复杂数据的稀疏化得到了人们的关注。对于文献资源，文献主题聚类再到文献聚类，文献特征向量的表示起着关键作用。文献的数据化表示是文献的抽象表示，能够通过相关数据处理从而深入剖析文献间的关系，进而大大提高了文献资源检索，聚合的效率，同时跟上文本信息更新的大步伐，保证信息处理的时效性。

基于文本特征词共现关系构建的共现潜在语义向量空间模型(CLSVSM)被牛奉高提出，该模型充分提取关键词与文献之间的语义信息，并且对VSM进行改进，引入最大共现强度作为模型权重，以更好地分析关键词与文本之间的共现关系，而文本特征词在文本中词频能很好反应文本内容信息，因此本研究通过先将CLSVSM中文本潜在语义信息用特征项对应词频重新估计，然后再将词频信息赋予共现潜在语义信息，构建了词频加权模型。

发明内容

针对上述问题本发明提供了一种基于词频共现分析的文献表示方法。

为了达到上述目的，本发明采用了下列技术方案：

一种基于词频共现分析的文献表示方法，包括以下步骤：

步骤1，数据收集以及准备：搜索并提取每篇文献的关键词，将文献所在主题名、篇名以及对应关键词导出，三者一一对应，将不能下载以及关键词不存在的文献予以剔除，将文献下载保存，最终处理得到研究的原始数据；

步骤2，以关键词为特征项，以每篇文献为空间向量，引入布尔权重，即某一特征项存在于某篇文献则赋值为1，否则赋值为0，构建向量空间模型(VSM：Vector Space Model)；

步骤3，根据CLSVSM计算出共现矩阵，获得特征词的出现频次以及特征词之间两两共现频次；

步骤4，计算特征词之间的共现相对强度矩阵；

步骤5，以I_i1＝{j丨a_ij＝1}为选取指标集，即所有a_ij＝1的特征词j的集合。将关键词共现信息引入向量空间模型中，构建CLSVSM；

步骤6，文本数据整理，将每一篇文献进行分词处理，并统计出每个词在文本中的出现次数；根据构建CLSVSM的关键词集合，从文本分词中搜寻并对应统计相关频次，最后构建文本词频向量；

步骤7，提出文献表示方法：基于词频共现分析方法，运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型。

进一步，所述步骤2，以关键词为特征项，以每篇文献为空间向量，引入布尔权重，即某一特征项存在于某篇文献则赋值为1，否则赋值为0，构建VSM，具体操作为：