[发明专利]一种基于词频共现分析的文献表示方法有效

申请号：	202010065058.X	申请日：	2020-01-20
公开（公告）号：	CN111259150B	公开（公告）日：	2022-07-19
发明（设计）人：	牛奉高;闫涛	申请（专利权）人：	山西大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06F40/216
代理公司：	太原申立德知识产权代理事务所(特殊普通合伙) 14115	代理人：	程园园
地址：	030006***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词频分析文献表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于词频共现分析的文献表示方法，其特征在于：包括以下步骤：

步骤1，数据收集以及准备：搜索并提取每篇文献的关键词，将文献所在主题名、篇名以及对应关键词导出，三者一一对应，将不能下载以及关键词不存在的文献予以剔除，将文献下载保存，最终处理得到研究的原始数据；

步骤2，以关键词为特征项，以每篇文献为空间向量，引入布尔权重，即某一特征项存在于某篇文献则赋值为1，否则赋值为0，构建VSM；

步骤3，根据VSM计算出共现矩阵，获得特征词的出现频次以及特征词之间两两共现频次；

步骤4，计算特征词之间的共现相对强度矩阵；

步骤5，以I_i1＝{j丨a_ij＝1}为选取指标集，即所有a_ij＝1的特征词j的集合；将关键词共现信息引入向量空间模型中，构建CLSVSM；其中，i表示第i篇文献；a_ij表示第j个关键词是否出现在第i篇文献中，出现则为1，否则为0；

步骤6，文本数据整理，将每一篇文献进行分词处理，并统计出每个词在文本中的出现次数；根据构建CLSVSM的关键词集合，从文本分词中搜寻并对应统计相关频次，最后构建文本词频向量；

步骤7，提出文献表示方法：基于词频共现分析方法，运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型；

所述步骤7提出文献表示方法：基于词频共现分析方法，运用元素替换法和加权法分别构建词频CLSVSM和词频加权模型；

所述构建词频CLSVSM，具体操作为：

对于CLSVSM和词频模型而言，二者分别反映了文本的不同语义信息，为了更好分析二者关系，以q_ij为选择指标，将CLSVSM中共现权重用相应的词频权重重新估计，也就是将文本内容信息补充到CLSVSM中，从而构建如下模型：

其中：ψ表示词频向量与词频CLSVSM中向量的对应关系；f_i为文本词频向量；

当q_ij＝0时，不用关键词词频重新估计，ω_ij＝0；当q_ij≠0时，用相对应关键词词频重新估计，则有ω_ij＝x_ij；

所述构建词频加权模型，具体操作为：

其中：τ表示词频向量与词频加权模型中文本向量的对应关系；k_ij表示词频加权模型中，第j个关键词在第i篇文献中所占权重；

当q_ij＝0时，关键词在文本中权重不变；当q_ij≠0时，用q_ij*ω_ij重新估计，综合了文本潜在语义信息和词频信息，最终构建了词频加权模型。

2.根据权利要求1所述的一种基于词频共现分析的文献表示方法，其特征在于：所述步骤2，以关键词为特征项，以每篇文献为空间向量，引入布尔权重，即某一特征项存在于某篇文献则赋值为1，否则赋值为0，构建VSM，具体操作为：

d_i＝(a_i1，a_i2，…，a_im)∈R^D，i＝1，…n，j＝1，…m

其中：R^D表示所有文献构成的向量空间，d_i表示n篇文献中第i篇文献，a_ij为第j个关键词在第i篇文献中的所占权重，当第j个关键词是文献d_i的关键词时a_ij等于1，否则为0，最终得到文献集的“篇-词”矩阵A＝(a_ij)_n×m。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010065058.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载