[发明专利]基于聚类等级关系自动识别方法、系统、设备及存储介质在审

申请号：	202011138197.7	申请日：	2020-10-22
公开（公告）号：	CN112307204A	公开（公告）日：	2021-02-02
发明（设计）人：	张凯;刘杰;周建设;赵晴	申请（专利权）人：	首都师范大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06F40/247
代理公司：	北京清控智云知识产权代理事务所(特殊普通合伙) 11919	代理人：	管士涛
地址：	100089 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于等级关系自动识别方法系统设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请的提出了一种基于聚类的词间等级关系自动识别方法，通过结合同现统计和分布相似度计算，然后对词间的等级关系进行识别。其中，通过调整因子对DICE测度的计算方式进行改进；再者，在相似度计算上增加了一个调整系数；然后，将各个词进行聚类，形成簇；根据等级系数将簇内的词化到各等级中，并对其识别上下位关系。

技术领域

本申请涉及人工智能领域，具体而言，涉及一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。

背景技术

网络的飞速发展，带来了信息资源的爆炸性增长，为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中，如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式，这种方法简单可行，查找方便，具有较高的检全率，但检索返回的信息过多，其中只有很少一部分符合检索者的要求，检准率低，同时，也存在漏检和误检现象。利用规范化控制的叙词表，将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护，以及在网络信息检索环境中的应用都面临着一定的困难，因而研究如何自动构造自然语言叙词表具有十分重要的意义。

因此，如何准确自动识别词间关系，是目前急需解决的技术问题。

发明内容

为了解决上述如何自动识别词间关系的技术问题，本申请提供了一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。

本申请的第一方面提供了一种基于聚类的词间等级关系自动识别方法，所述方法包括：

S1、选定文档作为同现窗口，获取文档中的每个词，采用DICE测度对每个词进行关联度计算，并根据同现窗口的大小调整DICE测度的计算结果；

S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重，从而得到各个词间的关联度；

S3、从中选取一个词T，根据词T与其他词的同现权重，抽取与词T最相关的K个词，并构造特征向量；

S4、对各词通过层次聚类算法进行聚类，将各词单独划分为一簇，计算各个簇之间的语义相似度；设定阈值，将语义相似度小于阈值的簇进行合并，直至所有的词合并为一个大簇；

S5、将大簇内的词根据等级系数识别其上下位关系。

优选地，所述的各词之间的同现权重，其计算公式为：

其中，W(T_i,T_j)表示词T_i和T_j的同现权重，tf(T_iT_j)表示词T_i和T_j在文档中的同现频率，tf(T_i)表示词T_i在文档中的频率，WeightingFactor(T_i,T_j)为调整因子；