[发明专利]基于聚类等级关系自动识别方法、系统、设备及存储介质在审
申请号: | 202011138197.7 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112307204A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 张凯;刘杰;周建设;赵晴 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/247 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 等级 关系 自动识别 方法 系统 设备 存储 介质 | ||
本申请的提出了一种基于聚类的词间等级关系自动识别方法,通过结合同现统计和分布相似度计算,然后对词间的等级关系进行识别。其中,通过调整因子对DICE测度的计算方式进行改进;再者,在相似度计算上增加了一个调整系数;然后,将各个词进行聚类,形成簇;根据等级系数将簇内的词化到各等级中,并对其识别上下位关系。
技术领域
本申请涉及人工智能领域,具体而言,涉及一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。
背景技术
网络的飞速发展,带来了信息资源的爆炸性增长,为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中,如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式,这种方法简单可行,查找方便,具有较高的检全率,但检索返回的信息过多,其中只有很少一部分符合检索者的要求,检准率低,同时,也存在漏检和误检现象。利用规范化控制的叙词表,将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护,以及在网络信息检索环境中的应用都面临着一定的困难,因而研究如何自动构造自然语言叙词表具有十分重要的意义。
因此,如何准确自动识别词间关系,是目前急需解决的技术问题。
发明内容
为了解决上述如何自动识别词间关系的技术问题,本申请提供了一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。
本申请的第一方面提供了一种基于聚类的词间等级关系自动识别方法,所述方法包括:
S1、选定文档作为同现窗口,获取文档中的每个词,采用DICE测度对每个词进行关联度计算,并根据同现窗口的大小调整DICE测度的计算结果;
S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;
S3、从中选取一个词T,根据词T与其他词的同现权重,抽取与词T最相关的K个词,并构造特征向量;
S4、对各词通过层次聚类算法进行聚类,将各词单独划分为一簇,计算各个簇之间的语义相似度;设定阈值,将语义相似度小于阈值的簇进行合并,直至所有的词合并为一个大簇;
S5、将大簇内的词根据等级系数识别其上下位关系。
优选地,所述的各词之间的同现权重,其计算公式为:
其中,W(Ti,Tj)表示词Ti和Tj的同现权重,tf(TiTj)表示词Ti和Tj在文档中的同现频率,tf(Ti)表示词Ti在文档中的频率,WeightingFactor(Ti,Tj)为调整因子;
优选地,所述的调整因子,其计算公式为:
min(length(di))表示词Ti和Tj同现文档中的最小长度,表示同现文档的平均长度,k为同现文档篇数。
优选地,所述的特征向量,其计算公式为:
V(T)=(T1,W1,T2,W2,…,Tk,Wk)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011138197.7/2.html,转载请声明来源钻瓜专利网。