[发明专利]文本语义相似度的确定方法及装置有效
申请号: | 201611199224.5 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106776503B | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 董超 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 刘喆;刘铁生 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语义 相似 确定 方法 装置 | ||
本发明公开了一种文本语义相似度的确定方法及装置,涉及自然语言处理技术领域,解决了现有文本相似度计算方法无法实现文本语义上的相似度的计算的问题。本发明的方法包括:获取第一文本以及第二文本,第一文本和第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题Label LDA模型将第一文本以及第二文本分别转换为第一主题标签向量和第二主题标签向量,第一主题标签向量和第二主题标签向量中每个维度对应一个预设主题标签;根据向量相似度算法对第一主题标签向量和第二主题标签向量进行相似度计算,得到第一文本与第二文本之间的语义相似度值。本发明应用于文本相似度计算的过程中。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本语义相似度的确定方法及装置。
背景技术
在移动互联时代的背景下,信息的产生和流通是朝着更加智能化,更加海量化去发展,在这些庞大的信息海洋中,有很大一部分是文本信息。在日常生活中,我们每天都会从门户网站、社交网站接触到大量的新文本内容,如何将这些文本信息进行合理的归类并将其推送给合适的人群,就成为了人工智能领域的一重大课题。在对这些庞大的文本信息进行归类处理时,通常用到的技术是对文本的聚类。文本聚类是将一些有共同属性的文本聚合到一块,并形成一个类簇。目前,关于聚类的方法已经有很多种,不同的聚类方法在不同的场景中表现能力也是各有长短。然而,所有的聚类算法的一个共性就是需要比较样本之间的相似度,而这个相似度在文本聚类过程中显得尤为重要。
在具体实施的过程中,由于文本在计算机内部是以字符串形式来表示的,而相似度则是通过数值之间的关系来计算的。因此,在计算文本之间的相似度之前,必须要将文本进行向量化处理,然后将文本之间的相似度计算转换为两个向量之间的相似度计算。
目前对于文本向量化的方法主要有两种:一种是用词表词频的方式来对文本进行向量化处理,具体是将文本中的每一个不重复的词的身份标识作为文本对应的向量的一个维度,并将每个词出现的次数作为对应该维度的值,该种文本向量化的方式在计算的过程中会产生由于向量的维度过大而影响计算的效率,而且每个维度之间是相互独立的,无法体现词与词之间的语义关系,因此无法从整体上实现文本语义的相似度计算。另一种是基于词表权重选取方法的向量化处理,具体是通过计算文本中每个词在该文本中的权重,然后按照权重由大到小的顺序挑选出TOP N的词以及对应的权重作为该文本的向量,权重的计算方法目前比较流行的是一种加权技术(term frequency–inverse documentfrequency,TF-IDF)算法,这种向量化处理方法虽然在一定程度上能够过滤掉一些对文本贡献很小的词,但也不能表示词与词之间的语义关联性,因此,也无法在整体上实现文本语义的相似度计算。
发明内容
鉴于上述问题,本发明提供一种文本语义相似度的确定方法及装置,用以解决现有的文本相似度计算方法无法实现文本语义上的相似度的计算问题。
为解决上述技术问题,第一方面,本发明提供了一种文本语义相似度的确定方法,所述方法包括:
获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;
根据预设标签主题Label LDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;
根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。
第二方面,本发明提供了一种文本语义相似度的确定装置,所述装置包括:
文本获取单元,用于获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199224.5/2.html,转载请声明来源钻瓜专利网。