[发明专利]一种文本相似度的确定方法及设备有效
| 申请号: | 201810022280.4 | 申请日: | 2018-01-10 | 
| 公开(公告)号: | CN108090047B | 公开(公告)日: | 2022-05-24 | 
| 发明(设计)人: | 周春;郑百成;黄妍明;方永毅;瞿荣;蒋运承 | 申请(专利权)人: | 华南师范大学 | 
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/253;G06K9/62 | 
| 代理公司: | 广州新诺专利商标事务所有限公司 44100 | 代理人: | 罗毅萍 | 
| 地址: | 510631 广东省*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 文本 相似 确定 方法 设备 | ||
本发明公开了一种新的文本相似度的确定方法及设备,能够准确地反映文本本身的相似程度。其中,文本相似度的确定方法包括:获取待确定相似度的第一文本和第二文本;确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本相似度的确定方法及设备。
背景技术
现有技术中判断两个文本的相似度,一般是通过将两个文本进行分词,然后判断两个文本中重复的字词。
但是若忽略了文本中的综合信息,例如,文本一“我今天追赶了一只狗”和文本二“一条狗今天追赶了我”,这两个文本语句的意思是相反的,但是按照目前绝大多数相似度算法,这两个文本中的划分的分词几乎一样,所以确定这两个文本的相似度较高,甚至是一样的,显然是不准确的。
可见,目前文本的相似度的计算方法得到的相似度的准确性较低,无法反映文本本身的相似程度。
发明内容
针对上述问题,本发明提供一种新的文本相似度的确定方法及设备,能够准确地反映文本本身的相似程度。
为解决上述技术问题,第一方面,提供一种文本相似度的确定方法,该确定方法包括:
获取待确定相似度的第一文本和第二文本;
确定所述第一文本的语法相似度、主题相似度,及确定所述第二文本的语法相似度、主题相似度;
根据确定的语法相似度和主题相似度确定所述第一文本和所述第二文本之间的相似度。
可选的,确定所述第一文本和所述第二文本的主题相似度,包括:
分别将所述第一文本和所述第二文本映射至主题空间;其中,所述第一文本及所述第二文本分别对应至少一个主题;
获取映射至所述主题空间的所述第一文本对应的至少一个第一主题向量及所述第二文本对应的至少一个第二主题向量;
根据所述至少一个第一主题向量、所述至少一个第二主题向量及第一预设规则,确定所述第一文本和所述第二文本的主题相似度;
其中,所述第一预设规则为:
其中,Stopic指示两个文本的主题相似度,A指示第一主题向量,B指示第二主题向量,Ai指示第i个第一主题向量,Bi指示第i个第二主题向量,n指示第一主题向量或第二主题向量的个数,i大于等于1且小于等于n。
可选的,确定所述第一文本和所述第二文本的语法相似度,包括:
将所述第一文本中的语句进行分割获得第一分词集,并将所述第二文本中的语句进行分割获得第二分词集;
通过斯坦福Stanford工具分别确定所述第一分词集及所述第二分词集中的语句的语法结构组成;
根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度。
可选的,所述语法结构包括至少一种语法结构类型,根据确定的所述第一分词集及所述第二分词集中的语句的语法结构组成,确定所述第一文本和所述第二文本的语法相似度,包括:
分别确定所述第一分词集包括语法结构类型及语法结构类型的数量,及所述第二分词集包括语法结构类型及语法结构类型的数量;
根据获取的所述第一分词集及所述第二分词集的语法结构类型及语法结构类型的数量,及第二规则确定所述第一文本和所述第二文本的语法相似度;
其中,所述第二规则为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810022280.4/2.html,转载请声明来源钻瓜专利网。





