[发明专利]语义确定方法及装置有效
申请号: | 201610874450.2 | 申请日: | 2016-09-30 |
公开(公告)号: | CN107885718B | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 张博;林乐宇;夏锋;冯喆;陈磊;刘毅 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284 |
代理公司: | 11138 北京三高永信知识产权代理有限责任公司 | 代理人: | 朱雅男 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 确定 方法 装置 | ||
1.一种语义确定方法,其特征在于,所述方法包括:
对文本内容进行分词,得到至少两个关键词;
获取所述至少两个关键词中每个关键词的关联词语;
若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
2.根据权利要求1所述的方法,其特征在于,所述获取所述至少两个关键词中每个关键词的关联词语,包括:
对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语;其中,n的起始值为0,第0层中的词语为所述至少两个关键词;
若n+1<V,则将n的取值加1,再次执行所述对于第n层中的每个词语,获取所述词语的语义关联词,将获取到的所述语义关联词作为第n+1层中的词语的步骤;V为大于等于1的整数;
若n+1=V,则将根据每个关键词获取到的各个词语作为所述关键词的关联词语。
3.根据权利要求2所述的方法,其特征在于,所述词语为多叉树中的父节点,所述将获取到的所述语义关联词作为第n+1层中的词语,包括:
将获取到的所述语义关联词作为所述父节点的子节点;
所述将根据每个关键词获取到的各个词语作为所述关键词的关联词语,包括:
对于每个关键词,将所述多叉树中所述关键词所对应的V层子节点中的词语确定为所述关键词的关联词语。
4.根据权利要求2所述的方法,其特征在于,所述获取所述词语的语义关联词,包括:
获取所述词语的m个所述语义关联词,所述m的取值为所述第n层所对应的数值,m为正整数。
5.根据权利要求2所述的方法,其特征在于,所述获取候选语义词组中的词语之间的语义相似度,包括:
获取所述关键词p与所述第一关联词语之间的语义相似度。
6.根据权利要求5所述的方法,其特征在于,所述第一关联词语为所述关键词p所对应的第k层中的词语,所述关键词p与所述第一关联词语之间的各个词语为pi,0≤i≤k,p0为所述关键词p,pk为所述第一关联词语;k为正整数;
所述获取所述关键词p与所述第一关联词语之间的语义相似度,包括:
根据所述关键词p与所述第一关联词语确定所述语义相似度,所述语义相似度为:
7.根据权利要求6所述的方法,其特征在于,获取到的所述词语的语义关联词的个数为m,m为正整数;
所述获取所述关键词p与所述第一关联词语之间的语义相似度之前,所述方法还包括:
对所述m个语义关联词与所述词语之间的m个语义相似度做归一化处理,得到归一化后的每个语义关联词与所述词语的语义相似度。
8.根据权利要求2所述的方法,其特征在于,若所述关键词q的关联词语中存在与所述关键词p相同的第二关联词语;
所述获取候选语义词组中的词语之间的语义相似度,包括:
确定所述第一关联词语和所述第二关联词语中所在层数较高的目标关联词语;
获取所述目标关联词语与所述目标关联词语所对应的关键词之间的语义相似度。
9.根据权利要求1至8任一所述的方法,其特征在于,所述根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义,包括:
选取所述每组候选语义词组中语义相似度大于预设阈值的候选语义词组,通过选择的所述候选语义词组表征所述文本内容的语义;
或者,
选取所述每组候选语义词组中语义相似度排名在前N位的候选语义词组,通过选取的所述候选语义词组表征所述文本内容的语义,N为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610874450.2/1.html,转载请声明来源钻瓜专利网。