[发明专利]语义确定方法及装置有效
申请号: | 201610874450.2 | 申请日: | 2016-09-30 |
公开(公告)号: | CN107885718B | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 张博;林乐宇;夏锋;冯喆;陈磊;刘毅 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284 |
代理公司: | 11138 北京三高永信知识产权代理有限责任公司 | 代理人: | 朱雅男 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 确定 方法 装置 | ||
本发明公开了一种语义确定方法及装置,属于语义分析技术领域。所述方法包括:对文本内容进行分词,得到至少两个关键词;获取所述至少两个关键词中每个关键词的关联词语;若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
技术领域
本发明实施例涉及语义分析技术领域,特别涉及一种语义确定方法及装置。
背景技术
在文本挖掘领域,经常需要先确定文本内容的语义。
现有的语义确定方法为根据关键词的TF-IDF(Term Frequency–InverseDocument Frequency,词频-逆向文件频率)进行确定。具体的,该方法包括:对文本内容进行切词,得到各个关键词;对于每个关键词,获取该关键词在文本内容中出现的TF,计算该关键词的IDF,计算该关键词的TF与IDF的乘积,通过各个关键词的乘积表示文本内容的语义。
发明人在实现本发明实施例的过程中,发现现有技术至少存在以下问题:
当文本内容较短时,关键词的TF通常较小,此时通过TF-IDF确定得到的文本内容的语义的准确度较差。
发明内容
为了解决现有技术中存在的问题,本发明实施例提供了一种语义确定方法及装置。技术方案如下:
根据本发明实施例的第一方面,提供一种语义确定方法,该方法包括:
对文本内容进行分词,得到至少两个关键词;
获取所述至少两个关键词中每个关键词的关联词语;
若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
根据本发明实施例的第二方面,提供一种语义确定装置,该装置包括:
分词模块,用于对文本内容进行分词,得到至少两个关键词;
词语获取模块,用于获取所述至少两个关键词中每个关键词的关联词语;
相似度获取模块,用于若关键词p的关联词语中存在与关键词q相同的第一关联词语,则获取候选语义词组中的词语之间的语义相似度;所述候选语义词组包括所述关键词p和所述关键词q;
语义确定模块,用于根据每组候选语义词组以及所述候选语义词组所对应的语义相似度,确定所述文本内容的语义。
本发明实施例提供的技术方案带来的有益效果是:
通过获取每个关键词的关联词语,进而在关键词p的关联词语中存在与关键词q相同的第一关联词语时,获取候选语义词组中的词语之间的语义相似度,根据每组候选语义词组以及候选语义词组所对应的语义相似度,确定文本内容的语义;解决了现有技术中确定的文本内容的语义的准确度较低的问题;达到了通过获取各个关键词的关联词语来丰富文本内容的语义信息,进而提高确定的文本内容的语义的准确度的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610874450.2/2.html,转载请声明来源钻瓜专利网。