[发明专利]搜索相关词的方法及装置、存储介质和终端设备有效
申请号: | 201710425702.8 | 申请日: | 2017-06-07 |
公开(公告)号: | CN107368525B | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 李贤 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 相关 方法 装置 存储 介质 终端设备 | ||
1.一种搜索相关词的方法,其特征在于,包括:
接收键入的关键词,从词条数据库中获取所述关键词的第一相关词集;所述第一相关词集中的相关词包括所述关键词;
将所述第一相关词集中的每一个相关词的第二相关词集的并集作为第三相关词集;其中,所述每一个相关词的第二相关词集是从所述词条数据库中获取的;
对所述第一相关词集中的每一个相关词,根据所述第三相关词集中的每一个词在所述相关词的第二相关词集中记载的词频,构建所述相关词的向量;
根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并根据所获取到的相似度选取所述关键词的相关词;
其中,所述第一相关词集中的第i个相关词为bi,则所述第i个相关词bi的向量为其中,m为所述第三相关词集的词的个数,cx为所述第三相关词集中的第x个词;为所述第三相关词集中的第x个词cx在所述第i个相关词bi的第二相关词集中记载的词频。
2.如权利要求1所述的搜索相关词的方法,其特征在于,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
3.如权利要求1所述的搜索相关词的方法,其特征在于,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述第三相关词集中的第x个词cx在以所述关键词a为相关词的第二相关词集中记载的词频。
4.如权利要求1所述的搜索相关词的方法,其特征在于,所述关键词为a,则所述关键词a与所述第一相关词集中的第i个相关词为bi的相似度为:
其中,为所述关键词a的向量。
5.如权利要求1至4任一项所述的搜索相关词的方法,其特征在于,所述根据所述第一相关词集中的每一个相关词的向量,获取所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词的相似度,并选取所述关键词的相关词,具体为:
根据所述第一相关词集中的每一个相关词的向量,计算所述第一相关词集中任意两个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词作为所述关键词的相关词;
或者,具体为:
根据所述第一相关词集中的每一相关词的向量,计算所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度;
根据所述关键词与所述第一相关词集中的与所述关键词不相同的每一个相关词之间的相似度,选取满足相似度阈值的与所述关键词不相同的相关词。
6.如权利要求1至4任一项所述的搜索相关词的方法,其特征在于,以所述关键词或所述第一相关词集中的每一个相关词作为输入词,从所述词条数据库中获取相关词集的过程,具体为:
根据所述输入词,从词条数据库中获取包含所述输入词且排序在第M位前的词条;
根据标准词条格式,对获取的词条进行格式调整;
调用分词工具;
利用所述分词工具对格式调整后的词条进行分词,获得词语集;
从所述词语集中提取属于用户词典中的核心词的词语作为所述输入词的相关词集的元素;其中,所述用户词典是由所述分词工具提供的,所述相关词集记载有每一个元素出现在所述第M位前的词条的词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710425702.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对话生成方法、装置以及电子设备
- 下一篇:一种数据处理方法及装置