[发明专利]挖掘同义词的方法及装置在审

申请号：	202011200400.9	申请日：	2020-10-29
公开（公告）号：	CN112232065A	公开（公告）日：	2021-01-15
发明（设计）人：	贺飞艳;邵纪春;胡昕彤	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/247	分类号：	G06F40/247;G06F40/295;G06F40/30
代理公司：	深圳市隆天联鼎知识产权代理有限公司 44232	代理人：	朱黎
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	挖掘同义词方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，具体提供了一种挖掘同义词的方法及装置，该方法包括：由第一模型构建实体词集合中各实体词的词向量，第一模型是根据共现图中的实体词序列对Skip‑gram模型进行无监督训练得到的，共现图是根据从若干样本问答语料中所提取的实体词构建的；计算实体词集合中选定的基准实体词所对应词向量和实体词集合中除基准实体词外的其他实体词所对应词向量之间的相似度；根据相似度，确定基准实体词对应的候选同义词集合；由第二模型预测基准实体词与候选同义词集合中每一候选同义词为同义词的概率；根据所预测得到的概率对候选同义词集合中的候选同义词进行筛选，确定基准实体词的同义词。本申请实现了自动挖掘同义词。

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种挖掘同义词的方法及装置。

背景技术

互联网逐渐成为信息分享和信息获取的途径。通常，用户若想获取到所需要的信息，需要先输入检索词，然后由搜索引擎根据检索词进行检索，向用户返回检索结果。但是由于表达的多样性，一实体可能存在多种表达方式，如果用户所输入的检索词仅仅是一种表达方式，那么按照所输入的检索词进行检索所得到的结果可能与用户实际想要的内容相差很大，或者无法检索到用户实际想要的内容。因此，为了提高检索的效率，有必要进行同义词挖掘。

发明内容

本申请的实施例提供了一种挖掘同义词的方法及装置，以实现自动挖掘同义词。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种挖掘同义词的方法，包括：

由第一模型构建实体词集合中各实体词的词向量，所述第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的，所述共现图是根据从若干样本问答语料中所提取的实体词构建的；

计算所述实体词集合中选定的基准实体词所对应词向量和所述实体词集合中除所述基准实体词外的其他实体词所对应词向量之间的相似度；

根据所述相似度，确定所述基准实体词对应的候选同义词集合；

由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率；

根据所预测得到的概率对所述候选同义词集合中的候选同义词进行筛选，确定所述基准实体词的同义词。

根据本申请实施例的一个方面，提供了一种挖掘同义词的装置，所述装置包括：

词向量构建模块，用于由第一模型构建实体词集合中各实体词的词向量，所述第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的，所述共现图是根据从若干样本问答语料中所提取的实体词构建的；

计算模块，用于计算所述实体词集合中选定的基准实体词所对应词向量和所述实体词集合中除所述基准实体词外的其他实体词所对应词向量之间的相似度；