[发明专利]一种自动生成语义相近句子样本的方法在审
申请号: | 201710109325.7 | 申请日: | 2017-02-27 |
公开(公告)号: | CN108509409A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 王昊;陈见耸;高鹏 | 申请(专利权)人: | 芋头科技(杭州)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 党蕾 |
地址: | 310000 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 句子 样本 自动生成 集合 词语 语言处理技术 分词处理 后续处理 后续句子 样本生成 语言模型 词向量 保留 排序 替换 | ||
本发明公开了一种自动生成语义相近句子样本的方法,属于语言处理技术领域;方法包括:获取句子样本并进行分词处理;采用词向量模型得到与每个词语的语义相近的相近词的集合;分别从集合中选取一个相近词并替换词语,以形成语义相近句子样本;采用语言模型,分别针对每个语义相近句子样本生成用于表示语义可能性的可能值,并按照可能值由高至低对所有语义相近句子样本排序;选取并保留前N个语义相近句子样本,以根据被保留的语义相近句子样本进行后续处理步骤。上述技术方案的有益效果是:能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本,省去了大量的人力工作。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自动生成语义相近句子样本的方法。
背景技术
现有技术中,在自然语言的处理过程中,很多处理任务都需要大量语义相近的句子或句式集合,这些语义相近的句子或句式的集合通常需要人工来编写,因此会耗费大量的人力和时间。
随着自动化技术的发展,越来越多的语义相近句子的编写过程可以由自动化的方式实现。目前大批量获得语义相近的句子集合的方式主要有以下几种:
1)采用检索式的方式获取大批量的语义相近句子。所谓检索式方式,是指在海量的候选句子中通过一定的检索式找到语义相近的句子集合。这种方法应用的前提首先是需要有海量的候选句子集合,并且在采用检索式查找并生成语义相近句子的过程中对于语义相似度查找模块的性能要求非常高,即语义相似度查找模块的性能决定了采用检索式方式获取的语义相近句子的精确程度。
2)采用sequence to sequence的方式获取大批量的语义相近句子。这种方式目前在学术科研领域的研究非常活跃,但是采用这种方式在实际应用中生成的很多句子并不合理,其性能并不是很好,因此缺乏一定的实用性。
发明内容
根据现有技术中存在的上述问题,现提供一种自动生成语义相近句子样本的方法的技术方案,旨在有效地自动生成大批量的语义相近的句子样本,省去了大量的人力工作。
上述技术方案具体包括:
一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其中,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:
步骤S1,获取外部输入的句子样本;
步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;
步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;
步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;
步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:
若有,则返回所述步骤S4;
步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;
步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。
优选的,该自动生成语义相近句子样本的方法,其中,所述句子样本的类型包括:
句子类型,所述句子类型的所述句子样本中包括依序排列的多个所述词语;
句式类型,所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芋头科技(杭州)有限公司,未经芋头科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710109325.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种句子相似度判断方法
- 下一篇:文本语义相似度计算方法、装置及用户终端