[发明专利]一种自动生成语义相近句子样本的方法在审
申请号: | 201710109325.7 | 申请日: | 2017-02-27 |
公开(公告)号: | CN108509409A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 王昊;陈见耸;高鹏 | 申请(专利权)人: | 芋头科技(杭州)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 党蕾 |
地址: | 310000 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 句子 样本 自动生成 集合 词语 语言处理技术 分词处理 后续处理 后续句子 样本生成 语言模型 词向量 保留 排序 替换 | ||
1.一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其特征在于,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:
步骤S1,获取外部输入的句子样本;
步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;
步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;
步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;
步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:
若有,则返回所述步骤S4;
步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;
步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。
2.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述句子样本的类型包括:
句子类型,所述句子类型的所述句子样本中包括依序排列的多个所述词语;
句式类型,所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
所述步骤S1具体包括:
步骤S11,获取外部输入的所述句子样本;
步骤S12,判断所述句子样本的类型:
若所述句子样本为所述句式类型,则转向步骤S13;
若所述句子样本为所述句子类型,则直接转向所述步骤S2;
步骤S13,将所述句子样本中的每个所述词类标签分别替换成对应于所述词类标签的一高频词,以形成完整的所述句子样本,随后转向所述步骤S2。
3.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,采用一预设的分词方法预先训练并形成所述词向量模型;
则所述步骤S2中,采用所述预设的分词方法对所述句子样本进行分词处理。
4.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述步骤S4中,被选取并用于替换的所述相近词与被替换的所述词语之间具有相同的词性。
5.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述步骤S6中,每个所述语义相近句子样本的所述可能值为用于表示每个所述语义相近句子样本作为一个完整的句子成立的可能性的语义学评分。
6.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述语义相近句子样本的类型包括:
句子类型,所述句子类型的所述语义相近句子样本中包括依序排列的多个所述词语;
句式类型,所述句式类型的所述语义相近句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;
则所述步骤S7具体包括:
步骤S71,选取并保留前N个所述语义相近句子样本;
步骤S72,判断是否需要输出所述句式类型的所述语义相近句子样本:
若是,则转向步骤S73;
若否,则转向步骤S74;
步骤S73,将所述语义相近句子样本中包括的词语替换成对应的所述词类标签,以形成完整的所述语义相近句子样本,随后进行后续处理步骤;
步骤S74,根据被保留的所述语义相近句子样本进行后续处理步骤。
7.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述步骤S7中,选取并保留前N个所述语义相近句子样本后,输出包括被保留的所述语义相近句子样本的样本集合,以进行后续处理步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芋头科技(杭州)有限公司,未经芋头科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710109325.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种句子相似度判断方法
- 下一篇:文本语义相似度计算方法、装置及用户终端