[发明专利]短文本的生成方法、装置、存储介质和终端设备有效
| 申请号: | 201810712807.6 | 申请日: | 2018-06-29 |
| 公开(公告)号: | CN108959256B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 王臻;刘家辰;肖欣延;吕雅娟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06F40/186 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 生成 方法 装置 存储 介质 终端设备 | ||
本发明提出一种短文本的生成方法、装置、存储介质和终端设备,其中,所述方法包括:获取用于生成短文本的槽位词;根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。采用本发明,可以实现生成过程的语义可控。
技术领域
本发明涉及计算机技术领域,尤其涉及一种短文本的生成方法、装置、存储介质和终端设备。
背景技术
随着互联网的发展,网上信息也随之膨胀。在信息量不断拓展的情况下,如果需要保证人工编缉的的深度和广度,则人工编缉的效率低。基于此,利用机器来实现文本自动生成的技术随之应运而生,很大程度上可以节省人工编辑的时间和精力,提高编缉的效率。但是,机器生成的内容难以控制,容易出现与预先设定的语义不匹配的情况。因而,如何在文本生成的过程中保证语义的可控性是目前亟需解决的问题之一。
发明内容
本发明实施例提供一种短文本的生成方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。
第一方面,本发明实施例提供了一种短文本的生成方法,包括:
获取用于生成短文本的槽位词;
根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;以及
将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本。
结合第一方面,在第一方面的第一种实施方式中,所述方法还包括:
根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;
根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
根据实体词类型,确定所述候选标题的实体词;以及
以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,生成所述短文本模板,并将所述槽位词与所述短文本模板关联存储。
结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,所述方法还包括:
根据预设的短文本模板的过滤词,从所述候选标题中排除包含所述过滤词的候选标题。
结合第一方面的第一种实施方式,在第一方面的第三种实施方式中,所述方法还包括:
对检索到的候选标题进行去重;以及
将生成的短文本模板进行去重,并将去重的短文本模板关联的槽位词进行合并。
结合第一方面或其任一种实施方式,在第一方面的第四种实施方式中,包括:
将用于生成短文本的槽位词和根据所述槽位词生成的短文本组成训练数据;
利用所述训练数据训练得到序列生成模型,所述序列生成模型用于利用输入的槽位词输出对应的短文本。
结合第一方面的第四种实施方式,在第一方面的第五种实施方式中,所述序列生成模型包括基于注意力机制的序列生成模型,所述训练数据还包括根据所述槽位词生成的短文本时所利用到的短文本模板所包括的关键词。
结合第一方面的第四种实施方式,在第一方面的第六种实施方式中,所述序列生成模型包括变分自编码器模型;以及所述方法还包括:
根据所述变分自编码器模型的编码器,对所述槽位词进编码,获得与所述槽位词对应的短文本的隐向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810712807.6/2.html,转载请声明来源钻瓜专利网。





