[发明专利]短文本的生成方法、装置、存储介质和终端设备有效
| 申请号: | 201810712807.6 | 申请日: | 2018-06-29 |
| 公开(公告)号: | CN108959256B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 王臻;刘家辰;肖欣延;吕雅娟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06F40/186 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 生成 方法 装置 存储 介质 终端设备 | ||
1.一种短文本的生成方法,其特征在于,包括:
获取用于生成短文本的槽位词;
根据所述槽位词,提取与所述槽位词关联的短文本模板;其中,所述短文本模板预先与所述槽位词关联存储;所述短文本模板包括内嵌有槽位的短文本;
将所述槽位词填入所述短文本模板中与所述槽位词匹配的槽位,生成短文本;
根据变分自编码器模型的编码器,对所述槽位词进行编码,获得与所述槽位词对应的短文本的隐向量,对所述隐向量进行调整,获得泛化隐向量,根据所述变分自编码器模型的解码器,对所述隐向量和所述泛化隐向量进行解码,获得短文本;
根据待生成的短文本模板的文本领域和文本属性,确定所述短文本模板包含的关键词;其中,所述文本领域包括类目名称,所述文本属性包括十大、排列、榜单、榜首、热搜或排名;
根据所述短文本模板包含的关键词,从搜索日志的查询标题中检索候选标题;其中,所述搜索日志用于记载搜索引擎所执行的搜索和包含所述查询标题的搜索结果;所述查询标题包含关键词;
根据实体词类型,确定所述候选标题中的实体词;其中,所述实体词类型包括地点和时间;以及
以所述实体词作为槽位词,将所述槽位词从所述候选标题中去除,得到新的短文本模板,并将所述槽位词与所述新的短文本模板关联存储;其中,所述新的短文本模板为榜单标题模板。
2.如权利要求1所述的短文本的生成方法,其特征在于,所述方法还包括:
根据预设的短文本模板的过滤词,从所述候选标题中排除包含所述过滤词的候选标题。
3.如权利要求2所述的短文本的生成方法,其特征在于,所述方法还包括:
对检索到的候选标题进行去重;以及
将生成的短文本模板进行去重,并将去重的短文本模板关联的槽位词进行合并。
4.如权利要求1至3中任一项所述的短文本的生成方法,其特征在于,包括:
将用于生成短文本的槽位词和根据所述槽位词生成的短文本组成训练数据;
利用所述训练数据训练得到序列生成模型,所述序列生成模型用于利用输入的槽位词输出对应的短文本。
5.如权利要求4所述的短文本的生成方法,其特征在于,所述序列生成模型包括基于注意力机制的序列生成模型,所述训练数据还包括根据所述槽位词生成的短文本时所利用到的短文本模板所包括的关键词。
6.如权利要求4所述的短文本的生成方法,其特征在于,所述序列生成模型包括所述变分自编码器模型。
7.如权利要求4所述的短文本的生成方法,其特征在于,所述方法还包括:
将所述训练数据中的槽位词输入所述序列生成模型进行计算;
将计算结果与所述训练数据中的短文本进行比对,以调整所述序列生成模型;其中,所述计算的方式包括网络集束搜索的优化方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810712807.6/1.html,转载请声明来源钻瓜专利网。





