[发明专利]基于人工智能的用于生成文本的方法和装置有效
申请号: | 201710787262.0 | 申请日: | 2017-09-04 |
公开(公告)号: | CN107526725B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 刘毅 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 用于 生成 文本 方法 装置 | ||
本申请实施例公开了基于人工智能的用于生成文本的方法和装置。该方法的一具体实施方式包括:获取待扩展文本;切分待扩展文本,得到待扩展文本的词序列;根据预先存储的词与标识信息的对应关系,确定与词序列对应的标识信息序列;将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列;根据所生成的标识信息序列和词与标识信息的对应关系,生成扩展后的文本。该实施方式提高了文本生成的多样性。
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及基于人工智能的用于生成文本的方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
目前,对文本进行扩展时,主要基于预先建立的离线数据库实现,即将待扩展文本中的词替换为离线数据库中与其语义相近的词,以生成扩展后的文本。
然而,目前采用的文本生成方法,由于离线数据库维护成本较高,且数据有限,所以文本生成结果较为局限。影响了了文本生成的多样性。
发明内容
本申请实施例的目的在于提出一种改进的基于人工智能的用于生成文本的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种基于人工智能的用于生成文本的方法,该方法包括:获取待扩展文本;切分待扩展文本,得到待扩展文本的词序列;根据预先存储的词与标识信息的对应关系,确定与词序列对应的标识信息序列;将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,其中,文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系;根据所生成的标识信息序列和词与标识信息的对应关系,生成扩展后的文本。
在一些实施例中,文本扩展模型包括编码模型和解码模型,编码模型用于表征标识信息序列与编码信息序列之间的对应关系,解码模型用于表征预先设置的起始词的标识信息、编码信息序列二者与标识信息序列之间的对应关系;以及将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,包括:将所确定的标识信息序列输入编码模型,生成待扩展文本的编码信息序列;将所生成的编码信息序列和起始词的标识信息输入解码模型,生成扩展后的文本的标识信息序列。
在一些实施例中,将所确定的标识信息序列输入编码模型,生成待扩展文本的编码信息序列,包括:将所确定的标识信息序列中的各个标识信息正序输入用于编码的正向传播循环神经网络,生成第一参考编码信息序列;将所确定的标识信息序列中的各个标识信息倒序输入用于编码的反向传播循环神经网络,生成第二参考编码信息序列;根据第一参考编码信息序列和第二参考编码信息序列,生成待扩展文本序列的编码信息序列。
在一些实施例中,将所生成的编码信息序列和起始词的标识信息输入解码模型,生成扩展后的文本的标识信息序列,包括:基于用于解码的循环神经网络和所生成的编码信息序列,预测起始词的备选后续词序列的标识信息序列;根据所预测的每个标识信息序列包括的标识信息出现的概率,计算该标识信息序列出现的概率;从所预测的各个标识信息序列中按照出现的概率由大到小的顺序选择预定数目个标识信息序列,作为扩展后的文本的标识信息序列。
在一些实施例中,基于用于解码的循环神经网络和所生成的编码信息序列,预测起始词的备选后续词序列的标识信息序列,包括:根据注意力模型确定每次预测时所生成的编码信息序列的权重;根据权重对所生成的编码信息序列进行加权;基于用于解码的循环神经网络和加权后的编码信息序列,预测起始词的备选后续词序列的标识信息序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710787262.0/2.html,转载请声明来源钻瓜专利网。