[发明专利]一种文本改写的方法、装置、设备和计算机存储介质有效
申请号: | 201711138896.X | 申请日: | 2017-11-16 |
公开(公告)号: | CN108121697B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 袁德璋;付志宏;周古月;何径舟;张小彬;陈笑 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/166 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 改写 方法 装置 设备 计算机 存储 介质 | ||
本发明提供一种文本改写的方法,该方法包括:获取待改写的文本内容;确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。本发明通过对文本内容进行泛化得到泛化模板,进而根据所得到的泛化模板匹配与其对应的改写模板,依据匹配得到的改写模板对文本内容进行改写,从而实现对文本内容进行整句改写,提升文本内容的改写效果。
【技术领域】
本发明涉及自然语言处理技术,尤其涉及一种文本改写的方法、装置、设备和计算机存储介质。
【背景技术】
改写技术有着大量的应用需求,例如搜索引擎为了扩大召回,需要对用户query进行改写;一些文字资源为了提高多样性,需要用到改写;一些文章标题需要起的更好,同样需要用到改写。而现有的改写技术,大多都是基于统计机器翻译的框架进行的。虽然可控性强、准确率高,但是这种局部到局部的改写方法存在改写差异小、改写后的句子句式与原句相同、无法满足某些特定的改写需求等缺点。因此,亟需提供一种能够提升改写效果的文本改写的方法。
【发明内容】
有鉴于此,本发明提供了一种文本改写的方法、装置、设备和计算机存储介质,用于提升对文本内容的改写效果。
本发明为解决技术问题所采用的技术方案是提供一种文本改写的方法,所述方法包括:获取待改写的文本内容;确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
根据本发明一优选实施例,所述确定所述文本内容的可泛化成分包括:对所述文本内容进行切词处理,获取所述文本内容的切词结果;对所述切词结果进行解析,获取所述文本内容中各词语的词性;基于预设的词性泛化要求,确定所述文本内容的可泛化成分。
根据本发明一优选实施例,所述预设的词性泛化要求为:对文本内容中的名词、数词以及时间词中的至少一种进行泛化。
根据本发明一优选实施例,所述获取所述文本内容的泛化模板包括:基于确定的可泛化成分对所述文本内容进行泛化,得到各泛化结果;利用各泛化结果得到所述文本内容的泛化模板。
根据本发明一优选实施例,所述与泛化模板对应的改写模板是采用如下方式预先生成的:获取文本对的平行语料;基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化;将所述各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
根据本发明一优选实施例,所述泛化包括:将可泛化成分泛化为其对应的词性槽位,其中在泛化时对各泛化成分进行排列组合,得到各泛化结果。
根据本发明一优选实施例,所述文本对的平行语料是采用如下方式得到的:获取文本语料;确定所述文本语料中任意文本对之间的对齐得分;将对齐得分满足预设要求的文本对作为文本对的平行语料。
根据本发明一优选实施例,所述确定所述文本语料中任意文本对之间的对齐得分包括:对各文本进行切词处理,获取各文本的切词结果;使用预设的删除词典对所述切词结果中的可删除成分进行标记;确定所述文本对的两个切词结果之间未被标记的成分的对齐概率,利用所述对齐概率确定文本对之间的对齐得分。
根据本发明一优选实施例,在所述匹配与所述泛化模板对应的改写模板之前,还包括:对所述泛化模板中未被泛化的成分进行同义扩展;或者利用预设的可压缩结构词典,对所述泛化模板中包含的特定结构进行压缩。
根据本发明一优选实施例,所述方法还包括:使用评价模型对匹配得到的改写模板进行打分;根据打分结果,将满足预设要求的改写模板用于对文本内容进行改写。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711138896.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件的编辑方法、装置及介质
- 下一篇:中文文字情绪识别方法及系统