[发明专利]一种截断文本的拼接方法、装置及计算机存储介质有效

申请号：	201910739896.8	申请日：	2019-08-12
公开（公告）号：	CN110598205B	公开（公告）日：	2021-08-17
发明（设计）人：	刘逸哲	申请（专利权）人：	大箴(杭州)科技有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/289
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威;贾依娇
地址：	310011 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种截断文本拼接方法装置计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种截断文本的拼接方法和装置、计算机存储介质及计算设备。该方法包括：构建初始文本生成模型；将任意截断文本输入初始文本生成模型，生成任意截断文本对应的被截断文本，拼接任意截断文本及其对应的被截断文本，得到待判别句子；将待判别句子输入预先训练的句子判别模型，得到判别结果；根据判别结果确定是否对初始文本生成模型的模型参数进行调整，得到目标文本生成模型；将待拼接的截断文本输入目标文本生成模型，生成待拼接的截断文本对应的被截断文本，对待拼接的截断文本及其对应的被截断文本进行拼接。本发明实施例利用目标文本生成模型生成文本，可以提高生成文本的准确性，进而提高截断文本拼接的准确率。

技术领域

本发明涉及文本处理技术领域，尤其是涉及到一种截断文本的拼接方法和装置、计算机存储介质及计算设备。

背景技术

在短信或应用程序的推送信息、网络抓取的用户评论和文章摘要等原始数据中，存在着大量被截断的非完整文本。一般为了文本建模的效果，NLP(Natural LanguageProcessing，自然语言处理)的过程中通常会判断出非完整文本，然后将非完整文本丢弃，这样会造成资源浪费；或者直接采用结合时间和数据提供方标识的规则方法进行拼接，拼接的准确率不高。因此，亟待解决这一技术问题。

发明内容

有鉴于此，本发明提供了一种截断文本的拼接方法和装置、计算机存储介质及计算设备，提高了拼接结果的准确率。

根据本发明的一方面，提供了一种截断文本的拼接方法，包括：

构建初始文本生成模型；

将任意截断文本输入所述初始文本生成模型，生成所述任意截断文本对应的被截断文本，拼接所述任意截断文本及其对应的被截断文本，得到待判别句子；

将所述待判别句子输入预先训练的句子判别模型，得到判别结果；

根据所述判别结果确定是否对所述初始文本生成模型的模型参数进行调整，得到目标文本生成模型；

将待拼接的截断文本输入所述目标文本生成模型，生成所述待拼接的截断文本对应的被截断文本，对所述待拼接的截断文本及其对应的被截断文本进行拼接。

可选地，所述构建初始文本生成模型，包括：

采集中文文本语料；

按照预设比例的概率，对所述中文文本语料中的句子进行截断处理，得到包含截断文本及对应的被截断文本的训练数据对；

利用所述训练数据对对语言模型进行训练，得到初始文本生成模型。