[发明专利]一种基于深度学习的文本识别和生成算法在审
申请号: | 202310444148.3 | 申请日: | 2023-04-24 |
公开(公告)号: | CN116205234A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 易侃;王菁;刘亚军;荀智德 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/18;G06F16/33;G06F16/36;G06N3/0442;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 识别 生成 算法 | ||
本发明公开了一种基于深度学习的文本识别和生成算法,包括学习阶段和生成文本阶段,在学习阶段通过建立数据库、训练算法深度学习,从而识别用户最常用的用词及句式模型,并在用户输入实体名词、顺序关键词等关键词后,能够自动生成文本。本发明的目的是提供一种能够贴合具体的行业、具体的人员,专业性强的基于深度学习的文本识别和文本生成算法。
技术领域
本发明涉及文本生成技术,尤其涉及一种基于深度学习的文本识别和生成算法。
背景技术
文本生成技术是指在从输入数据中生成从人类语言角度上可信并且可读的文本,被广泛应用在机器新闻写作、天气预报、医学诊断报告生成等领域,已经成为人工智能的研究热点。
文本生成技术可大致分为两类,一类是基于固定模板,另一类是基于深度学习。
基于固定模板生成文本是事先在模板库中内置词汇或、短句和固定句子模板,输入与模板库相对应的词汇或短句后,该词汇或短句自动填入固定句子模板,从而生成自然文本,其本质的是系统根据最常出现的几种情景,事先设计并构造相应的句子模板,每个模板都包括一些不变的常量和可变的变量,用户输入信息之后,系统将输入的信息作为字符串嵌入到模板中替代变量,从而生成文本。但基于生成的模板只有少数几种固定句式句法,数量少、情景少、涉及的领域少,在特定领域也需要特定领域专家依据自身经验知识人工定制设计,目标用语使用需要人为指定,迁移性差。
随着神经网络技术的发展,基于深度学习生成文本的技术逐渐得到发展,研究人员利用端到端的模型进行自然语言处理,基于深度学习生成文本的技术不再依靠人力事先在系统内置好划分的词汇、短句和固定句子模板,而是将语句划分、词性提炼等中间的操作交给神经网络,通过神经网络参数优化学习进而得到词汇、短句和固定句子模板等元素。
但现有基于深度学习的生成文本的方法存在如下问题:由于学习来源比较繁杂,因此经过深度学习后生成的文本的用词、句式比较偏向通用,不能做到贴合具体的行业、具体的人员,专业性差,生成后可用性较弱。
发明内容
发明目的:本发明的目的是提供一种能够贴合具体的行业、具体的人员,专业性强的基于深度学习的文本识别和文本生成算法。
技术方案:本发明所述的一种基于深度学习的文本识别和生成算法,包括学习阶段和生成文本阶段,所述学习阶段步骤如下:
(1)构建空白的数据库,所述数据库包括内容由实体名词构成实体名词数据库以及由排序关键词构成的排序关键词数据库,导入首批(比如100个)学习文本,将首批学习文本进行分段及分句处理,得到若干个句子组成的句子列表,并依次人工标识每个句子中实体名词及排序关键词;
(2)识别并获得每个句子中实体名词的起点位置、终点位置及实体名词的类型,将上述信息存入实体名词数据库以构建实体名词数据库,经过深度学习训练本算法识别实体名词,然后把每个句子的实体名词抽离并以该实体名词的类型替换其位置,从而得到所有句子的句式模型,将所有句式模型存入句式模型数据库以构建句式模型数据库;
(3)导入新的学习文本,将新的学习文本进行分段及分句处理,得到若干个句子组成的句子列表;
(4)继续深度学习训练识别并获得第(3)步中每个句子中实体名词的起点位置、终点位置及实体名词的类型,将上述信息存入实体名词数据库以完善实体名词数据,然后把每个句子的实体名词抽离并以该实体名词的类型替换其位置,从而得到所有句子的句式模型,将所有句式模型存入句式模型数据库以完善句式模型数据库;
(5)将第(4)步中得到的句式模型、句式模型的使用次数存入句式模型数据库,将第(4)步中得到的实体名词与句式模型的对应关系、实体名词的使用次数、实体名词的出处均存入实体名词数据库中,以便于生成文本阶段调用数据库的内容;
(6)利用N-gram模型进行排序关键词数据库的学习,得到所有排序关键词在历史上的排序结果,存入排序关键词数据库。
实体名词是指如时间、地点、名称、代号、类型等利于人们总结、归纳、上位的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310444148.3/2.html,转载请声明来源钻瓜专利网。