[发明专利]一种文本识别方法和系统在审
| 申请号: | 202110417492.4 | 申请日: | 2021-04-19 |
| 公开(公告)号: | CN113076749A | 公开(公告)日: | 2021-07-06 |
| 发明(设计)人: | 王珏;史文华 | 申请(专利权)人: | 上海云绅智能科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
| 代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
| 地址: | 201100 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 识别 方法 系统 | ||
本发明公开一种文本识别方法和系统,步骤为:根据泛化扩展后的训练语料进行训练得到语言模型;对待识别文本进行预处理得到处理后文本;对所述处理后文本进行分词并向量化得到分词序列;所述分词序列按照待识别文本的文字先后顺序排列;将所述分词序列输入至预先训练好的语言模型中得到候选识别结果,确定联合概率值最高的候选识别结果为最终识别结果。在具备少量样本数据的前提下,准确高效的对文本进行识别。
技术领域
本发明涉及计算机处理领域,尤指一种文本识别方法和系统。
背景技术
语言是人类最重要的交际工具,是人们进行沟通的主要表达方式。人们借助语言保存和传递人类文明的成果。而文字作为语言视觉化的表现,突破口语的时间和空间的限制,文字是人类可以在书面上完整地传承人类的智慧和精神财富,使人类能够完善教育体系,提高自己的智慧,发展科学技术,进入文明社会。
在自然语言处理中,文本识别是根据给定文本内容判断是哪种语言。随着跨语言检索技术的发展,作为其核心技术的文本识别研究开始受到关注,文本识别技术主要应用在机器翻译和多语言检索任务上。目前,文本识别的研究主要是基于规则的方法和基于机器学习的方法。基于规则的方法需要人工总结归纳得到语言规则,然后进行字符串匹配,需要大量专业的专家对语言进行分析,并且准确率难以保障。
在关键信息抽取领域,现有技术中由于语料样本少并且泛化性差,对于新领域的待识别文本,很难正确识别,进而导致文本识别准确率无法保证。
发明内容
本发明的目的是提供一种文本识别方法和系统,实现快速获取大量训练语料,提高训练语言模型的准确率,进而提高文本识别准确率和可靠性。
本发明提供的技术方案如下:
本发明提供一种文本识别方法,包括步骤:
根据泛化扩展后的训练语料进行训练得到语言模型;
对待识别文本进行预处理得到处理后文本;
对所述处理后文本进行分词并向量化处理得到分词序列;所述分词序列按照待识别文本的文字先后顺序排列;
将所述分词序列输入至预先训练好的语言模型中得到候选识别结果,确定联合概率值最高的候选识别结果为最终识别结果。
进一步的,所述根据泛化扩展后的训练语料进行训练得到语言模型包括步骤:
将获取的样本语料进行泛化预处理得到训练语料,并将所有训练语料分别划分为训练集和验证集;
对所述训练集中的训练语料进行分词处理得到分词结果,并对所述分词结果进行标注得到对应的词向量;
根据所述训练集和验证集训练得到所述语言模型。
进一步的,所述将获取的样本语料进行泛化预处理得到训练语料包括步骤:
根据错别字和近义词预先建立替换词典;所述替换词典包括预设词语和代替词语的对应关系;
根据所述替换词典对所述样本语料进行词语替换得到扩展语料,汇总所述样本语料和扩展语料得到所述训练语料。
进一步的,所述将所述分词序列输入至预先训练好的语言模型中得到候选识别结果,确定联合概率值最高的候选识别结果为最终识别结果包括步骤:
将所述分词序列中的各待识别词向量,按照所述待识别文本的文字先后顺序排列分别依次输入至所述语言模型,通过所述语言模型输出各待识别词向量在所述待识别文本中的出现概率;
根据所述各待识别词向量在所述待识别文本中的出现概率,通过相似度算法计算各个候选识别结果的联合概率值,确定联合概率值取最高的候选识别结果为最终识别结果。
本发明还提供一种文本识别系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云绅智能科技有限公司,未经上海云绅智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110417492.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型离心通风机
- 下一篇:连接体及连接体的制造方法





