[发明专利]错别字识别方法、装置、设备及可读存储介质在审

申请号：	202110227739.6	申请日：	2021-03-01
公开（公告）号：	CN113705213A	公开（公告）日：	2021-11-26
发明（设计）人：	王晨琛	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/30;G06F16/903;G06F16/906;G06N3/04;G06N3/08
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	朱佳
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	错别字识别方法装置设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种错别字识别方法、装置、设备及可读存储介质，涉及计人工智能技术领域，以提升识别媒体内容中的错别字的准确度。该方法包括：获取针对已发布的媒体内容的目标评论数据，根据所述目标评论数据包含的各个词语的上下文信息，提取所述目标评论数据对应的目标文本特征，基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容，基于所述目标评论内容，确定所述媒体内容中的错别字信息。该方法中能够识别出历史媒体内容中未出现过的错别字或特殊词，进而提升识别媒体内容中的错别字的准确度，且在识别错别字的过程中，不需要对整个媒体内容进行检测，提升了识别媒体内容中的错别字的效率。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种错别字识别方法、装置、设备及可读存储介质。

背景技术

相关技术中一般预先创建错别字候选集，通过替换媒体内容中在错别字候选集中出现的候选词，基于上述候选词对媒体内容的文本通顺度的影响程度，判断上述候选词是否为错别字，但这种方法只能检测出错别字候选集中已有的错别字，并不能发现错别字候选集中未出现过的错别字或特殊词，因此识别错别字的范围受限，如何降低识别错别字的局限性以提升识别错别字的准确度，是一个需要考虑的问题。

发明内容

本申请实施例提一种错别字识别方法、装置、设备及可读存储介质，用于提升识别媒体内容中的错别字的准确度。

本申请第一方面，提供一种错别字识别方法，包括：

获取针对已发布的媒体内容的目标评论数据；

根据所述目标评论数据包含的各个词语的上下文信息，提取所述目标评论数据对应的目标文本特征；

基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容；

基于所述目标评论内容，确定所述媒体内容中的错别字信息。

本申请第二方面，提供一种错别字识别装置，包括：

数据获取单元，用于获取针对已发布的媒体内容的目标评论数据；

特征提取单元，用于根据所述目标评论数据包含的各个词语的上下文信息，提取所述目标评论数据对应的目标文本特征；

第一识别单元，用于基于所述目标文本特征，确定所述目标评论数据中包含有针对错别字的目标评论内容；

第二识别单元，用于基于所述目标评论内容，确定所述媒体内容中的错别字信息。