[发明专利]用于处理文本的方法和装置在审

专利信息
申请号: 202010134249.7 申请日: 2020-03-02
公开(公告)号: CN112307748A 公开(公告)日: 2021-02-02
发明(设计)人: 不公告发明人 申请(专利权)人: 北京字节跳动网络技术有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06F40/205;G06F40/253;G10L15/26
代理公司: 北京海智友知识产权代理事务所(普通合伙) 11455 代理人: 巩靖
地址: 100041 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 处理 文本 方法 装置
【说明书】:

本公开的实施例公开了用于处理文本的方法和装置。该方法的一具体实施方式包括:获取用户书写的内容对应的文本作为用户文本;确定用户文本对应的语音的语音特征,以及利用语音特征进行语音识别以得到识别文本;从用户文本中选取与识别文本中对应的字不同的字作为差异字,得到差异字集;根据差异字集,确定用户书写的内容的处理结果,其中,处理结果用于指示用户书写的内容中出现的疑似错别字。该实施方式实现了有助于实现对用户书写的内容中的错别字的便捷检测。

技术领域

本公开的实施例涉及计算机技术领域,具体涉及用于处理文本的方法和装置。

背景技术

随着计算机技术的快速发展和广泛应用。在日常生活中,用户可以直接利用所使用的电子设备所提供的打字、语音、视频等功能与其它用户进行交流,而用户手写一些字的机会越来也少。这也直接导致用户会淡忘掉许多字的正确写法。因此,用户在通过手写完成一些内容(如手写报告、手写文稿等等)时,容易出现错别字。

另外,对于许多学生来说,尤其是中小学生,由于其本身对汉字的书写可能就还不熟练,因此,这些用户在在书写作业时,也同样会出现错别字。

针对以上示例的各种用户书写时容易出现错别字的情况,通常需要用户自身或用户的朋友、家长等仔细检查才可能发现错别字,而且还很容易出现遗漏的错别字。有些情况下,如果用户书写的内容包括的字数太多,这样检查也会非常耗时。

发明内容

本公开的实施例提出了用于处理文本的方法和装置。

第一方面,本公开的实施例提供了一种用于处理文本的方法,该方法包括:获取用户书写的内容对应的文本作为用户文本;确定用户文本对应的语音的语音特征,以及利用语音特征进行语音识别以得到识别文本;从用户文本中选取与识别文本中对应的字不同的字作为差异字,得到差异字集;根据差异字集,确定用户书写的内容的处理结果,其中,处理结果用于指示用户书写的内容中出现的疑似错别字。

在一些实施例中,根据差异字集,确定用户书写的内容的处理结果,包括:对于差异字集中的差异字,从用户文本中提取该差异字所在的词组成该差异字对应的词集;根据该差异字对应的词集,确定该差异字是否为疑似错别字。

在一些实施例中,根据该差异字对应的词集,确定该差异字是否为疑似错别字,包括:确定预设的词库中是否包括该差异字对应的词集中的词;响应于确定词库不包括该差异字对应的词集中的词,确定该差异字作为疑似错别字。

在一些实施例中,上述方法还包括:从用户文本中选取属于预设的常错字词库中的字和词作为候选字词,得到候选字词集;对于候选字词集中的候选字词,确定该候选字词是否为疑似错别字;响应于确定该候选字词为疑似错别字,更新处理结果。

在一些实施例中,确定该候选字词是否为疑似错别字,包括:根据该候选字词对应的语法规则,确定该候选字词是否为疑似错别字。

在一些实施例中,上述方法还包括:接收针对处理结果的用户反馈信息;根据用户反馈信息,更新上述词库。

在一些实施例中,上述方法还包括:根据用户反馈信息,更新针对用户构建的错别字集。

第二方面,本公开的实施例提供了一种用于处理文本的装置,该装置包括:获取单元,被配置成获取用户书写的内容对应的文本作为用户文本;识别单元,被配置成确定用户文本对应的语音的语音特征,以及利用语音特征进行语音识别以得到识别文本;选取单元,被配置成从用户文本中选取与识别文本中对应的字不同的字作为差异字,得到差异字集;处理单元,被配置成根据差异字集,确定用户书写的内容的处理结果,其中,处理结果用于指示用户书写的内容中出现的疑似错别字。

在一些实施例中,上述处理单元进一步被配置成对于差异字集中的差异字,从用户文本中提取该差异字所在的词组成该差异字对应的词集;根据该差异字对应的词集,确定该差异字是否为疑似错别字。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010134249.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top