[发明专利]用于处理文本的方法和装置在审
申请号: | 202010134249.7 | 申请日: | 2020-03-02 |
公开(公告)号: | CN112307748A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/205;G06F40/253;G10L15/26 |
代理公司: | 北京海智友知识产权代理事务所(普通合伙) 11455 | 代理人: | 巩靖 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 文本 方法 装置 | ||
1.一种用于处理文本的方法,包括:
获取用户书写的内容对应的文本作为用户文本;
确定所述用户文本对应的语音的语音特征,以及利用所述语音特征进行语音识别以得到识别文本;
从所述用户文本中选取与所述识别文本中对应的字不同的字作为差异字,得到差异字集;
根据所述差异字集,确定所述用户书写的内容的处理结果,其中,所述处理结果用于指示所述用户书写的内容中出现的疑似错别字。
2.根据权利要求1所述的方法,其中,所述根据所述差异字集,确定所述用户书写的内容的处理结果,包括:
对于所述差异字集中的差异字,从所述用户文本中提取该差异字所在的词组成该差异字对应的词集;根据该差异字对应的词集,确定该差异字是否为疑似错别字。
3.根据权利要求2所述的方法,其中,所述根据该差异字对应的词集,确定该差异字是否为疑似错别字,包括:
确定预设的词库中是否包括该差异字对应的词集中的词;
响应于确定所述词库不包括该差异字对应的词集中的词,确定该差异字作为疑似错别字。
4.根据权利要求1所述的方法,其中,所述方法还包括:
从所述用户文本中选取属于预设的常错字词库中的字和词作为候选字词,得到候选字词集;
对于所述候选字词集中的候选字词,确定该候选字词是否为疑似错别字;响应于确定该候选字词为疑似错别字,更新所述处理结果。
5.根据权利要求4所述的方法,其中,所述确定该候选字词是否为疑似错别字,包括:
根据该候选字词对应的语法规则,确定该候选字词是否为疑似错别字。
6.根据权利要求3所述的方法,其中,所述方法还包括:
接收针对所述处理结果的用户反馈信息;
根据所述用户反馈信息,更新所述词库。
7.根据权利要求1-6之一所述的方法,其中,所述方法还包括:
根据所述用户反馈信息,更新针对所述用户构建的错别字集。
8.一种用于处理文本的装置,包括:
获取单元,被配置成获取用户书写的内容对应的文本作为用户文本;
识别单元,被配置成确定所述用户文本对应的语音的语音特征,以及利用所述语音特征进行语音识别以得到识别文本;
选取单元,被配置成从所述用户文本中选取与所述识别文本中对应的字不同的字作为差异字,得到差异字集;
处理单元,被配置成根据所述差异字集,确定所述用户书写的内容的处理结果,其中,所述处理结果用于指示所述用户书写的内容中出现的疑似错别字。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010134249.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于处理信息的方法和装置
- 下一篇:添加参会成员的方法、装置和电子设备