[发明专利]文本校对方法、装置、计算机可读存储介质及电子设备有效
申请号: | 201911144534.0 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110929514B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 苏海波;苏萌;刘译璟;姚震;檀玉飞;黄伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贾会玲 |
地址: | 100096 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 校对 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本公开涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。方法包括:确定待校对文本中各句子的纠错信息,纠错信息包括错误词和其对应的至少一个纠错词;针对各错误词,分别确定错误词与其前、后词在预设语料库中的第一共现频次、第二共现频次;针对错误词对应的各纠错词,获取语义特征;至少根据第一共现频次、第二共现频次及语义特征,判定纠错词是否正确。判定纠错词的正确性,可提升文本校对准确率。对纠错词的正确性进行判定时,综合考虑了前后词的搭配及上下文语义特征,可保证纠错词的正确性判定的精度,从而进一步提升文本校对准确率。此外,使得校对工作智能化、自动化,减轻人工校对的压力,提升工作效率,降低人工成本。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种文本校对方法、装置、计算机可读存储介质及电子设备。
背景技术
在文本处理中,录入、编辑和排版都已有相当成熟的计算机应用系统,但文本校对这一中间环节尚停留主要依靠人工处理阶段,并成为新闻、出版、办公室文印等领域制约整个行业发展,影响工作效率的瓶颈。人工进行文本校对,不但费时费力,而且难以保证校正的准确率。
基于上述问题,现阶段主要采用N-gram模型对文本中存在的错误进行检测并给出纠错建议,但该方法仅考虑了前后词的搭配问题,文本校正的准确率较低。
发明内容
为了克服相关技术中存在的问题,本公开提供一种文本校对方法、装置、计算机可读存储介质及电子设备。
为了实现上述目的,根据本公开实施例的第一方面,提供一种文本校对方法,所述方法包括:
确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;
针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;
针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;
至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。
可选地,所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。
可选地,所述方法还包括:
将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;
所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
根据所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。
可选地,所述获取所述错误词与所述纠错词的语义特征,包括:
将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911144534.0/2.html,转载请声明来源钻瓜专利网。