[发明专利]基于人工智能的文本纠错方法、装置及计算机可读介质有效
申请号: | 201711159880.7 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108052499B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 肖求根;詹金波;郑利群;邓卓彬;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/953 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 纠错 方法 装置 计算机 可读 介质 | ||
1.一种基于人工智能的文本纠错方法,其特征在于,所述方法包括:
获取纠错文本中已纠错的目标片段和所述目标片段在原文本中对应的原始片段;所述目标片段为基于预先训练的片段打分模型对所述原文本进行纠错处理时,从所述原始片段的多个候选片段中选出的;
获取用户对基于所述纠错文本而反馈的目标结果的反馈信息;
根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练;
基于训练后的所述片段打分模型,对后续的原文本进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练,具体包括:
获取所述目标片段和所述原始片段之间的相对特征信息;
根据所述反馈信息确定所述目标片段的理想打分;
根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练。
3.根据权利要求2所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对特征信息,包括如下至少一种:
获取所述目标片段和所述原始片段之间的相对质量特征;
获取所述目标片段和所述原始片段之间的相对历史行为特征;和
获取所述目标片段和所述原始片段之间的语义相似度特征。
4.根据权利要求3所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对质量特征,具体包括:
获取所述原始片段在语料库中出现的频次、所述原始片段与在所述原文本中的上下文片段的组合在所述语料库中一起出现的频次;
获取所述目标片段在所述语料库中出现的频次、所述目标片段与所述上下文片段的组合在所述语料库中一起出现的频次;
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、所述目标片段在所述语料库中出现的频次以及所述目标片段与所述上下文片段的组合在所述语料库中出现的频次,获取所述目标片段与所述原始片段在所述语料库中出现的频次比以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或所述目标片段与所述原始片段在所述语料库中出现的频次差以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
5.根据权利要求4所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对历史行为特征,具体包括:
获取短语替换表中所述原始片段修改为所述目标片段的第一修改频次;
获取短语替换表中所述原始片段与所述上下文片段的组合修改为所述目标片段与所述上下文片段的组合的第二修改频次;
根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。
6.根据权利要求4所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的语义相似度特征,具体包括:
获取所述目标片段与所述原始片段的语义相似度;和/或
获取所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合的语义相似度。
7.根据权利要求3-6任一所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对特征信息,还包括如下至少一种;
根据预设的专用名词库,分别获取所述原始片段和所述目标片段的专用名词特征;以及
获取所述目标片段与所述原始片段的拼音编辑距离特征。
8.根据权利要求2所述的方法,其特征在于,根据所述反馈信息确定所述目标片段的理想打分,具体包括:
根据所述反馈信息,推测所述用户是否接受所述纠错文本中采用所述目标片段替换所述原始片段;
若推测所述用户接受,则将所述目标片段的理想打分设置为1;否则,若推测所述用户不接受,则将所述目标片段的理想打分设置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711159880.7/1.html,转载请声明来源钻瓜专利网。