[发明专利]基于人工智能的纠错举报处理方法、装置及可读介质有效
申请号: | 201711238103.1 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108090043B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 肖求根;张玉东;黄华;方晓敏;陈杰;杨风光;杨宏生;费晓旭;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 纠错 举报 处理 方法 装置 可读 介质 | ||
本发明提供一种基于人工智能的纠错举报处理方法、装置及可读介质。其方法包括:获取用户从内容服务器前端举报的目标语句的错误信息,错误信息中还包括目标语句所在的文章标识以及目标语句中疑似错别字的位置;根据目标语句和疑似错别字、以及置信度打分模型,预测疑似错别字的真实错误置信度;若疑似错别字的真实错误置信度大于或等于预设置信度阈值,向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度,供内容服务器根据疑似错别字的真实错误置信度,对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。本发明的技术方案,能够有效地提高内容服务器的纠错效率。
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种基于人工智能的纠错举报处理方法、装置及可读介质。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
内容分发是现有移动互联网公司的一个重要战场,优质的内容往往能够带来用户停留时长和品牌美誉度的提升。错别字作为内容的硬伤,可能以一定概率出现在任何一篇文章中。错别字在内容分发平台竞争中影响大,导致用户体验明显下降,所以现有的很多内容提供商特别注意内容的纠错。例如可以人工采集一些经常出错的错别字以及对应的上下文,并将每个错别字、对应的上下文以及对应的正确字作为词对,加入在纠错词表中。纠错时,由内容服务器根据纠错词表对所有的内容进行检查,若发现纠错词表中的错别字,将错别字纠正为正确字,实现对内容服务器中的所有内容进行纠错处理。
现有技术的纠错方式多成为内容服务器侧的主动纠错,对于内容服务器未发现的错误无法进行纠错,受限于汉字组合方式多,语句中出现的纠错类型复杂,导致主动纠错具有一定的局限性。
【发明内容】
本发明提供了一种基于人工智能的纠错举报处理方法、装置及可读介质,用于丰富内容服务器的纠错方式,扩大纠错范围。
本发明提供一种基于人工智能的纠错举报处理方法,所述方法包括:
获取用户从内容服务器的前端举报的目标语句的错误信息,所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置;
根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型,预测所述疑似错别字的真实错误置信度;
若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时,向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度,以供所述内容服务器根据所述疑似错别字的真实错误置信度,对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。
进一步可选地,如上所述的方法中,所述错误信息中还包括所述目标语句的位置信息;所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。
进一步可选地,如上所述的方法中,若所述疑似错别字的真实错误置信度小于预设置信度阈值时,所述方法还包括:
获取所述目标语句中的所述疑似错别字被举报的次数;
获取所述目标语句所在的文章被浏览的次数;
根据所述疑似错别字被举报的次数与所述文章被浏览的次数,获取所述疑似错别字的错误举报比例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711238103.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于识别文本主题的方法和装置
- 下一篇:联系方式的识别方法和装置