[发明专利]媒体智能校对算法在审
| 申请号: | 202011561854.9 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN112668328A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 麦淼;王梦环;张文斌;李梓华 | 申请(专利权)人: | 广东南方新媒体科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F40/103 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510000 广东省广州市越*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 媒体 智能 校对 算法 | ||
1.媒体智能校对算法,其特征在于,依次包括文本预处理、N种易错规则、通用语言模型、政务语言模型、候选内容召回以及纠错内容排序。
2.根据权利要求1所述的媒体智能校对算法,其特征在于,依次包括文本预处理、N种易错规则、通用语言模型、政务语言模型、候选内容召回以及纠错内容排序,所述文本预处理的具体步骤如下:
步骤一,格式转换,将需要校对的数据进行清洗转换工作,统一编码格式,统一文本格式,非汉字字符将被空格替代,阿拉伯数字转换为汉字,重复的空白字符被压缩为一个;
步骤二,分词及加载词库,全文进行分词处理,这里的分词采用jieba加载自有词汇进行的分词。
3.根据权利要求1所述的媒体智能校对算法,其特征在于,所述N种易错规则是将校对室经过多年校对累计下来的常错点、易错点形成一系列校对规则进行校对。
4.根据权利要求1所述的媒体智能校对算法,其特征在于,所述政务语言模型是根据历史文本数据统计后得到的一种频率概率模型,可用于快速识别,具体步骤如下:
步骤一:
(1)获取相应的稿件、人物、机构、易错,加上通用的语料进行训练得到一个语言模型;
(2)使用N-Grame进行单个字的前后K个距离的字进行打分,
当K=1,为2-grame(二元模型bigram model)即为:
P(S)=p(w1)p(w2|w1)...p(wn|wn-1)
其中,w1,w2,w3,,,wn代表第n个字的概率;p(w2|w1)代表第一个字出现的情况下,第二个字出现的概率;
化简得:
当K=2,为3-grame(三元模型trigram model)即为:
P(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)
p(w3|w1,w2)代表第一个字第二个字同时出现的情况下,第三个字出现的概率;
化简得:
步骤二:结合bigram和trigram进行滑动平均算分来获取局部分数,并通过平均绝对离差(MAD)获取疑似错字的位置,记录下来。
5.根据权利要求4所述的媒体智能校对算法,其特征在于,其结合bigram和trigram的动态权重分配:
其平均绝对离差:
1)计算每个值和中位数的差值的绝对值,
2)计算绝对差值的平均数MAD,
3)根据数据的实际情况规定一个权重值,
6.根据权利要求1所述的媒体智能校对算法,其特征在于,所述候选内容召回是将前面记录的可能出错的内容进行正确内容召回,具体步骤如下:
步骤一:疑似错别词根据错别字点返回正确的提示;
步骤二:规则上的错误返回正确的使用方法或提示;
步骤三:对语言模型找到的可能错误的字进行近音、近形、拼音编辑距离为1、同音同调、同音易调等一系列可能出错的召回。
7.根据权利要求1所述的媒体智能校对算法,其特征在于,所述纠错内容排序则是针对多个召回候选集的内容进行整句话的语言概率模型进行打分,计算插入候选内容的文本得分以及困惑度,然后排序,得到最可能正确的前N个结果,一并返回。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东南方新媒体科技有限公司,未经广东南方新媒体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011561854.9/1.html,转载请声明来源钻瓜专利网。





