[发明专利]一种SGF格式的围棋AI棋谱文件的异常检测方法在审
| 申请号: | 201910020621.9 | 申请日: | 2019-01-09 |
| 公开(公告)号: | CN109815566A | 公开(公告)日: | 2019-05-28 |
| 发明(设计)人: | 杨恺;徐悦瑶;张春炯 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F17/50 | 分类号: | G06F17/50;G06F17/21 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 蔡彭君 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 棋谱文件 文本数据 异常检测 词袋模型 权重 集合 异常检测算法 围棋 机器诊断 输出检测 文本转换 向量形式 异常诊断 语言模型 向量 算法 诊断 | ||
本发明涉及一种SGF格式的围棋AI棋谱文件的异常检测方法,包括:步骤S1:导入SGF文件的文本数据;步骤S2:基于词袋模型处理文本数据得到一系列词的集合,并基于得到的集合计算每个词的权重;步骤S3:将每个词的权重集中组合得到文本数据的语言模型向量;步骤S4:利用异常检测算法进行异常检测,并输出检测结果。与现有技术相比,本发明基于词袋模型将文本转换为相应的向量形式,从而可以借助于现有的一些异常诊断算法进行诊断,可以实现棋谱文件的机器诊断。
技术领域
本发明涉及一种异常检测方法,尤其是涉及一种SGF格式的围棋AI棋谱文件的异常检测方法。
背景技术
人工智能(Artificial Intelligence,AI)随着人类现实场景的诸多应用得到大力的发展,围棋方面的人工智能进展也取得巨大的成果。SGF是围棋AI的棋谱信息保存的文件格式,是围棋AI权重通过输入残差网络训练的重要文件信息。长期以来,SGF格式棋谱文件的数量规模与棋艺复杂度不断增长,但是围棋AI无法剔除和甄别异常SGF格式文件的棋谱。SGF格式的棋谱文件中异常棋谱严重影响残差网络的训练数据,进而导致残差网络训练数据生成劣质的围棋权重规模扩大,直至导致围棋AI的棋力迅速下降。
异常检测方法可以针对SGF格式的棋谱检测出棋谱异常内容,根据其业务相关性,进行相关异常棋谱内容的定向查找与报错,并得到筛选出异常棋谱的结论信息。
为了减少或避免异常棋谱的发生,异常检测方法是现阶段对棋谱文件内容检测的主要方式,其中异常检测旨在通过大数量优秀SGF格式棋谱建立的检测指标,对给定的SGF格式棋谱文件中棋谱内容的异常做出检测;
现今众多的围棋AI中,权重的网络训练需要十万张以上数量的SGF棋谱,常常忽略数百张异常的SGF棋谱文件,通过残差网络的训练数据生成权重以此来提升围棋AI棋力,而未处理的异常棋谱训练生成的权重会使得围棋AI在对弈时存在许多盲点,其棋力会大打折扣,而且异常的SGF棋谱会耗费大量的权重训练时间,以及造成GPU等硬件的超能损耗。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种SGF格式的围棋AI棋谱文件的异常检测方法。
本发明的目的可以通过以下技术方案来实现:
一种SGF格式的围棋AI棋谱文件的异常检测方法,包括:
步骤S1:导入SGF文件的文本数据;
步骤S2:基于词袋模型处理文本数据得到一系列词的集合,并基于得到的集合计算每个词的权重;
步骤S3:将每个词的权重集中组合得到文本数据的语言模型向量;
步骤S4:利用异常检测算法进行异常检测,并输出检测结果。
所述步骤S2具体包括:
步骤S21:基于词袋模型处理文本数据得到一系列词的集合;
步骤S22:计算每个词的词频:
其中:tfi,j为词i在文本j中的词频,ni,j为词i在文本j中的出现次数,nk,j为在文本j中各个词的出现次数,k为文本j中含有的词的个数;
步骤S23:计算每个词的逆向文件频率:
其中:idfi为词i在语料库文本集合中的逆向文件频率,|D|为语料库中的文本总数,D为语料库文本集合,|{j:ti∈dj}|为满足包含词i条件的文本j的数目,ti表示词i,dj表示文本j;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910020621.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种综采液压支架载荷的分段预测方法
- 下一篇:一种悬架轮胎包络生成方法





