[发明专利]基于本体一致性验证推理的中文语义校对方法无效

专利信息
申请号: 201310404701.7 申请日: 2013-09-05
公开(公告)号: CN103593335A 公开(公告)日: 2014-02-19
发明(设计)人: 姜赢;曾杰;荆铭;廖文生;郭颖珊;林启红;高巾 申请(专利权)人: 姜赢
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 深圳市金笔知识产权代理事务所(特殊普通合伙) 44297 代理人: 胡清方;彭友华
地址: 519000 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 本体 一致性 验证 推理 中文 语义 校对 方法
【说明书】:

技术领域

     本发明涉及一种基于本体一致性验证推理的中文语义校对方法。 通过研究中文语义提取、中文语义查错和中文语义纠正相关关键技术,以实现基于本体一致性验证推理的中文语义校对方法的功能。 

背景技术

 随着计算机技术的不断发展,报刊、图书等传统媒体的文字录入、编辑、排版、校对和印刷已经电子化了。面对包括全国几千家报社、几百家出版社,中央部委、省级机关,以及办公室和家庭等在内的各种互联网用户,中文文字处理及校对软件需求量非常大。中文校对软件,例如,黑马校对系统、金山WPS可以根据中文词法关系和语法结构,自动分析中文文本中的词句并将疑问处标红,可以一次滤掉大量的文字录入错误,包括丢字、多字、错字和语句不通等,特别适合二、三连校中的二校及终校把关。 

但是,目前中文校对软件还不能完全替代人工校对,其中一个重要原因在于,虽然其在字词级和语法级层面取得了较好效果,但是语义级层面中文校对技术相对薄弱。政治敏感信息在报社和出版社等我国传统媒体的发布是非常普遍。因此,目前亟需一种能够进行语义级层面中文自动校对处理的技术和软件,进一步减少校对人员对于类似政治敏感错误等信息的校对工作量。 

另一方面,网络媒体(例如门户网站、博客、微博等)突破了传统时空观念,表现出极大的时效性和开放性。网络中每一个成员可以平等地共享网上信息,在世界任何地方,只要有计算机,只要与互联网接通,就可以发布和获取发生在世界任何一个地方的信息。网络新闻也不再受传统新闻发布者的限制,受众可以发布自己的新闻,并在短时间内获得更快的传播,这使得论坛和微博等平台成为人们最快速、最普遍的信息互动交流平台。网络媒体在让人们享受时效性和开放性的同时,不得不面对其信息正确性和准确性方面的挑战。网络媒体也面临着类似于传统媒体上语义错误导致的政治性错误等潜在威胁。对于网络媒体上的海量实时信息,人们肯定无法采取传统媒体那样人工校对方式解决。传统的敏感词筛选术和简单的语法级自动校正技术,亦无法满足复杂的中文语义校对需求。因此,我们必须探索语义级层面中文自动校对处理的技术,开发相应的校对软件提供给网络媒体使用,这也是网络媒体发展的内在需求。 

总之,无论是传统媒体还是网络媒体,都迫切需要中文语义校对技术的支持。中文语义校对将有广泛的应用前景和巨大的商业价值。 

众所周知,中文校对系统处理的对象是文本,中文校对类型分为字词级、语法级和语义级3类。 

目前,中文字词级和语法级校对技术已较完善,如黑马校对系统、金山WPS和语法检查工具(LanguageTool)都能很好地实现中文字词级和语法级校对。 

相比之下,语义级层面中文校对技术相对薄弱,一直是汉语文本自动校对技术的难点。 

目前,对于语义校正,按照研究内容和方向大致可以分为3类: 

1)模糊语义对比方法

其主要内容是用句子语义骨架表示句子语义的具体方法和表示形式。模糊语义对比方法在语义校对系统中建立了这种形式的知识库,每一个知识条代表描述同一个事件的不同句子的共同特征,是用来判断文本中语句的对错程度的基准。然后采用模糊匹配方法计算语句的相似程度,即文本中语句是根据与知识库中相关知识进行模糊匹配,然后计算出该语句的错误程度的。此方法在一个面向政治错误的特定领域内的语义校对系统(YYJDS) 中得到实现。

另外,有人通过模糊比较目标句子与大型文本库中相似句子的方法来鉴别文本拼写、语法甚至语义错误的方法。具体来说,是将目标句子转换成一系列Google搜索请求,根据搜索结果数量进行加权阈值模糊比较,从而判断是否错误以及错误等级多少。例如,如果Google中搜索出大多数人写的是“北京是中国的首都”,那么目标句子“东京是中国的首都”极有可能是包含语义错误的。 

以上两种都属于模糊语义对比方法,他们的出发点在于认为完全精确的理解句子语义可行性不高,因此采取绕过精确语义理解的思路,通过建立某种模糊语义模型,将知识库或文本库中的正确句子与目标句子进行模糊匹配来判断语义错误。这种方法本质上是一种黑箱模型,虽然知道有语义错误,也可以计算语义错误程度值并选择性的纠正错误,但是其局限性在于不知道具体有什么语义错误,语义错误类型是什么,为什么是语义错误,以及为什么纠错之后的是正确的语义。 

)精确语义匹配方法

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姜赢,未经姜赢许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310404701.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top