[发明专利]一种跨语言自动构建分类规则的方法和装置有效

专利信息
申请号: 201210283172.5 申请日: 2012-08-09
公开(公告)号: CN103577498B 公开(公告)日: 2018-09-07
发明(设计)人: 刘峰;牛正雨 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语言 自动 构建 分类 规则 方法 装置
【说明书】:

发明提供了一种跨语言自动构建分类规则的方法和装置,将源语言的分类规则进行变换得到一个以上的与关系规则后,针对每一个与关系规则分别执行以下步骤:确定当前与关系规则中判断条件的关键词;确定各关键词对应的目标语言候选词集合,该集合包括:关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词;分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词;将目标语言关键词采用或的关系分别替换当前与关系规则中对应的关键词,得到目标语言的与关系规则。通过本发明仅需要针对一个语种人工构建分类规则,从而大大降低了人工成本和工作量。

【技术领域】

本发明涉及计算机应用技术领域,特别涉及一种跨语言自动构建分类规则的方法和装置。

【背景技术】

随着因特网上网页数量的爆炸式增长,能否从海量网页中迅速准确地搜索出用户感兴趣的信息使文本分类技术在信息检索领域得到应用。在网页分类主要是通过机器学习模型进行分类,在基于机器学习模型进行分类之前,首先需要使用初过滤规则来剔除掉明显不是目标类型的网页,以降低分类难度、提高分类效果。在线上对网页进行分类时,任何一个网页都首先进行初过滤,对初过滤后的网页进入分类器。实际上初过滤已经帮助分类器过滤掉了大部分干扰信息才使得分类器达到较好的线上效果。

之所以将初过滤和分类器分离,是因为初过滤所使用的分类模型都是经过人观察而得到的强规则,分类器通过训练很难完全学到这些信息。虽然这些强规则是人工设置的,但由于也是使用语言相关的词语作为特征或者作为初过滤规则的信息来源,因此当存在多个语种的页面时,需要针对每个语种分别人工构建初过滤规则。然而人工构建初过滤规则的代价较高,如果目标语种较多,那么构建成本会很高,工作量也很难承受,对于诸如初过滤规则之外的其他文档分类规则也可能存在类似问题。

【发明内容】

有鉴于此,本发明提供了一种跨语言自动构建分类规则的方法和装置,以便于降低多目标语种构建分类规则的成本和工作量。

具体技术方案如下:

一种跨语言自动构建分类规则的方法,将源语言的分类规则进行变换得到一个以上的与关系规则后,针对每一个与关系规则分别执行以下步骤:

S1、确定当前与关系规则中判断条件的关键词;

S2、确定各关键词对应的目标语言候选词集合,该集合包括:关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词以及该关键词;

S3、分别从各目标语言候选词集合中挑选文档覆盖状况满足预设要求的候选词作为各关键词对应的目标语言关键词;

S4、将目标语言关键词采用或的关系分别替换当前与关系规则中对应的关键词,得到目标语言的与关系规则。

根据本发明一优选实施例,所述关键词的目标语言翻译词、目标语言翻译为源语言的字符串中包含该关键词的目标语言词从机器翻译所使用的词表中获得。

根据本发明一优选实施例,所述文档覆盖状况满足预设要求为:挑选的候选词所覆盖的文档与目标文档覆盖状况之间的逼近程度满足预设要求,所述目标文档覆盖状况为:将目标语言文档翻译为源语言文档时满足当前与关系规则的目标语言文档。

根据本发明一优选实施例,所述步骤S3具体包括:

S31、将目标语言候选词集合中的各候选词按照文档覆盖率从高到低进行排序;

S32、按顺序逐一对候选词进行选择:如果当前候选词所覆盖的文档未包含在已选择候选词所覆盖的文档中,则选择当前候选词;待已选择候选词所覆盖的文档达到目标文档覆盖状况,或者,当前候选词所覆盖的文档数小于预设状况,则停止对候选词的选择;

S33、将选择出的候选词作为关键词对应的目标语言关键词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210283172.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top