[发明专利]一种多语句对文本语料分类方法和分类器在审

专利信息
申请号: 201711276465.X 申请日: 2017-12-06
公开(公告)号: CN107894980A 公开(公告)日: 2018-04-10
发明(设计)人: 陈件;张井 申请(专利权)人: 陈件;张井
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 上海骁象知识产权代理有限公司31315 代理人: 赵俊寅
地址: 200000 上海市杨*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语句 文本 语料 分类 方法
【说明书】:

技术领域

发明涉及信息技术领域,特别是涉及一种多语句对文本语料分类方法和分类器。

背景技术

文本语料库也是以电子计算机为载体承载语言知识的基础资源,完整的口语语料库用于语言模型构建、词典编纂以及文本分类等,文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。

文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。

但是目前的分类方法难以达到准确分类的目的,现有的一些平台上存在有大量的双语句对,大部分的句对没有被标注类别,其余的句对即使被标注了类别,准确标注的句对也只占相当少的部分,然而,对应的,在平台上的语料检索、内容分发和路由等方面都依赖于准确的语料类别标注,为了能够更好的发挥各种语料平台的作用,提供一种实用的并且分类精度高的分类方法是很有必要的。

应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供了一种提高分类精度的多语句对文本语料分类方法和分类器。

为实现上述目的,本发明提供了一种多语句对文本语料分类方法,包括:

输入待预测数据,进行语种分离;

将每个语种对应的词语随机打乱;

将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果;

将多个语种对应的预测结果进行交互验证;

根据交互验证结果输出最终判断结果。

进一步的,所述将每个语种对应的词语随机打乱的步骤之后,将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果的步骤之前还包括:

判断所述随机打乱次数是否达到预设次数,是则分次将所述预测结果对应交互验证得到预设次数的综合预测标签;

所述最终判断结果是根据所述预设次数的综合预测标签判断得到的。本实施方案中,由于进行卷积神经网络模型训练,要求输入的向量尺寸相同,因而我们需要对一些长句子进行截短操作,这有可能导致语句信息的丢失;因而,重读打乱的次数至少为两次,该预设次数可以根据 语种的种类、待预测数据的复杂程度等进行对应设置,多次重复打乱,然后再进行截短操作,以及后续的流程,可以避免截短操作使得语句关键信息丢失,同时,又可以将不好的、分类不明确、不利于训练的句对进行筛除;另外,最终的判断结果则是基于随机打乱多次的文本进行分别预测的,如果多次预测结果相同,自然可以认为该预测结果的准确度较高;再者,若是多次预测结果差异度大于预设值,可以将其分类至无法准确分类类别或者不清楚类别等;其中,该预设次数根据具体情况,使得训练出来的结果能够符合分类器的精度要求即可。

进一步的,所述预设次数为5。本实施方案中,预设次数可以根据情况改变,例如,当待预测数据为中英双语时,可以大概将预设次数设置为5次。

进一步的,所述语种包括中文语种和英文语种,所述卷积神经网络模型包括中文卷积神经网络模型和英文卷积神经网络模型。本实施例中,语种包括中文语种和英文语种,对应预先训练有中文卷积神经网络模型和英文卷积神经网络模型,在预测时,分别通过两者进行预测,并将两个分类器进行并联,进而交互验证,可以提高分类精度。

进一步的,所述输入待预测数据,进行语种分离的步骤之后,所述将每个语种对应的词语随机打乱的步骤之前还包括:

对分离得到的中文语种词语先进行中文分词处理,然后进行中文停止词过滤处理;同时,对分离得到的英文语种词语先进行英文空格分词,然后进行英文停止词过滤。本实施方案中,无论是文本向量化,还是停止词过滤等基于词语的文本操作,都需要先对文本进行分词,具体可以借助适用的分词器等进行分词;其中,停止词指的是那些使用频率过高、对语句信息贡献很小的词,这些词对我们的分类任务几乎没有帮助,而且会稀释别的具有区分性的词,因此在训练之前要 将这些词过滤掉;具体的,可以将停止词数据库放到集合类型内,并借助适用的过滤方法对文本进行停止词过滤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈件;张井,未经陈件;张井许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711276465.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top