[发明专利]一种分类器的构建方法、混杂文本的分类方法及装置在审

申请号：	201811278457.3	申请日：	2018-10-30
公开（公告）号：	CN109522943A	公开（公告）日：	2019-03-26
发明（设计）人：	曾承;王金河;吕鹏	申请（专利权）人：	武汉泰乐奇信息科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	罗飞
地址：	430070 湖北省武汉***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	混杂分类器文本构建短句分类结果分类文本分割分隔符
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种分类器的构建方法、混杂文本的分类方法及装置，其中的混杂文本的分类方法包括：获得待处理的混杂文本；根据分隔符将混杂文本分割为多个短句；将多个短句逐个输入构建的分类器中，获得分类结果。可以大大提高分类结果准确性。

技术领域

本发明涉及数据处理技术领域，具体涉及一种分类器的构建方法、混杂文本的分类方法及装置。

背景技术

在进行数据挖掘之前，需要将非结构化数据清洗为结构化数据，当非结构化的数据是一段混杂的文本时，则需要通过技术手段对混杂文本进行拆分，并映射到对应的结构化的列中。

现有技术中，通常采用的方法是：首先通过人工整理特征词，在进行分类时，将混杂文本按照标点符号分开为短句，然后依次判断短句中是否包含不同列的特征词，如果包含，就把该短句划分到该列。例如“肝脏超声未见明显异常；肾脏超声未见明显异常”，前一句划分到“肝脏超声”，后一句划分到“肾脏超声”。

本发明申请人在实施本发明的过程中，发现现有技术中的方案至少存在如下问题：

现有方法，由于需要通过人工整理特征词，导致特征词不全面，容易遗漏，并且整理的特征词不能很好的体现文本特征，导致一些短句会被误判。例如“膀胱充盈，子宫附件未见明显异常”，按照特征词判断，该短句会被误判为“膀胱超声”，因为它包含特征词“膀胱”，但“膀胱充盈”只是做“子宫附件超声”检查的前提条件，实际上该短句应该属于“子宫附件超声”。

由上可知，现有技术中方法存在分类结果不准确的技术问题。

发明内容

有鉴于此，本发明提供了一种分类器的构建方法、混杂文本的分类方法及装置，用以解决或者至少部分解决现有技术中方法存在分类结果不准确的技术问题。

本发明第一方面提供了一种分类器的构建方法，包括：

步骤S1：将多个混杂文本进行拆分成短句，基于预先整理的特征词标注为训练集；

步骤S2：针对训练集，筛选出满足预设条件的特征词；

步骤S3：采用筛选出的特征词将短句表示为特征向量；

步骤S4：基于特征向量以及对应的训练集训练模型，获得每个拆分列的分类器，其中，每个拆分列对应一个类别。

在一种实施方式中，步骤S1中，通过手动或者自动的方式进行标注，获得每个文本对应的训练集。

在一种实施方式中，步骤S2具体包括：

通过分词和统计词频，获得每个特征词的词频；

将每个特征词按照词频排序，将满足预设数量的特征词作为满足预设条件的特征词。