[发明专利]一种基于人工智能的多标签分类方法在审

申请号：	201810978962.2	申请日：	2018-08-27
公开（公告）号：	CN109214445A	公开（公告）日：	2019-01-15
发明（设计）人：	陈超;朱润凯;时维维;王扬	申请（专利权）人：	陆一柒（北京）科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/35
代理公司：	暂无信息	代理人：	暂无信息
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	知识点概率预处理互联网教育人工智能标签分类字符串题目训练数据集统计分类方式可扩展性内容合并数据集中短文本归一化排序标签合并
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于人工智能的多标签分类方法，涉及互联网教育领域。本发明的方法步骤为：1）训练数据集：获取题目集；合并为字符串S；对字符串S进行预处理；统计该知识点下出现该关键词的概率；统计该知识点在数据集中出现的概率；2）对任意目标新题提取多知识点：将目标新题的内容合并为一个字符串Sn；对字符串Sn进行预处理；统计该知识点下出现该题Q的概率；目标新题包含该知识点的概率；进行归一化；对目标题目包含某知识点的概率进行排序；将上一步获得的知识点作为目标题目涉及的知识点。同现有技术相比，本发明采用短文本多标签的分类方式，具有良好的可扩展性，适合互联网教育领域。

技术领域

本发明涉及互联网教育领域，特别是题目多知识点的提取方法。

背景技术

随着移动互联网时代的到来，人们每时每刻都在产生海量的数据。在教育领域，每年诞生了大量的新题，如何快速精准的确定每道题目涉及的所有知识点对广大教育工作者具有重要意义。我们考虑使用文本分类的方式，来解决这个问题。

现有技术中，机器学习针对文本分类的算法层出不穷，如朴素贝叶斯算法，K-近邻算法，神经网络算法和支持向量机等等。例如，中国专利公开号是‘CN108073677 A'的“一种基于人工智能的多级文本多标签分类方法及系统”，其主要思想就是利用神经网络构建多级文本多标签分类模型。不过该方法主要针对细粒度文本（子句）的分类问题，更适用于电商网站的用户评论分析，这样的文本有明显的正面情感和负面情感。而教育领域的题目涉及不同的知识点，知识点高达数千个，无法单纯的以两方面划分，因此在教育领域很难应用。

再例如，中国专利公开号为‘CN 104866573 A’的“一种文本分类方法”，主要使用TFIDF对文本进行分类。这种方法认为在文本分类过程中，关键词的权重起决定性的作用。然而 TFIDF初衷是抑制某一文档内无意义高频词的负面影响，低频词将因此而被凸现出来。但是在教育领域，某一类题目中出现常见词并不等于无意义词，更可能是该分类的关键词，因此无法在教育领域得到应用。

发明内容

针对上述现有技术中存在的局限性和不足，本发明的目的是提供一种基于人工智能的多标签分类方法。它采用短文本多标签的分类方式，具有良好的可扩展性，适合互联网教育领域。

为了达到上述发明目的，本发明的技术方案以如下方式实现：

一种基于人工智能的多标签分类方法，其方法步骤为：

1）训练数据集：

获取某一具体科目的题目集。

将每道题的题目、选项、答案、解析内容合并为一个字符串S。

对字符串S进行预处理，获得关键词组。

统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K，以W/K作为该知识点下出现该关键词的概率P(W/K)；同时，统计总的数据集的次数A，以K/A作为该知识点在数据集中出现的概率P(K)。

2）对任意目标新题提取多知识点：

将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。

对字符串Sn进行预处理，获得题目的一组关键词。