[发明专利]一种基于人工智能的多标签分类方法在审
申请号: | 201810978962.2 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109214445A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 陈超;朱润凯;时维维;王扬 | 申请(专利权)人: | 陆一柒(北京)科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识点 概率 预处理 互联网教育 人工智能 标签分类 字符串 题目 训练数据集 统计 分类方式 可扩展性 内容合并 数据集中 短文本 归一化 排序 标签 合并 | ||
一种基于人工智能的多标签分类方法,涉及互联网教育领域。本发明的方法步骤为:1)训练数据集:获取题目集;合并为字符串S;对字符串S进行预处理;统计该知识点下出现该关键词的概率;统计该知识点在数据集中出现的概率;2)对任意目标新题提取多知识点:将目标新题的内容合并为一个字符串Sn;对字符串Sn进行预处理;统计该知识点下出现该题Q的概率;目标新题包含该知识点的概率;进行归一化;对目标题目包含某知识点的概率进行排序;将上一步获得的知识点作为目标题目涉及的知识点。同现有技术相比,本发明采用短文本多标签的分类方式,具有良好的可扩展性,适合互联网教育领域。
技术领域
本发明涉及互联网教育领域,特别是题目多知识点的提取方法。
背景技术
随着移动互联网时代的到来,人们每时每刻都在产生海量的数据。在教育领域,每年诞生了大量的新题,如何快速精准的确定每道题目涉及的所有知识点对广大教育工作者具有重要意义。我们考虑使用文本分类的方式,来解决这个问题。
现有技术中,机器学习针对文本分类的算法层出不穷,如朴素贝叶斯算法,K-近邻算法,神经网络算法和支持向量机等等。例如,中国专利公开号是‘CN108073677 A'的“一种基于人工智能的多级文本多标签分类方法及系统”,其主要思想就是利用神经网络构建多级文本多标签分类模型。不过该方法主要针对细粒度文本(子句)的分类问题,更适用于电商网站的用户评论分析,这样的文本有明显的正面情感和负面情感。而教育领域的题目涉及不同的知识点,知识点高达数千个,无法单纯的以两方面划分,因此在教育领域很难应用。
再例如,中国专利公开号为‘CN 104866573 A’的“一种文本分类方法”,主要使用TFIDF对文本进行分类。这种方法认为在文本分类过程中,关键词的权重起决定性的作用。然而 TFIDF初衷是抑制某一文档内无意义高频词的负面影响,低频词将因此而被凸现出来。但是在教育领域,某一类题目中出现常见词并不等于无意义词,更可能是该分类的关键词,因此无法在教育领域得到应用。
发明内容
针对上述现有技术中存在的局限性和不足,本发明的目的是提供一种基于人工智能的多标签分类方法。它采用短文本多标签的分类方式,具有良好的可扩展性,适合互联网教育领域。
为了达到上述发明目的,本发明的技术方案以如下方式实现:
一种基于人工智能的多标签分类方法,其方法步骤为:
1)训练数据集:
获取某一具体科目的题目集。
将每道题的题目、选项、答案、解析内容合并为一个字符串S。
对字符串S进行预处理,获得关键词组。
统计各个关键词在各知识点中出现的次数W和各个知识点在数据集中出现的次数K,以W/K作为该知识点下出现该关键词的概率P(W/K);同时,统计总的数据集的次数A,以K/A作为该知识点在数据集中出现的概率P(K)。
2)对任意目标新题提取多知识点:
将目标新题的题干、选项、答案、解析内容合并为一个字符串Sn。
对字符串Sn进行预处理,获得题目的一组关键词。
对每一个知识点,将所有关键词在该知识点中出现的概率P(W/K)相乘,作为在该知识点下出现该题Q的概率P(Q/K)。
对所获得的P(Q/K)与该知识点在训练集中出现的概率P(K)相乘即可表示目标新题包含该知识点的概率P(K/Q)。
对所有的P(K/Q)进行概率归一化。
对目标题目包含某知识点的概率进行排序,将返回概率超过阈值Y的几个知识点从小到大排列;其中,阈值Y通过测试集获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陆一柒(北京)科技有限公司,未经陆一柒(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810978962.2/2.html,转载请声明来源钻瓜专利网。