[发明专利]基于主题聚类的无监督作文跑题检测方法及系统有效
| 申请号: | 201811473179.7 | 申请日: | 2018-12-04 |
| 公开(公告)号: | CN109508460B | 公开(公告)日: | 2020-03-24 |
| 发明(设计)人: | 李霞;温启帆 | 申请(专利权)人: | 广东外语外贸大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
| 地址: | 510006 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 主题 监督 作文 跑题 检测 方法 系统 | ||
本发明公开了基于主题聚类的无监督作文跑题检测方法及系统,方法包括:对待测作文进行关键词提取,生成第一关键词集合;对作文题目进行关键词提取,生成第二关键词集合;根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;根据生成的多个聚类簇生成切分阈值;根据切分阈值将多个聚类簇切分为切题簇和跑题簇;根据切题簇和跑题簇确认切题作文和跑题作文。本发明大大提高了作文跑题检测的准确性,可广泛应用于文字处理技术领域。
技术领域
本发明涉及文字处理技术领域,尤其是基于主题聚类的无监督作文跑题检测方法及系统。
背景技术
无监督学习是指根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,由于在现实生活中常常因为缺乏足够的先验知识,而以人工标注类别或进行人工类别标注的成本太高,因此提出了无监督学习技术来通过计算机完成这些工作。
现有的无监督作文跑题检测研究将每篇待测作文看成一个样本,通过计算每篇待测作文与题目的主题相关度分值,并找出合适的切分阈值最终识别离题作文和切题作文。由于跑题作文的主题可能多种多样,因此跑题作文的主题发散度通常很大。而切题作文之间虽然因为语法错误或语句衔接等差异使得作文之间的分数有所不同,但他们与作文题目的主题一致性通常较高。因此,如果等同看待和处理每一篇作文,将会忽略切题作文之间主题更为一致而跑题作文之间主题更为发散这一事实。
另外,现有的无监督作文跑题检测方法通过计算每一篇待测作文与作文题目的主题一致性,然后根据一定的阈值检测该待测作文是否为跑题作文,这种方法为了尽可能的让切题作文划分出来,可能会将边界周围的离题作文也划分到切题作文上,不够准确。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种准确度高的基于主题聚类的无监督作文跑题检测方法及系统。
本发明一方面所采取的技术方案为:
基于主题聚类的无监督作文跑题检测方法,包括以下步骤:
对待测作文进行关键词提取,生成第一关键词集合;
对作文题目进行关键词提取,生成第二关键词集合;
根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
根据生成的多个聚类簇生成切分阈值;
根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
根据切题簇和跑题簇确认切题作文和跑题作文。
进一步,所述对待测作文进行关键词提取,生成第一关键词集合这一步骤,其具体为:通过TextRank关键词提取算法对待测作文进行关键词提取,生成第一关键词集合。
进一步,所述对作文题目进行关键词提取,生成第二关键词集合这一步骤,包括以下步骤:
通过TextRank关键词提取算法对作文题目进行关键词提取;
采用基于词向量模型的余弦相似度计算方法,对提取到的关键词进行扩充,生成第二关键词集合。
进一步,所述根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度这一步骤,包括以下步骤:
逐一选取第一关键词集合中的作文关键词;
分别计算选取的作文关键词与第二关键词集合中每一题目关键词之间的语义相似度,并将计算得到的最高语义相似度作为该作文关键词与作文题目之间的主题相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811473179.7/2.html,转载请声明来源钻瓜专利网。





