[发明专利]一种基于长文本分割的文本质量自动评估方法在审
申请号: | 202010601757.1 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111797236A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 舒展;田文洪;王鸿 | 申请(专利权)人: | 舒展;田文洪;王鸿 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都市成华*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 分割 质量 自动 评估 方法 | ||
本发明公开一种基于长文本分割的文本质量自动评估方法,包括文本采集:主要是获取主流存储方式中的文本例如pdf、docx、doc以及粘贴的文本,以pdf存储的文本获取为例,利用selenium在万方数据库自动下载pdf论文;文本预处理:利用iText工具将pdf文本转换成可编辑文本,然后根据数据特征和模型设计,进行文本预处理;文本质量分类模型训练:采用基于注意力的长短期记忆循环神经网络(LSTM)对预处理的文本进行质量特征挖掘并完成训练;文本模型预测:将质量挖掘模型输出的特征进行分类,本发明专利将文本质量分为优、良和差三大类别。
技术领域
本发明涉及计算机辅助文本质量自动分类技术领域,特别是涉及一种基于长文本分割的文本质量自动评估方法
背景技术
随着Web2.0的出现,合作编辑、发布文本(例如维基百科条目、微信公众号文本)和知乎问答产生的文本日益频繁也更加容易,增长速度之快。据维基百科官网数据,目前维基百科条目有537万,每天新增650篇文章,而每月对现有文章进行300万次以上的修改。此外,据有关报道,中国2019届毕业生834万,发表的毕业论文数量庞大。
各种长文本的涌现,文本质量一直遭受公众质疑。今天,维基百科的英文版有超过2000个专家评估小组,每个维基项目中有8个评估小组负责文本质量的评估。每天创建的新维基百科文章的数量和对现有的更改的数量使得不可能通过一小群人来监控维基百科条目的质量,甚至频繁地验证和更新条目所属的质量等级,这是相当具有难度的。与此同时毕业生论文的质量,在日益严格的毕业要求下,抄袭行为可以由低重复率来限制,而毕业论文质量目前却没有有效的方法来监控,导致社会上出现学术不端的现象。
本专利收集了一套毕业生论文质量的数据集,目前人工智能在文本分类已经取得了一些成果,然而由于毕业论文是具有3万字级别的长文本,仍面临如下挑战:
0)目前在毕业生论文质量数据集上的研究较少。
1)现有的模型尚不能分析超长文本。
2)模型的复杂度和数据分布的复杂度不匹配,容易出现过拟合或者欠拟合。
3)目前各领域技术都有不同程度的飞速发展,有待技术更新,更好的挖掘信息。
发明内容
为了解决上述技术或资源问题,本发明依托于大学档案馆收藏的2004至今的真实数据,以及现有的各方面可行的先进技术,本发明设计了一种基于长文本分割的文本质量自动评估方法。
一种基于长文本分割的文本质量自动评估方法,包括:文本采集:主要是获取主流存储方式中的文本例如pdf、docx、doc以及粘贴的文本。以pdf存储的文本获取为例,利用selenium在万方数据库自动下载pdf论文;文本预处理:利用iText工具将pdf文本转换成可编辑文本,然后根据数据特征和模型设计,进行文本预处理;文本质量分类模型训练:对预处理的文本进行质量特征挖掘;文本模型预测:将质量特征挖掘模型输出的特征进行分类。
进一步的,在所述文本采集过程中,需要根据具体毕业生名单按照优秀、正常、延期分别收集往年毕业生pdf版论文。
进一步的,在所述的文本预处理过程中,根据pdf这种文本存储方式,选择较好的解析工具,这样才能避免引入过多的干扰噪音。因此在文本预处理阶段需要过滤pdf解析步骤引入的噪音。
进一步的,在所述的文本预处理,经过上一步处理后,将毕业生论文按照章节的语义群进行分割,并为每一个语义群附上标签优秀、正常、延期。
进一步的,在所述的文本质量分类模型训练过程中,分文本语义挖掘部分和文本语义特征抑郁性分类部分。
进一步的,对预处理的文本进行质量特征挖掘中,本文使用双向长短期记忆模型进行长文本的特征的提取,输出具有质量的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于舒展;田文洪;王鸿,未经舒展;田文洪;王鸿许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010601757.1/2.html,转载请声明来源钻瓜专利网。