[发明专利]一种基于长文本分割的文本质量自动评估方法在审
申请号: | 202010601757.1 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111797236A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 舒展;田文洪;王鸿 | 申请(专利权)人: | 舒展;田文洪;王鸿 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都市成华*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于长文本分割的文本质量自动评估方法,包括文本采集:主要是获取主流存储方式中的文本例如pdf、docx、doc以及粘贴的文本,以pdf存储的文本获取为例,利用selenium在万方数据库自动下载pdf论文;文本预处理:利用iText工具将pdf文本转换成可编辑文本,然后根据数据特征和模型设计,进行文本预处理;文本质量分类模型训练:采用基于注意力的长短期记忆循环神经网络(LSTM)对预处理的文本进行质量特征挖掘并完成训练;文本模型预测:将质量挖掘模型输出的特征进行分类,本发明专利将文本质量分为优、良和差三大类别。 | ||
搜索关键词: | 一种 基于 文本 分割 质量 自动 评估 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于舒展;田文洪;王鸿,未经舒展;田文洪;王鸿许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010601757.1/,转载请声明来源钻瓜专利网。