[发明专利]一种网页信息标注及提取系统在审

专利信息
申请号: 202110871566.1 申请日: 2021-07-30
公开(公告)号: CN113536186A 公开(公告)日: 2021-10-22
发明(设计)人: 李正军;涂著刚;杨敏;汤双明 申请(专利权)人: 贵阳高新数通信息有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F40/117;G06F40/126;G06F40/279;G06K9/62
代理公司: 重庆强大凯创专利代理事务所(普通合伙) 50217 代理人: 刘永来
地址: 550000 贵州省贵阳市高新*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 信息 标注 提取 系统
【权利要求书】:

1.一种网页信息标注及提取系统,包括:

用户端和后台管理端;

后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块;其中,用户创建模块,用于创建用户;项目创建模块,用于创建项目和项目配置,项目储存项目基本信息的model,项目配置关联项目并储存项目详细信息的model;数据创建模块,用于导入数据集并关联项目,存储数据类型和标题,并关联标记数据;兼职创建模块,用于创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息并关联用户和兼职信息;

其特征在于,用户端包括数据标注模块、数据训练模块和数据调用模块;其中,数据标注模块,用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,得到标记数据;数据训练模块,用于对标记数据进行训练,得到提取网页信息的调用模型;数据调用模块,用于通过调用模型对网页信息进行识别、提取,并输出识别结果。

2.如权利要求1所述的网页信息标注及提取系统,其特征在于,数据训练模块还用于,对标记数据进行训练之前,按照预设比例将标记数据分为训练源数据、验证源数据和测试源数据;数据训练模块用于采用机器学习算法对训练源数据进行训练得到调用模型,并将验证源数据和测试源数据代入调用模型中进行计算和调试,在调用模型训练的准确率达到预设阈值后,根据验证源数据和测试源数据进行调用模型的准确率验证和测试。

3.如权利要求2所述的网页信息标注及提取系统,其特征在于,数据训练模块按照预设比例6:2:2将标记数据分为训练源数据、验证源数据和测试源数据。

4.如权利要求3所述的网页信息标注及提取系统,其特征在于,数据训练模块分批次对标记数据进行训练,每批次用于训练的标记数据的数量为30条。

5.如权利要求4所述的网页信息标注及提取系统,其特征在于,数据训练模块对标记数据进行训练,每训练一次就验证、测试一次。

6.如权利要求5所述的网页信息标注及提取系统,其特征在于,数据训练模块还用于,使用bioes编码对标记数据进行编码,对带有标记信息的HTML数据去标签。

7.如权利要求6所述的网页信息标注及提取系统,其特征在于,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,将外文格式的标记数据转换为中文格式的标记数据。

8.如权利要求7所述的网页信息标注及提取系统,其特征在于,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,对标记数据进行切割,切割后的标记数据最长不超过200个字符。

9.如权利要求8所述的网页信息标注及提取系统,其特征在于,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,对标记数据进行jieba分词,去除停用词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵阳高新数通信息有限公司,未经贵阳高新数通信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110871566.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top