[发明专利]专业词抽取和词性标注方法在审

专利信息
申请号: 201910841201.7 申请日: 2019-09-03
公开(公告)号: CN110825913A 公开(公告)日: 2020-02-21
发明(设计)人: 高巍 申请(专利权)人: 上海擎测机电工程技术有限公司
主分类号: G06F16/78 分类号: G06F16/78;G06F16/735;G06F16/33
代理公司: 北京挺立专利事务所(普通合伙) 11265 代理人: 田黎绒
地址: 200080 上海市虹*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 专业 抽取 词性 标注 方法
【说明书】:

发明公开了一种专业词抽取和词性标注方法,其包括如下步骤:S1:建立关键词标签数据库、保存关键词与行业特征词的对应关系;S2:从查询指令中提取关键词;S3:基于S1所得关键词标签数据库、匹配对应于S2所得关键词的行业特征词;S4:基于S3所得行业特征词对视频文件进行筛选;S5:对筛选所得视频文件中的行业特征词进行标注。本发明能够从视频文件中提取行业特征词,并获取与关键词对应的通用行业特征词所关联的文本信息。大幅提升检索的精确性、减少工作量,提升工作效率。

技术领域

本发明属于语音识别技术领域,具体来说涉及一种对视频文件的专业词抽取和词性 标注方法。

背景技术

AR技术,也称增强显示技术,是一种将原本在现实空间范围中比较难以进行体验的实 体信息在电脑等科学技术的基础上,实施模拟仿真处理,通过将虚拟信息内容叠加在真实 世界中并使得这一过程被人类感官感知,从而实现超现实感官体验的新技术。近年来,AR 技术被广泛应用于工业、影视、医疗、教育等领域。现有AR技术在进行专业词的抽取过程 中,主要通过计算相邻词之间的耦合度得到领域术语,但这种方法需要对语料中所有的词 计算耦合度,且准确度较低;而如果采用手工标注所有专业术语的方式,又存在工作量大、 效率低的问题。因此,如何在AR领域开发出一种新的专业词抽取和词性标注方法,以克服 上述问题,提升抽取的准确率,提升工作效率,降低工作量,是本领域技术人员需要研究 的方向。

发明内容

本发明的目的是提供一种专业词抽取和词性标注方法,能够提升对关键词相关视频文 件的抽取准确率,降低抽取工作量,提升抽取效率。

其采用的技术方案如上:

一种专业词抽取和词性标注方法,其包括如下步骤:S1:建立关键词标签数据库、保 存关键词与行业特征词的对应关系;S2:从查询指令中提取关键词;S3:基于S1所得关键词标签数据库、匹配对应于S2所得关键词的行业特征词;S4:基于S3所得行业特征词对视频文件进行筛选;S5:对筛选所得视频文件中的行业特征词进行标注。

采用这种技术方案:通过预先设置于行业特征词一一对应匹配的关键词标签数据库, 以查询指令中的关键词匹配出其对应的行业特征词,并根据本次查询的行业特征词对各个 视频文件进行自动化筛选,并对筛选结果中的行业特征词进行对应批注,从而降低了抽取 工作量,提升了抽取效率。

优选的是,上述专业词抽取和词性标注方法中,还包括步骤S6,所述步骤S6包括:对 S4所得视频文件上添加检索标签、并依据时间顺序进行排序。

采用这种技术方案:通过基于行业特征词出现时间对视频文件的排序,提升了对视频 文件筛选的准确性,确保了用户能够依据时序优先查找到相关性更大的视频文件。

更优选的是,上述专业词抽取和词性标注方法中:所述步骤S1包括如下步骤:S11:根据行业安全规程和操作手册,收集行业特征词;S12:将行业特征词输入关键词标签数 据库中并进行统一格式化;S13:对各个行业特征词打上对应的关键词标签;S14:基于行 业特征词的出现频率、对各个行业特征词打上对应的权重值标签,并将各行业特征词依据 其权重值标签进行排序。

采用这种技术方案:基于通用行业各个企业的安全规程与设备厂家的操作手册等构建 通用行业特征词的词表,此方法特征提取灵活,准确率较高。通过基于行业特征词的频率 统计对各词赋予权重值并排序,进一步提升了检索的准确性。

进一步优选的是,上述专业词抽取和词性标注方法中,所述步骤S4包括如下步骤:S41: 截取视频文件中的音轨文件;S42:将S21所得音轨文件转化为文本描述文件;S43:对所 述文本描述文件进行分词处理、将该文本描述文件拆分为若干个分词;S44:将所述分词中包含行业特征词的文本描述文件对应的视频文件筛选出来。

更进一步优选的是,上述专业词抽取和词性标注方法中:步骤S43所述分词处理基于 分布式爬虫平台实现。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海擎测机电工程技术有限公司,未经上海擎测机电工程技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910841201.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top