[发明专利]目标领域对应类别信息的确定方法及装置在审

专利信息
申请号: 202111165130.7 申请日: 2021-09-30
公开(公告)号: CN113901212A 公开(公告)日: 2022-01-07
发明(设计)人: 司马华鹏;华冰涛;汤毅平;汪成 申请(专利权)人: 宿迁硅基智能科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F40/211;G06F40/289;G06K9/62
代理公司: 北京弘权知识产权代理有限公司 11363 代理人: 逯长明;许伟群
地址: 223808 江苏省宿*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 目标 领域 对应 类别 信息 确定 方法 装置
【说明书】:

本申请提供了一种目标领域对应类别信息的确定方法及装置,基于目标领域的线索文本,识别目标领域内各文本素材中每个目标句子的各分词之间的依存关系,并建立与每个目标句子对应的关系模板,从而基于全部目标句子的关系模板,确定目标领域对应的各种依存关系,并将每种依存关系确定为相应的类别信息。通过本申请所提供的方法,避免根据人工确定领域的类别信息,可以有效提高所确定的类别信息的准确性。同时,可以进一步提高所提取的第一文本、第二文本的准确性,以提高所确定的目标视频素材的准确性。

技术领域

本申请涉及文本处理技术领域,尤其涉及一种目标领域对应类别信息的确定方法及装置。

背景技术

根据文学作品的内容,可以将文本素材划分为不同的领域,例如,可以将文学作品划分为三国演义领域、红楼梦领域、西游记领域、水浒传领域等。每一个领域均有对应的文本素材,例如,以三国演义领域为目标领域,该目标领域的文本素材可以是三国演义的原著、与三国演义相关的评论、解析等。

各领域的文本素材除了可单纯地用作文学作品的数据储备以外,还具有其他广泛地应用,例如,在视频合成技术中,可以使用从文本素材中提取的与领域对应类别信息相应的类别文本为各视频素材打标签,或者基于从待处理文本中提取的与领域中不同类别信息对应的文本,确定用于合成视频的视频素材。上述从文本素材中提取文本的过程,需要首先确定该文本素材所属领域对应的类别信息,领域对应的类别信息指示该领域中各文本素材所包含的较为重要的文本内容的所属类别,例如三国演义领域,各文本素材的文本内容以人物、事件为主,该领域的类别信息包括人物、情绪、事件、地点等。

目前,领域的类别信息主要由专业人员根据先验知识确定。进一步地,基于人工确定的类别信息,通过简单的命名该实体识别方法提取文本素材中相应的类别文本。首先,人工确定领域对应类别信息的过程需要耗费大量的人力、且准确性较低,进一步地,基于命名实体方法提取的类别文本,并不能很好地契合该领域对于词语的特有表示方法,所提取的命名实体的准确性较低。

发明内容

本申请提供了一种目标领域对应类别信息的确定方法及装置,可以有效解决现有的领域类别信息确定方法准确性低的问题。

本申请第一方面提供了一种目标领域对应类别信息的确定方法,包括:

获取目标领域的全部文本素材;

提取目标句子的线索文本,所述目标句子是指所述全部文本素材中的每个句子,所述线索文本是指与所述目标领域中指定类别对应的文本内容;

以所述目标句子的线索文本为起点,按照预设识别顺序,依次识别所述目标句子中的每个分词,以及所述每个分词对应的依存关系,其中,所述依存关系是指在所述预设识别顺序中后一个分词相对于前一个分词的句法关系;

构建每一个所述目标句子对应的关系模板,所述关系模板由所述目标句子的线索文本、各分词、以及每个分词对应的依存关系构成;

基于全部所述目标句子对应的关系模板,确定所述目标领域对应的类别信息,其中,一种所述类别信息对应一种依存关系。

在一种实现方式中,所述提取目标句子的线索文本包括:

获取所述目标领域的全部线索文本;

利用所述全部线索文本训练句法分析模型,以使所述句法分析模型识别所述线索文本对应的文本内容,其中,所述句法分析模型用于按照所述预设识别顺序识别所述目标句子中的分词;

通过所述句法分析模型提取所述目标句子的线索文本。

在一种实现方式中,所述预设识别顺序基于所述分词的词性设定。

在一种实现方式中,所述构建每一个所述目标句子对应的关系模板包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111165130.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top