[发明专利]语句文本检测方法、系统、电子设备及存储介质在审

专利信息
申请号: 202011092199.7 申请日: 2020-10-13
公开(公告)号: CN112949285A 公开(公告)日: 2021-06-11
发明(设计)人: 刘海东 申请(专利权)人: 广州市百果园网络科技有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/253;G06F40/279;G06F40/30
代理公司: 北京泽方誉航专利代理事务所(普通合伙) 11884 代理人: 唐明磊
地址: 510000 广东省广州市番禺区市桥街兴泰路*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语句 文本 检测 方法 系统 电子设备 存储 介质
【说明书】:

本申请实施例公开了一种语句文本检测方法、系统、电子设备及存储介质。本申请实施例提供的技术方案,通过采用预训练后的语言表征模型来提取文本信息中的词语特征信息,并通过构建的句法分析模型来对文本信息进行句法结构解析得到语句主体结构,根据语句主体结构来加强语句文本中的关键部分词语的联结强度,降低语句中介词以及其他干扰词的影响,进而准确的捕捉句子的整体语义信息以确定是否违规。本申请实施例的方案能够实现更精准的违规语句检测。

技术领域

本申请实施例涉及文本处理技术领域,尤其涉及一种语句文本检测方法及系统。

背景技术

自然语言处理(NLP)是人工智能的一个子领域,目标是让计算机处理或者理解自然语言。现有的解决自然语言理解问题的方法大多基于rnn,cnn以及 attention注意力机制。由于attention机制无论在提取文本中跨多个词之间的表征,还是计算速度上都体现出了极大的优势,因此最新提出的解决自然语言理解问题的模型,大多基于attention机制。其中典型的方法有语言模型嵌入 (ELMo)、生成式预训练转换器(GPT)、基于转换器的双向编码器表示(Bert) 以及广义自回归预训练模型(XLNet)等。这些模型利用大量的文本和强大的计算力来实现庞大的模型预训练任务,使得预训练后的模型自身就具备高效的文本特征提取能力和语义理解能力,这些特征可以较容易的应用到下游任务,例如文本分类任务,以取得了很好的分类效果。

现有技术中,上述模型所使用的文本大多来自互联网上已有的文字语料,这些文字语料自身是结构完整,并且语义连贯的文本,基于这些文本预训练的模型可以对该类型的文本进行较精准的文本分类。但是在某些应用场景下,比如视频直播以及短视频等涉及到文字的应用场景,提取到的文本均是短视频下面的评论以及直播间的聊天内容。这些语料具有文本长短不一、文字分布不同、语法错误,并且语义不连贯的特点,因此针对这类特殊文本,常规的文本处理技术无法精准的进行语义信息的捕捉。对很长的整体语义是违规的语句,但是由于其中违规成份占比却比较少,故而无法进行精准的检测。除此之外,在违规检测场景,还存在着大量的用户违规对抗行为,如为了不被模型检测到违规,用户会在保证语义不变的情况下,对表达的内容进行变形,给违规检测带来了极大的干扰,故在语句文本表述方式变化的情况下,采用现有技术中的文本处理方式无法有效的对用户违规语句进行检测。

发明内容

本申请实施例提供一种语句文本检测方法及系统,能够通过将语言表征模型来提取语句文本中的词语特征,并结合识别得到的语句主体结构来进行整体语句的理解,通过上述组合识别的方式,大大提升语句文本的违规检测准确性。

在第一方面,本申请实施例提供了一种语句文本检测方法,包括:

获取用户输入的文本信息;

通过预训练后的语言表征模型对所述文本信息进行词语特征提取以得到对应的词语特征信息;

根据句法分析模型对所述文本信息进行句法结构分析以确定所述文本信息的语句主体结构;

根据所述语句主体结构以及所述词语特征信息确定文本检测结果。

进一步的,所述根据所述语句主体结构以及所述词语特征信息确定文本检测结果包括:

根据所述语句主体结构确定文本信息中对应的主体位置;

根据所述主体位置调整对应的词语特征信息的表征权重;

根据所述表征权重以及对应的词语特征信息确定文本检测结果。

进一步的,所述语句主体结构包括主语、谓语和宾语;在所述根据所述表征权重以及对应的词语特征信息确定文本检测结果之前,还包括:

确定主语、谓语和宾语之间的第一连结关系;

根据所述第一连结关系调整对应的词语特征信息的表征权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园网络科技有限公司,未经广州市百果园网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011092199.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top