[发明专利]样本数据处理的方法、装置、计算机程序产品和存储介质在审

申请号：	202111417183.3	申请日：	2021-11-25
公开（公告）号：	CN114219012A	公开（公告）日：	2022-03-22
发明（设计）人：	李东超;崔鸣	申请（专利权）人：	北京房江湖科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/295;G06F40/211;G06F40/289
代理公司：	北京思源智汇知识产权代理有限公司 11657	代理人：	王晓多
地址：	101300 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本数据处理方法装置计算机程序产品存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种样本数据处理方法，其特征在于，包括：

获取待处理的文本集，所述文本集包括一个以上样本文本；

确定所述样本文本的句法结构，并确定所述句法结构在所述文本集中的数量占比；

将所述样本文本输入预先训练的命名实体识别模型，经所述命名实体识别模型输出所述样本文本中包括的字的边界标签及所述边界标签的置信度；

基于所述边界标签确定所述样本文本中包括的实体，并确定所述实体的F值以及类型标签；

确定所述实体的类型标签在所述文本集中的数量占比；

基于所述实体的类型标签在所述文本集中的数量占比、所述实体的F值以及所述句法结构在所述文本集中的数量占比，确定所述样本文本的支持度；

基于所述边界标签的置信度，确定所述样本文本的混淆度；

基于所述样本文本的支持度、混淆度、预设的支持度阈值和混淆度阈值，从所述文本集中获取目标样本文本。

2.根据权利要求1所述的方法，其特征在于，基于所述边界标签的置信度，确定所述样本文本的混淆度，包括：

基于所述边界标签的置信度，确定所述字的信息熵；

将所述实体中包括的字的信息熵的均值确定为所述实体的混淆度；

将所述样本文本中包括的实体的混淆度的均值确定为所述样本文本的混淆度。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括确定所述实体的类型标签的置信度；

基于所述边界标签的置信度，确定所述字的信息熵，包括：

基于所述字所属的实体的类型标签的置信度调整所述边界标签的置信度，得到调整后的边界标签的置信度；

基于所述调整后的边界标签的置信度，确定所述字的信息熵。

4.根据权利要求1至3之一所述的方法，其特征在于，所述样本文本的支持度与所述句法结构在所述文本集中的数量占比正相关，所述样本文本的支持度与第一数值正相关，且所述样本文本的支持度与第二数值负相关，其中，所述第一数值为所述样本中包括的各所述实体的类型标签在所述文本集中的数量占比的均值，所述第二数值为所述样本文本中包括的各所述实体的F值的均值。

5.根据权利要求1至4之一所述的方法，其特征在于，所述句法结构经由如下步骤确定：

对所述样本文本进行分词，得到分词序列；

确定所述分词序列中的词的词性；

基于所述词性，对所述分词序列进行句法分析，得到所述句法结构。

6.根据权利要求1至5之一所述的方法，其特征在于，所述实体的类型标签经由如下步骤得到：

利用Elastic Search对所述实体进行实体类型召回，得到所述实体的类型标签。

7.根据权利要求1至6之一所述的方法，其特征在于，所述方法还包括：

基于所述目标样本文本，构建样本集；

基于所述样本集，训练预先构建的初始序列标注模型，得到训练后的序列标注模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京房江湖科技有限公司，未经北京房江湖科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】