[发明专利]一种确定文本特征的方法及装置有效

专利信息
申请号: 201911223218.2 申请日: 2019-12-03
公开(公告)号: CN112906386B 公开(公告)日: 2023-08-11
发明(设计)人: 林建明;代宇 申请(专利权)人: 深圳无域科技技术有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/284;G06F16/35
代理公司: 深圳智汇远见知识产权代理有限公司 44481 代理人: 田俊峰
地址: 518057 广东省深圳市南山区粤海街*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 确定 文本 特征 方法 装置
【权利要求书】:

1.一种确定文本特征的方法,其特征在于,所述方法包括:

确定样本文本对应的分词集合、以及所述分词集合中每个分词的词向量;

基于预设的分词合并规则和所述分词集合包含的分词,确定分词组合,并根据各分词组合包含的分词的词向量,确定所述各分词组合的词向量;

根据确定出的分词组合的词向量,计算所述分词组合之间的相关度、以及各分词组合的区分度;

在所述分词组合中,确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合;

根据确定出的分词的词向量、所述目标分词组合的词向量,确定所述样本文本对应的特征向量;

其中,所述基于预设的分词合并规则和所述分词集合包含的分词,确定分词组合,包括:

在所述分词中,提取K个分词构成分词组合,其中,所述K为大于等于2的正整数,K的初始值等于2;

计算该分词组合的区分度,并判断已提取出的包含所述K个分词的分词组合的区分度是否满足预设收敛条件;

如果不满足,则继续提取所述K个分词构成分词组合,并返回所述计算该分词组合的区分度的步骤;

如果满足,则将K的当前取值加1,并返回在所述分词中,提取K个分词构成分词组合的步骤;

所述方法还包括:

计算各分词的稳定度,并确定稳定度大于第二预设阈值的分词,作为满足预设筛选条件的分词;

根据满足所述预设筛选条件的分词的数目确定复杂度,所述复杂度表示由所述分词构成的分词组合的最大数目,所述分词组合包含至少两个分词;

如果所述复杂度大于第三预设阈值,则根据预设的阈值增大规则,增大所述第一预设阈值和所述第二预设阈值;

根据增大后的第一预设阈值和第二预设阈值,重新确定满足预设筛选条件的分词;

所述基于预设的分词合并规则和所述分词集合包含的分词,确定分词组合,包括:

基于预设的分词合并规则和满足所述预设筛选条件的分词,确定分词组合。

2.根据权利要求1所述的方法,其特征在于,所述计算各分词的稳定度,包括:

将所述样本文本分为预设数目个样本组;

针对每个分词,计算该分词在每个样本组中的区分度,得到所述预设数目个区分度;

确定大于所述第一预设阈值的目标区分度,并根据所述目标区分度的数目确定该分词的稳定度。

3.根据权利要求1-2任一所述的方法,其特征在于,所述区分度至少包括信息值、信息增益、信息增益率、GINI指数、特征重要性和区分倍数中的一种或多种。

4.根据权利要求3所述的方法,其特征在于,所述区分倍数的计算过程为:

针对每个分词,根据该分词的词向量,确定包含该分词的第一样本文本的第一数目,并确定所述第一样本文本中分类结果为预设类别的第一样本文本的第二数目、所述样本文本的总数、以及所述样本文本中分类结果为所述预设类别的第二样本文本的第三数目;

计算所述第二数目与所述第一数目的第一比值、以及所述第三数目与所述总数的第二比值;

将所述第一比值与所述第二比值的比值作为区分倍数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳无域科技技术有限公司,未经深圳无域科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911223218.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top