[发明专利]一种文本信息处理方法、装置及存储介质有效
申请号: | 201711159103.2 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108304442B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 彭思翔;钱淑钗 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息处理 方法 装置 存储 介质 | ||
1.一种文本信息处理方法,其特征在于,包括:
接收待识别的文本信息;
根据词语集与参数集之间的映射关系确定切词规则,按照所述切词规则对所述文本信息进行切词处理,生成至少一个词语;
根据预置的训练模型中词语与参数之间的映射关系获取至少一个词语对应的参数,其中每个参数标识一个词语;
根据所述参数及所述训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成,所述模板化文本可以为包括变量及模板部分,所述特征信息包括所述文本信息在文本聚类列表中所属的类别、所述类别对应的文本数量、以及所述文本信息与所述文本聚类列表中训练样本之间相似度;
根据所述特征信息识别所述文本信息所属的模板化文本的类型。
2.根据权利要求1所述的文本信息处理方法,其特征在于,所述根据所述参数及预置的训练模型确定所述文本信息的特征信息的步骤之前,所述方法还包括:
获取所述模板化文本对应的多条训练样本;
按照所述切词规则将每条训练样本分别进行切词处理,生成包含多个词语的词语集;
对所述词语集进行预处理,生成参数集,所述参数集中的每个参数用于标识所述词语集中的每个词语;
根据所述参数集对所述多条训练样本进行聚类处理,生成文本聚类列表;
根据所述文本聚类列表生成所述训练模型。
3.根据权利要求2所述的文本信息处理方法,其特征在于,所述对所述词语集进行预处理,生成参数集的步骤包括:
获取所述词语集中每个词语在所述每条训练样本中存在的频率,以及包含所述词语的目标训练样本在所述多条训练样本中的逆向文本频率;
根据所述频率及所述逆向文本频率生成所述每个词语对应的目标参数;
根据所述每个词语对应的所述目标参数生成所述参数集。
4.根据权利要求2所述的文本信息处理方法,其特征在于,所述对所述词语集进行预处理,生成参数集的步骤之后,所述方法还包括:
对所述词语集与所述参数集之间的映射关系进行变换处理,生成所述映射关系在预设空间上的投影关系;
所述根据所述文本聚类列表生成所述训练模型的步骤包括:
根据所述映射关系、所述投影关系及所述文本聚类列表生成所述训练模型。
5.根据权利要求4所述的文本信息处理方法,其特征在于,所述根据所述参数及预置的训练模型确定所述文本信息的特征信息的步骤包括:
根据所述参数、所述训练模型中的投影关系及所述训练模型中的文本聚类列表确定所述文本信息的特征信息。
6.根据权利要求5所述的文本信息处理方法,其特征在于,所述根据所述参数、所述训练模型中的投影关系及所述训练模型中的文本聚类列表确定所述文本信息的特征信息的步骤包括:
根据所述投影关系将所述参数在所述预设空间上进行投影处理,生成投影参数;
获取所述投影参数与所述文本聚类列表所在聚类区域的质心之间的最短距离;
根据所述最短距离确定所述文本信息在所述文本聚类列表中所属的类别、所述类别对应的文本数量、以及所述文本信息与所述文本聚类列表中训练样本之间相似度。
7.根据权利要求4至6中任一项所述的文本信息处理方法,其特征在于,所述对映射关系进行变换处理,生成所述映射关系在预设空间上的投影关系的步骤包括:
根据所述映射关系生成样本矩阵,其中所述样本矩阵的每行向量为每条训练样本切词处理后得到的词语对应的参数;
获取所述样本矩阵的协方差矩阵,以及获取所述样本矩阵的特征值,根据所述特征值生成对角矩阵;
根据所述协方差矩阵及所述对角矩阵生成转换矩阵,将所述转换矩阵设定为所述投影关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711159103.2/1.html,转载请声明来源钻瓜专利网。