[发明专利]一种处理文本信息的方法及终端在审
| 申请号: | 201910489950.8 | 申请日: | 2019-06-06 |
| 公开(公告)号: | CN112052331A | 公开(公告)日: | 2020-12-08 |
| 发明(设计)人: | 彭团民 | 申请(专利权)人: | 武汉TCL集团工业研究院有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
| 代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 朱肖凤 |
| 地址: | 430000 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 处理 文本 信息 方法 终端 | ||
1.一种处理文本信息的方法,其特征在于,包括:
获取待分类的文本信息;
对所述文本信息进行预处理,得到目标文本信息;
将所述目标文本信息输入已训练的语言表征模型进行处理,得到所述目标文本信息的目标词向量集合;其中,所述语言表征模型是基于样本集中的文本信息和样本集中的文本信息对应的分类类型之间的对应关系训练得到的;
将所述目标词向量集合输入已训练的分类模型进行分类处理,所述分类模型输出所述目标词向量集合对应的分类信息;其中,所述分类模型是基于词向量样本集中的词向量集合和词向量集合对应的分类信息之间的对应关系训练得到的;所述词向量样本集中的词向量集合对应的分类信息用于表示文本信息所属的分类类型。
2.如权利要求1所述的方法,其特征在于,所述对所述文本信息进行预处理,得到目标文本信息,包括:
提取所述文本信息中的有效字符;
将所述有效字符组合生成目标文本信息。
3.如权利要求1所述的方法,其特征在于,所述将所述目标文本信息输入已训练的语言表征模型进行处理,得到所述目标文本信息的目标词向量集合,包括:
通过所述语言表征模型提取所述目标文本信息中的关键词,得到文档词集合;
将所述文档词集合中的每个文档词分别转换为词向量;
基于每个文档词在文档词集合中的排列顺序将所述文档词集合中的所有词向量组合,得到目标词向量集合。
4.如权利要求3所述的方法,其特征在于,所述通过所述语言表征模型提取所述目标文本信息中的关键词,得到文档词集合,包括:
对所述目标文本信息进行分词处理,得到多个目标分词集合;
通过所述语言表征模型生成字典树,并确定每个目标分词集合中每个分词的出现频率;
根据所述字典树、每个目标分词集合以及每个分词出现的频率生成有向无环图;所述有向无环图包括多条概率路径,每条概率路径包括目标分词以及所述目标分词的出现频率;
基于所述语言表征模型以及所述有向无环图确定分词结果;
根据所述分词结果生成所述文档词集合。
5.如权利要求4所述的方法,其特征在于,所述基于所述语言表征模型以及所述有向无环图确定分词结果,包括:
根据每条概率路径中包含的目标分词的频率,分别计算每条概率路径对应的概率值;
基于每条概率路径对应的概率值确定最大概率路径;所述最大概率路径为所有概率路径中概率值最大的概率路径;
根据所述最大概率路径中包含的目标分词确定分词结果。
6.如权利要求1至5任一项所述的方法,其特征在于,所述已训练的分类模型的训练方式包括:
获取训练样本集以及测试样本集;
将所述训练样本集输入待训练的分类模型进行训练;
当训练次数达到预设阈值时,将所述测试样本集输入训练中的分类模型进行分类,所述训练中的分类模型输出分类结果;
根据所述分类结果确定所述训练中的分类模型分类的准确率;
当所述训练中的分类模型的损失函数以及所述准确率均收敛时,得到所述已训练的分类模型。
7.一种处理文本信息的终端,其特征在于,包括:
获取单元,用于获取待分类的文本信息;
预处理单元,对所述文本信息进行预处理,得到目标文本信息;
处理单元,用于将所述目标文本信息输入已训练的语言表征模型进行处理,得到所述目标文本信息的目标词向量集合;
其中,所述语言表征模型是基于样本集中的文本信息和样本集中的文本信息对应的分类类型之间的对应关系训练得到的;
分类单元,用于将所述目标词向量集合输入已训练的分类模型进行分类处理,所述分类模型输出所述目标词向量集合对应的分类信息;
其中,所述分类模型是基于词向量样本集中的词向量集合和词向量集合对应的分类信息之间的对应关系训练得到的;所述词向量样本集中的词向量集合对应的分类信息用于表示文本信息所属的分类类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉TCL集团工业研究院有限公司,未经武汉TCL集团工业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910489950.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:调温阀及具有该调温阀的热管理系统
- 下一篇:一种音视频矩阵
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





