[发明专利]文本处理方法、装置、计算机设备和存储介质有效
| 申请号: | 201810023358.4 | 申请日: | 2018-01-10 |
| 公开(公告)号: | CN110020420B | 公开(公告)日: | 2023-07-21 |
| 发明(设计)人: | 方小敏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本处理方法,所述方法包括:
获取目标文本;
对所述目标文本进行分词处理,得到多个词片段;
从所述多个词片段中,分别取小于或等于预设数量阈值、且在所述目标文本中连续的词片段,构成组合词片段;所述预设数量阈值是构成一个组合词片段的词片段的最大数量;
分别获取各词片段和各组合词片段相应的统计特征值;所述统计特征值是通过统计方式确定出的、且表征词片段或组合词片段的特征的值;所述统计特征值包括词频、逆文件频率或词频-逆文件频率中的至少一种;所述各词片段和各组合词片段各自相应的词频,是指各词片段和各组合词片段各自在所属的所述目标文本中出现的频率;所述各词片段和各组合词片段各自相应的逆文件频率,分别用于度量各词片段和各组合词片段各自在所述目标文本中的重要性;
确定各词片段和各组合词片段在词库中匹配的词语;所述词库中预先汇总有不重复的词语;
将各所述统计特征值作为向量元素添加至向量模板中与所述匹配的词语对应的位置处,并置所述向量模板中对应于所述词库中未匹配到任何词片段和组合词片段的词语的位置处的向量元素为默认值,得到目标文本的特征向量;所述向量模板中的各个位置与所述词库中的词语一一对应。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个词片段中,分别取小于或等于预设数量阈值、且在所述目标文本中连续的词片段,构成组合词片段包括:
获取预设数量阈值;
从大于1且小于等于所述预设数量阈值的范围内,依次选取整数作为参考选取数量;
从所述多个词片段中,分别按各所述参考选取数量取在所述目标文本中连续的词片段,构成组合词片段。
3.根据权利要求2所述的方法,其特征在于,所述从所述多个词片段中,分别按各所述参考选取数量取在所述目标文本中连续的词片段,构成组合词片段包括:
从多个词片段中的起始词片段起,逐个选取当前词片段;
分别按照各所述参考选取数量,从当前词片段起选取在所述目标文本中连续的词片段;
将当前词片段和相应选取的词片段构成组合词片段。
4.根据权利要求1所述的方法,其特征在于,所述词频-逆文件频率是所述词频与所述逆文件频率的乘积。
5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
将所述目标文本的特征向量输入至分类模型中,输出相应的分类标签;
针对所述目标文本标记所述分类标签。
6.根据权利要求5所述的方法,其特征在于,还包括:
获取样本文本和相应的分类标签;
生成与所述样本文本对应的特征向量;
根据所述样本文本所对应的特征向量和相应的分类标签进行机器学习训练,得到分类模型。
7.根据权利要求5所述的方法,其特征在于,所述目标文本为社交群组名称,相应的分类标签为群用途标签;
所述方法还包括:
对社交网络平台中的群用途标签进行统计分析;
根据统计分析的结果筛选群用途标签;
在与筛选出的群用途标签相应的社交群组中,推荐与所述筛选出的群用途标签相应的信息。
8.根据权利要求5所述的方法,其特征在于,所述目标文本为媒体内容名称;相应的分类标签为媒体内容类型标签;
所述方法还包括:
获取目标用户标识所对应的媒体内容类型标签;
查询与获取的所述媒体内容类型标签相应的媒体内容名称;
按照所述目标用户标识推送查询到的媒体内容名称和相应的媒体内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810023358.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:排版方法及装置
- 下一篇:通讯软件的会话信息摘要方法及系统、设备和存储介质





