[发明专利]模板生成方法、装置、设备及介质在审
申请号: | 202010069754.8 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111291547A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模板 生成 方法 装置 设备 介质 | ||
1.一种模板生成方法,其特征在于,包括:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
2.如权利要求1所述的方法,其特征在于,所述获取目标文本类型下的样本文本集,包括:
获取目标文本类型下的初始文本集;所述初始文本集中包括多个初始文本,且每个初始文本中包括多个字符;
统计所述初始文本集中的各个字符的字频;
根据文本阈值和所述各个字符的字频,对所述初始文本集中的各个初始文本进行字符过滤,得到所述目标文本类型下的样本文本集,所述样本文本集中的各个样本文本中的各个字符的字频大于或等于所述文本阈值。
3.如权利要求1所述的方法,其特征在于,所述对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式,包括:
根据所述样本文本集中的各个字符的字频,从所述样本文本集中选取多个一项前缀,每个一项前缀由一个字频大于频率阈值的字符构成;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集;所述投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于所述前缀后的字符所构成;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀;并采用N项前缀分别构建序列模式;N为大于一的正整数。
4.如权利要求3所述的方法,其特征在于,所述对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,包括:
对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集;
若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,则对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若所述各个三项前缀的投影数据集均满足所述结束条件,则结束递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;所述结束条件包括:挖掘得到的投影数据集为空,或者挖掘得到的投影数据集中各字符的字频小于或等于所述频率阈值。
5.如权利要求4所述的方法,其特征在于,所述对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集,包括:
从任意一项前缀的投影数据集中选取任一个后缀作为目标后缀,并根据所述频率阈值从所述目标后缀中获取待合并字符,所述待合并字符满足如下条件:所述待合并字符的字频大于所述频率阈值,且所述目标后缀中位于所述待合并字符之前的各字符的字频均小于或等于所述频率阈值;
合并所述任意一项前缀和所述待合并字符,得到二项前缀;并从所述任意一项前缀的投影数据集中确定包含所述待合并字符的待构建后缀;
删除所述待构建后缀中位于所述待合并字符之前的字符以及所述待合并字符,得到所述二项前缀所对应的后缀;并将所述二项前缀所对应的后缀添加至所述二项前缀的投影数据集中;
若所述任意一项前缀对应的投影数据集中的各后缀均被选取,则结束对所述任意一项前缀的投影数据集的挖掘。
6.如权利要求1所述的方法,其特征在于,所述字符包括以下至少一种:中文字符、英文字符和数字;所述对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式,包括:
从所述多个序列模式中筛选出有效序列模式,所述有效序列模式是指包含中文字符且序列长度大于长度阈值的序列模式;所述序列长度为序列模式中的字符的数量;
针对任一有效序列模式,检测筛选出的有效序列模式中是否存在所述任一有效序列模式的超序列;
若不存在,则将所述任一有效序列模式作为所述目标文本类型的目标序列模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010069754.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:乳腺癌病理分型确定方法、装置和存储介质
- 下一篇:自动泊车辅助的方法及装置