[发明专利]模板生成方法、装置、设备及介质在审
申请号: | 202010069754.8 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111291547A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模板 生成 方法 装置 设备 介质 | ||
本发明实施例公开了一种模板生成方法、装置、设备及介质,其中方法包括:获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;根据所述目标序列模式生成所述目标文本类型对应的文本模板。采用本发明实施例可以实现无监督地生成文本模板,降低成本并提升模板生成效率。
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种模板生成方法、一种模板生成装置、一种计算机设备及一种计算机存储介质。
背景技术
随着数据文本以各种形式存在和爆炸式增长,从大规模的数据文本中抽取出相关的文本模板成为许多业务场景下提炼数据能力的必要需求。目前,获取文本模板的方法大致分为两种:基于统计的模板抽取方法和基于机器学习的模板抽取方法。其中,基于统计的模板抽取方法的原理为:先通过人工观察和整理数据规律,总结得到数据文本中蕴含的模板信息;其次将总结得到的模板信息转换为固定的匹配样式,即采用总结得到的模板信息创建一个结构化的表示形式;然后将转换后的结构化、半结构化的表达形式作为文本模板。而基于机器学习的模板抽取方法的原理为:先由标注人员对文本进行词性标注和句法分析,确定文本中的动词词组、名词词组等句法成分;然后根据确定出的句法成分将相关信息从文本中抽取出来以生成文本模板。由此可见,目前获取文本模板的两种方法均需要标注人员预先对文本进行标注或整理,然后根据标注人员整理得到的信息进行有监督地模板抽取;其需要消耗大量的人力成本,模板抽取效率较低。
发明内容
本发明实施例提供了一种模板生成方法、装置、设备及介质,可以实现无监督地生成文本模板,降低成本并提升模板生成效率。
一方面,本发明实施例提供了一种模板生成方法,该模板生成方法包括:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
另一方面,本发明实施例提供了一种模板生成装置,该模板生成装置包括:
获取单元,用于获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
处理单元,用于对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
所述处理单元,用于对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
所述处理单元,用于根据所述目标序列模式生成所述目标文本类型对应的文本模板。
再一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010069754.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:乳腺癌病理分型确定方法、装置和存储介质
- 下一篇:自动泊车辅助的方法及装置