[发明专利]一种基于领域特征词法组合的文本模板生成方法有效
申请号: | 201910658510.0 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110362803B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 徐雅静;孙忆南;李思;高升 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/242;G06F40/253;G06F16/903 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 特征 词法 组合 文本 模板 生成 方法 | ||
本发明公开了一种基于领域特征词法组合的文本模板生成方法,属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、词性标注等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性,具有很大的实用价值。
技术领域
本发明涉及自然语言处理领域,特别是指一种基于领域特征词法组合的文本模板生成方法。
背景技术
随着移动通信的高速发展,日常通讯过程中产生了海量的文本数据,这些数据中包含了大量由模板生成的文本数据,如运营商的话费情况提醒,航班和火车的订票成功提醒等。为了便于监管部门对这些文本数据进行大数据分析,需要根据文本数据中的规律逆向生成该文本的模板,进而获得有用的结构化信息。
目前解决这类问题的方法一般有两类,一种是采用规则匹配的方式,通过人工观察大量的领域文本数据建立领域知识库,再从领域知识库中总结规则,最后通过专业人员将规则用代码实现从而将文本转换为模板。该方法利用大量人工去总结文本中的统计特征和领域知识,耗时费力,且编写的规则经常会发生逻辑冲突。另一种是基于标注的方法,通过人工标注数据训练机器学习或深度学习模型,用模型对新文本进行模板抽取,这种方法需要大量标注数据,而且模型可解释性差,出错率较高,在实际应用场景中很少采用。所以,迫切需要一种新方法,能够让程序无监督的抽取中文本中的领域特征,再结合少量人工进行去噪和调优,最后自动分析文本生成模板,从而在减轻人工的基础上提高文本的抽取性能。
因此,本专利提出一种基于领域特征词法组合的文本模板生成方法,通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。
发明内容
本专利提出一种基于领域特征词法组合的文本模板生成方法。程序通过词性标注和词频统计自动从大量文本中提取领域业务词典,业务操作词典和操作状态词典,进而借助词典和正则表达式对文本进行标注,最后基于标注序列进行文本的模板生成。
本发明的技术方案如下:
一种基于领域特征词法组合的文本模板生成方法,包括以下步骤:
步骤S1:对大规模待处理原始文本列表进行预处理,建立领域业务词典,业务操作词典和操作状态词典;
步骤S2:使用通用数值正则表达式集合,结合步骤S1得到的词典,对任意一条文本生成基于领域特征的标记序列,再根据标记序列使用无监督模板生成算法自动生成相应的文本模板;
(1)使用步骤S1得到的词典,对文本列表进行匹配和标注,得到初始标注序列;
(2)根据领域特征,将不同标记进行组合和替换,生成最终标记序列;
(3)基于标注序列的模板生成算法,即结合标注列表对文本列表进行替换,生成文本的模板;
步骤S3:将步骤S2得到的新的文本模板与已有模板进行模板去重,得到最终的文本模板集合。
本发明的有益效果在于:将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,进而结合标注序列进行模板生成,提升了人工的价值。同时使程序具有良好的可迁移性:当领域发生变化时,只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域,无需从头开始进行大量重复劳动。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910658510.0/2.html,转载请声明来源钻瓜专利网。