[发明专利]一种文本处理方法、装置、设备及可读存储介质有效
申请号: | 201910521610.9 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110209772B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 刘加新;刘琴;方逸群;胡加学 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨华 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 设备 可读 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
获取所述材料文本包含的与所述目标业务场景相关的关键信息;
基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息;
其中,所述基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,包括:
基于当前解析环境的特征信息,确定当前的转移动作;当前解析环境c=[ST,S,K,A],其中ST用于存储所述目标业务场景,及响应转移动作的解析,暂存所确定的关键要素;S用于存储未处理的文本片段;K用于存储未处理的关键信息;A用于存储确定的存在依存关系的关键要素对;
解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境,并以更新后的解析环境作为新的当前解析环境,返回执行确定当前的转移动作的步骤,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系;
其中,所述基于当前解析环境的特征信息,确定当前的转移动作,包括:
将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作;
所述转移动作解析模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。
3.根据权利要求1所述的方法,其特征在于,转移动作至少包括二类,分别为:
第一类,取X中的首个对象,转移至ST中或丢弃,其中X为S或K;
第二类,确定ST中顶端的前两个对象间的依存关系,并将该前两个对象中的一个对象从ST中删除。
4.根据权利要求1所述的方法,其特征在于,所述将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作,包括:
利用预置的转移动作解析模型,提取并处理当前解析环境的特征信息,以输出当前的转移动作,所述特征信息包括以下至少一项:
目标业务场景特征;
上下文特征:S中的前n1个文本片段,和/或,前n1个文本片段在材料文本中的位置;
结点特征:ST中的前n2个关键要素,和/或,前n2个关键要素的类型,和/或,前n2个关键要素在材料文本中的位置;
孩子结点特征:与ST中的前n3个关键要素存在依存关系的目标关键要素,和/或,所述目标关键要素的类型,和/或,所述目标关键要素在材料文本中的位置;
依存关系类型特征:ST中前n3个关键要素与所述目标关键要素间的依存关系的类型;
关键信息布尔特征:K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。
5.根据权利要求1所述的方法,其特征在于,所述转移动作解析模型的训练数据的确定过程,包括:
获取材料训练文本的标注结果,所述标注结果包括材料训练文本所属的业务场景,所包含的关键要素及关键要素间的依存关系;
将所述标注结果表示为树形结构,得到标注树;
基于上述标注树,获取扩展标注树;
遍历扩展标注树;
将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中;
将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S中;
将当前遍历到的结点在材料训练文本中后续的关键信息添加到当前K中;
将材料训练文本中位于当前遍历到的结点之前的关键要素对间的依存关系,添加到当前A中;
根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t;
由当前ST、当前S、当前K和当前A组成当前解析环境c,由当前解析环境c和当前转移动作t组成一条训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910521610.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用户地理信息分析与文本挖掘方法和装置
- 下一篇:一种基于问答系统的问答装置