[发明专利]一种目标文本识别方法及装置有效
| 申请号: | 201610790466.5 | 申请日: | 2016-08-31 |
| 公开(公告)号: | CN107797981B | 公开(公告)日: | 2021-06-04 |
| 发明(设计)人: | 施亮亮;付瑞吉;胡国平;宋巍;秦兵;刘挺 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279 |
| 代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 230088 安徽省合肥市*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目标 文本 识别 方法 装置 | ||
1.一种目标文本识别方法,其特征在于,所述方法包括:
获取待处理的文本,所述文本包含一条或多条自然语言语句;
获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;
根据每条语句的特征值获取所述文本的预设指标值;
根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别;其中,所述获取每条语句的特征值,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
将当前语句每个词的词向量输入预先构建的第一识别模型中的LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述第一识别模型中的pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强,所述pA向量为模型参数;
再将pA操作层的输入及pA操作层的输出共同作为所述第一识别模型中的加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述第一识别模型中的输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征,基于所述语句的第一特征,获取所述语句的特征值。
2.根据权利要求1所述的方法,其特征在于,所述预设指标值包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值。
3.根据权利要求2所述的方法,其特征在于,获取所述文本的目标语句分布,包括:
将特征值的取值划分为多个区间;
统计所述文本中落入每个所述区间的目标语句数;
计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
4.根据权利要求2所述的方法,其特征在于,获取所述文本的目标语句指定集合的特征值均值,包括:
根据预设规则确定所述文本的目标语句指定集合;
计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,包括:
将所述文本的所述预设指标值作为所述目标文本识别模型的输入;
接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率;
当所述概率大于预设阈值时,则判断所述文本属于目标文本。
6.根据权利要求5所述的方法,其特征在于,所述接收所述目标文本识别模型的输出之后,所述方法还包括:
将所述文本属于目标文本的概率反馈给用户;
或者,
将所述文本是否属于目标文本的识别结果反馈给用户。
7.根据权利要求1所述的方法,其特征在于,获取每条语句的特征值,包括:
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610790466.5/1.html,转载请声明来源钻瓜专利网。





