[发明专利]文字信息处理方法、装置及终端有效
申请号: | 201810162656.1 | 申请日: | 2018-02-27 |
公开(公告)号: | CN108536669B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 张志伟;杨帆 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/903 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串元素 文字信息 拼音 文字信息处理 字符串集合 哈希向量 索引位置 词库 单词 终端 拼音字符串 哈希空间 连续特征 神经网络 鲁棒性 拼音字 字符串 总集合 采样 词串 算法 嵌入 转化 | ||
本发明实施例提供了一种文字信息处理方法、装置及终端,其中,所述方法包括:确定待处理文字信息对应的拼音字符串;采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的字符串集合;确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数;依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征。由于本发明实施例中采样拼音哈希空间表征词库中的单词,对于未出现在词库中的单词具有良好的鲁棒性。
技术领域
本发明涉及文字信息处理技术领域,特别是涉及一种文字信息处理方法、装置及终端。
背景技术
近来,深度学习在自然语言处理、文本翻译等相关领域得到了广泛应用。在处理文字信息时,大部分情况下需要将文本这样的离散数据转化成可以输入到深度网络的连续特征。目前普遍使用的方法为One-hotEmbedding,该种方法是将文本在词库中的位置进行编码,虽然这种方法可以实现端到端地训练深度神经网络,但是仍然存在下面两个缺点:
缺陷一、在互联网环境中,一般字典集合非常大,用于表征单词在词库中位置的嵌入矩阵特别巨大,若词库中新增单词,则需要重新创建嵌入矩阵可扩展性差。
缺陷二、当待处理的单词未出现在词库中时,通过这种方法将无法查找到待处理单词在词库中的位置,由于找不到单词对应的位置,最终将导致网络无法识别该单词。
发明内容
本发明实施例提供一种文字信息处理方法、装置及终端,以解决现有技术中存在的可扩展性差和无法识别词库中未出现单词的问题。
依据本发明的一个方面,提供了一种文字信息处理方法,其中所述方法包括:确定待处理文字信息对应的拼音字符串;采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的字符串集合;确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数;依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征。
可选地,所述采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的字符串集合的步骤,包括:从所述拼音字符串的首字符起,按照预设步长和窗口尺寸对所述拼音字符串进行滑窗处理,得到包含多个字符串元素的字符串集合。
可选地,所述字符串总集合通过如下方式生成:将词库中的各单词分别转换成拼音字符串;分别为各单词对应的拼音字符串前后添加占位符,生成字符串元素;其中,各单词对应的字符串元素组成第一字符串集合;针对所述第一字符串集合中的各字符串元素,采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的第二字符串集合;将第二字符串集合求并集,得到字符串总集合。
可选地,所述依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量的步骤,包括:生成一个与所述字符串总集合等维度的全零向量;针对每个索引位置,确定所述索引位置在所述全零向量中对应的维度,将所述维度的数值调整为所述索引位置对应的出现次数,生成所述待处理文字信息对应的拼音哈希向量。
依据本发明的另一方面,提供了一种文字信息处理装置,其中,所述装置包括:确定模块,被配置为确定待处理文字信息对应的拼音字符串;转化模块,被配置为采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的字符串集合;参数确定模块,被配置为确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数;生成模块,被配置为依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;处理结果确定模块,被配置为通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810162656.1/2.html,转载请声明来源钻瓜专利网。