[发明专利]一种网络语境的文本识别方法、装置及存储介质有效
| 申请号: | 202010396183.9 | 申请日: | 2020-05-12 |
| 公开(公告)号: | CN111581970B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 陈思萌;何星;赵建强;陈诚;邓叶勋;郑伟斌;刘晓芳;张辉极;杜新胜 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/126;G06F40/216;G06N3/048;G06N3/09 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361000 福建省厦门市思明*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 语境 文本 识别 方法 装置 存储 介质 | ||
1.一种网络语境的文本识别方法,其特征在于,该方法包括:
建模步骤,基于文本长窗口构建风格语义模型,基于文本短窗口构建偏旁级语义模型;
训练步骤,使用网络语境的语料库基于风格语义模型向量模型和偏旁级语义模型训练得到网络语境的中文词向量模型;
识别步骤,使用所述网络语境的中文词向量模型对输入的网络语境的文本进行识别并输出识别结果;
将所述语料库任一条语料s分词后得到的语料序列为s={w1,…wt-1,wt,wt+1,…wN},其中,wt为分词后序列中的第t个词语,设wt为待预测的目标词,t=1,…N,N为语料序列中的总词语数目;以目标词wt为中心构建文本窗口,定义文本短窗口为:
其中,ds表示文本短窗口中的词语到目标词wt的距离,设文本短窗口的距离阈值为θ,windows表示由邻近目标词wt的上下文组成的词语集合;
定义文本长窗口为
其中,dl代表文本长窗口的中的词语到目标词wt的距离,最小值为θ+1,最大值为β,β≤N,windowl表示由距离目标词wt距离较远的上下文组成,且不包括文本短窗口中的内容;
所述基于文本长窗口构建风格语义模型的过程为:将文本长窗口windowl作为CBOW的输入,计算隐藏层向量
式中,表示文本长窗口内目标词的上下文wt+j所对应的编码向量,β表示文本长窗口内目标词wt与上下文wt+j之间的距离,文本长窗口的总长度为2β;
所述基于文本短窗口构建偏旁级语义模型的过程为:
将文本短窗口内的词语划分为汉字,得到短文本字序列
提取短文本字序列c中每个汉字的偏旁部首
通过字符转义字典将偏旁部首r转换为对应语义的汉字r*,得到短文本和部首转义后的字序列x,
采用自注意力机制,将词语对应的汉字和部首进行加权融合编码,自注意力权重α的计算公式为:
αi=softmax(f(xTxi))
其中,xi表示文本短窗口内第i个词对应的短文本和部首转义后字序列,i∈{t±ds|1ds≤θ},xT为xi的转置矩阵,相似度计算函数f采用点积形式;
文本短窗口内每个词语的编码向量为:
vx=∑iαivi
其中,αi表示文本短窗口内词语x所对应字序列中第i个字的自注意力权重,vi表示文本短窗口内词语x所对应字序列中第i个字的编码向量;
将自注意力得到的编码向量vx输入CBOW,计算隐藏层的输出向量
式中,θ表示文本短窗口内目标词wt与上下文wt+j的距离,文本短窗口的总长度为2θ,表示文本短窗口内第t个目标词上下文所对应的编码向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010396183.9/1.html,转载请声明来源钻瓜专利网。





