[发明专利]文本序列分词方法、装置及存储介质在审
申请号: | 201911097121.1 | 申请日: | 2019-11-11 |
公开(公告)号: | CN110795938A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 陈宇鹏;史亮;王铄;王斌;孟二利;过群 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F17/18;G06K9/62 |
代理公司: | 11138 北京三高永信知识产权代理有限责任公司 | 代理人: | 羊淑梅 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 文本序列 子结果 分词结果 结果合并 自然语言处理技术 分词处理 概率确定 激活函数 位置处 概率 合并 | ||
1.一种文本序列分词方法,其特征在于,所述方法包括:
接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;
获取所述文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
3.根据权利要求2所述的方法,其特征在于,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
4.根据权利要求3所述的方法,其特征在于,所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值,包括:
将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
5.根据权利要求2所述的方法,其特征在于,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
6.根据权利要求1至5任一所述的方法,其特征在于,所述通过所述结果合并模型中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果,包括:
通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
根据所述二值化序列获取所述文本序列的分词结果。
7.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911097121.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、装置及存储介质
- 下一篇:文本处理方法、装置