[发明专利]中文语句简化方法和装置在审
申请号: | 201911426211.0 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191451A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 刘亮 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 语句 简化 方法 装置 | ||
1.一种中文语句简化方法,包括:
对接收的文本序列进行分词处理得到分词序列;
经由训练后的编码器对所述分词序列进行编码处理生成语义向量;
经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列,其中所述编码器和所述解码器均为LSTM模型。
2.根据权利要求1所述的方法,其中,分词序列表示如下:x=(x1,x2,…,xT,xT+1),其中T表示句子长度,xT+1表示句子结束符号;
编解码的过程包括:
LSTM模型读取x=(x1,x2,…,xT,xT+1),并生成y=(y1,y2,…,yT′,yT′+1)作为输出语句,其中,T′是句子长度,且T′≤T,yT′+1表示句子结束符号。
3.根据权利要求2所述的方法,其中,LSTM模型的目的是估计条件概率:
其中,所述语义向量c是LSTM模型中最后一个隐藏层获得的输入序列(x1,x2,…,xT,xT+1)的固定长度的向量表达。
4.根据权利要求3所述的方法,其中,编码的过程包括:
使用一个LSTM模型进行语义向量生成:
ht=f(xt,ht-1),
其中,f是非线性激活函数,ht-1是上一隐节点输出,xt是当前时刻的输入。
5.根据权利要求4所述的方法,其中解码的过程包括:
使用另一个LSTM模型通过当前隐状态ht来预测当前的输出符号yt,其中,ht和yt都与其前一个隐状态和输出有关:
ht=f(ht-1,yt-1,c),
(yt|c,y1,…,yt-1)=g(ht,yt-1,c)。
6.一种中文语句简化装置,包括:
分词模块,配置为对接收的文本序列进行分词处理得到分词序列;
编码模块,配置为经由训练后的编码器对所述分词序列进行编码处理生成语义向量;
解码模块,配置为经由训练后的解码器对所述语义向量进行解码处理生成简化输出序列,其中所述编码器和所述解码器均为LSTM模型。
7.根据权利要求6所述的装置,其中,分词序列表示如下:x=(x1,x2,…,xT,xT+1),其中T表示句子长度,xT+1表示句子结束符号;
编解码的过程包括:
LSTM模型读取x=(x1,x2,…,xT,xT+1),并生成y=(y1,y2,…,yT′,yT′+1)作为输出语句,其中,T′是句子长度,且T′≤T,yT′+1表示句子结束符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911426211.0/1.html,转载请声明来源钻瓜专利网。