[发明专利]一种口语化句子的提取方法和装置在审

申请号：	201611169186.9	申请日：	2016-12-16
公开（公告）号：	CN106649269A	公开（公告）日：	2017-05-10
发明（设计）人：	王鹏	申请（专利权）人：	广州视源电子科技股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京品源专利代理有限公司11332	代理人：	孟金喆,胡彬
地址：	510530 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种口语化句子提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种口语化句子的提取方法，其特征在于，包括：

获取训练语句；

对所述训练语句训练得到统计语言模型；

将待检测语句输入所述统计语言模型，如果所述待检测语句没有被包含在所述训练语句中，则对所述统计语言模型进行平滑处理；

将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。

2.根据权利要求1所述的方法，其特征在于，还包括：

如果所述待检测语句被包含在所述训练语句中，则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。

3.根据权利要求2所述的方法，其特征在于，将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子包括：

对所述待检测语句进行归一化处理，计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度；

当所述匹配度大于预设阈值时，提取所述待检测语句中第一口语化的句子；

所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子包括：

对所述待检测语句进行归一化处理，计算所述待检测语句与所述统计语言模型的匹配度；

当所述匹配度大于预设阈值时，提取所述待检测语句中第二口语化的句子。

4.根据权利要求1所述的方法，其特征在于，对所述训练语句训练得到统计语言模型包括：

通过n-gram算法对所述训练语句训练得到统计语言模型，其中，所述n-gram算法为3-gram算法，计算公式为：其中P(S)代表待检测语句S出现的概率，n为3，l为所述待检测语句S中词语的个数，w_i代表第i个词语。

5.根据权利要求4所述的方法，其特征在于，对所述统计语言模型进行平滑处理包括：

根据Katz算法对所述统计语言模型进行平滑处理，其中，所述Katz平滑算法为：

其中，代表应用所述平滑算法处理后的词语w_i在词串w_i-2w_i-1出现的前提下出现的概率；P(w_i|w_i-1)代表w_i在词w_i-1出现的前提下出现的概率；P(w_i)为词语w_i出现的概率；C(w_i-2w_i-1w_i)代表词串w_i-2w_i-1w_i在所述训练数据中出现的次数；C(w_i-1w_i)代表词串w_i-1w_i在所述训练数据中出现的次数；P(w_i|w_i-2w_i-1)代表词w_i在词串w_i-2w_i-1出现的前提下出现的概率；α是介于0和1之间的比例系数。