[发明专利]一种口语化句子的提取方法和装置在审
申请号: | 201611169186.9 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106649269A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 510530 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 口语化 句子 提取 方法 装置 | ||
1.一种口语化句子的提取方法,其特征在于,包括:
获取训练语句;
对所述训练语句训练得到统计语言模型;
将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;
将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。
2.根据权利要求1所述的方法,其特征在于,还包括:
如果所述待检测语句被包含在所述训练语句中,则将所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子。
3.根据权利要求2所述的方法,其特征在于,将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子包括:
对所述待检测语句进行归一化处理,计算所述待检测语句与所述平滑处理后的统计语言模型的匹配度;
当所述匹配度大于预设阈值时,提取所述待检测语句中第一口语化的句子;
所述待检测语句输入所述统计语言模型进行匹配得到第二口语化句子包括:
对所述待检测语句进行归一化处理,计算所述待检测语句与所述统计语言模型的匹配度;
当所述匹配度大于预设阈值时,提取所述待检测语句中第二口语化的句子。
4.根据权利要求1所述的方法,其特征在于,对所述训练语句训练得到统计语言模型包括:
通过n-gram算法对所述训练语句训练得到统计语言模型,其中,所述n-gram算法为3-gram算法,计算公式为:其中P(S)代表待检测语句S出现的概率,n为3,l为所述待检测语句S中词语的个数,wi代表第i个词语。
5.根据权利要求4所述的方法,其特征在于,对所述统计语言模型进行平滑处理包括:
根据Katz算法对所述统计语言模型进行平滑处理,其中,所述Katz平滑算法为:
其中,代表应用所述平滑算法处理后的词语wi在词串wi-2wi-1出现的前提下出现的概率;P(wi|wi-1)代表wi在词wi-1出现的前提下出现的概率;P(wi)为词语wi出现的概率;C(wi-2wi-1wi)代表词串wi-2wi-1wi在所述训练数据中出现的次数;C(wi-1wi)代表词串wi-1wi在所述训练数据中出现的次数;P(wi|wi-2wi-1)代表词wi在词串wi-2wi-1出现的前提下出现的概率;α是介于0和1之间的比例系数。
6.根据权利要求1所述的方法,其特征在于,获取训练语句包括:
应用分词算法对所述训练文本进行分词,获取所述训练文本的分词结果;
添加标识符将所述训练文本的分词结果划分成若干个训练语句;
将待检测语句输入所述统计语言模型包括:
应用所述分词算法对所述待检测文本进行分词,获取所述待检测文本的分词结果;
添加标识符将所述待检测文本的分词结果划分为若干个待检测语句;
将所述待检测语句输入所述统计语言模型。
7.一种口语化句子的提取装置,其特征在于,包括:
获取模块,用于获取训练语句;
训练模块,与所述获取模块相连,用于对所述训练语句训练得到统计语言模型;
判断模块,与所述训练模块相连,用于将待检测语句输入所述统计语言模型,如果所述待检测语句没有被包含在所述训练语句中,则对所述统计语言模型进行平滑处理;
第一匹配模块,与所述判断模块相连,用于将所述待检测语句输入平滑处理后的统计语言模型进行匹配得到第一口语化句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611169186.9/1.html,转载请声明来源钻瓜专利网。