[发明专利]文本标点确定方法与装置、存储介质、电子设备在审
申请号: | 202010261395.6 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111414745A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 聂镭;李睿;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519000 广东省珠海市横琴新区环岛*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标点 确定 方法 装置 存储 介质 电子设备 | ||
本公开属于人工智能技术领域,涉及一种文本标点确定方法与装置、存储介质、电子设备。该方法包括:获取待处理话术文本,并确定与待处理话术文本对应的话术类别;对待处理话术文本进行分段,并对分段后的待处理话术文本进行分词处理,得到分词处理结果;将分词处理结果转换成词向量,以根据词向量和话术类别确定与待处理话术文本对应的目标话术类别;将目标话术类别输入至预先训练好的机器学习模型中,得到添加标点后的目标话术文本。本公开根据不同的应用场景和领域独有的文本特征添加标点,不仅可以提升添加标点的处理效率,还可以提高添加标点的准确率。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种文本标点确定方法与文本标点确定装置、计算机可读存储介质及电子设备。
背景技术
由于自动语音识别技术广泛地应用于语音客服和智能助手等领域,但是自动语音识别技术只能生成没有标点序号的文本序列,因此,这些文本序列很难理解和处理,加大了文本的阅读难度。
针对文本的标点添加问题,利用神经网络框架训练平行预料得到文本标点的添加模型。进一步的,将预料训练成词向量输入到条件随机场中,输出无标点文本中待添加标点的位置和得分。但是,当通过这种方式确定文本标点添加的概率进行标点添加时,无法满足特定场景和特定领域的准确率要求。
鉴于此,本领域亟需开发一种新的文本标点确定方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本标点确定方法、文本标点确定装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的特定领域标点添加准确率低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本发明实施例的第一个方面,提供一种文本标点确定方法,所述方法包括:获取待处理话术文本,并确定与所述待处理话术文本对应的话术类别;对所述待处理话术文本进行分段,并对所述分段后的所述待处理话术文本进行分词处理,得到分词处理结果;将所述分词处理结果转换成词向量,以根据所述词向量和所述话术类别确定与所述待处理话术文本对应的目标话术类别;将所述待处理话术文本输入至与所述目标话术类别对应的机器学习模型中,得到添加标点后的目标话术文本。
在本发明的一种示例性实施例中,所述话术类别包括:开场白类别、产品介绍类别、免责声明类别和投保确认类别。
在本发明的一种示例性实施例中,所述将所述待处理话术文本输入至与所述目标话术类别对应的机器学习模型中,得到添加标点后的目标话术文本,包括:确定预先训练好的多个机器学习模型,并根据所述目标话术类别在所述多个机器学习模型中确定目标机器学习模型;将所述待处理话术文本输入至目标机器学习模型中,得到添加标点后的目标话术文本。
在本发明的一种示例性实施例中,在所述将所述目标话术类别输入至目标机器学习模型中之前,所述方法还包括:获取话术文本样本以及与所述话术文本样本对应的目标话术样本;将所述话术文本样本输入至待训练机器学习模型中,以使所述待训练机器学习模型输出与所述话术文本样本对应的目标样本;若所述目标样本与所述目标话术样本不匹配,调整所述待训练机器学习模型的参数,以使所述目标样本与所述目标话术样本相同。
在本发明的一种示例性实施例中,所述将所述分词处理结果转换成词向量,以根据所述词向量和所述话术类别确定与所述待处理话术文本对应的目标话术类别,包括:将所述分词处理结果转换成词向量,并根据所述词向量和所述话术类别确定与所述待处理话术文本对应的待校正话术类别;对所述待处理话术文本进行滑窗处理,得到滑窗处理结果;确定与所述滑窗处理结果对应的标准话术类别,并根据所述标准话术类别对所述待校正话术类别进行校正,得到目标话术类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010261395.6/2.html,转载请声明来源钻瓜专利网。