[发明专利]分词方法及装置、意图触发方法及装置、可读存储介质在审
申请号: | 202111129412.1 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113919343A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 赵天麒;吴士中;毛远曼;詹宇斌 | 申请(专利权)人: | 用友网络科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/242 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;王淑梅 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 方法 装置 意图 触发 可读 存储 介质 | ||
本发明提供了一种分词方法及装置、意图触发方法及装置、可读存储介质。其中,分词方法包括:将自定义词典中的第一类专有词汇加载至基础词典中,以构建分词词库;根据分词词库对用户输入信息进行第一次分词,得到第一分词结果;将自定义词典中的第二类专有词汇加载至分词词库中,根据分词词库对第一分词结果中的第一分词词语进行识别,得到第二分词结果;对第二分词结果中的第二分词词语进行词性标注,得到第三分词结果;其中,第一类专有词汇为基础词汇,第二类专有词汇为与用户相关的专有词汇。这样,增加了分词工具的适用场景,且提高了分词工具识别专有词汇的高效性和准确性,提高了分词结果的精确度,从而保证了分词工具的可靠性。
技术领域
本发明涉及分词技术领域,具体而言,涉及一种分词方法及装置、意图触发方法及装置、可读存储介质。
背景技术
目前,针对企业服务领域的分词工具面临着重大挑战。
一方面,针对企业服务领域的分词工具对专业知识的依赖性较大,对于不同行业的企业,分词工具均需要相关领域的专业知识的支持。另一方面,现有的分词工具大都是基于人民日报等语言资料构建的,其对于业务功能宽泛的企业服务的场景的适用性较低,尤其是对专有词汇的识别不够准确,从而导致错误的分词结果使得关键词无法被成功定位。
因此,现有的针对企业服务领域的分词工具存在着对专业知识的依赖性较大,适用场景范围较小,对专有词汇的识别和分词不够准确,从而导致关键词无法被定位等问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明第一个方面提出一种分词方法。
本发明的第二个方面提出一种分词装置。
本发明的第三个方面提出一种意图触发方法。
本发明的第四个方面提出一种意图触发装置。
本发明的第五个方面提出一种可读存储介质。
有鉴于此,本发明的第一个方面提供了一种分词方法,包括:将自定义词典中的第一类专有词汇加载至基础词典中,以构建分词词库;根据分词词库对用户输入信息进行第一次分词,得到第一分词结果;将自定义词典中的第二类专有词汇加载至分词词库中,根据分词词库对第一分词结果中的第一分词词语进行识别,得到第二分词结果;对第二分词结果中的第二分词词语进行词性标注,得到第三分词结果;其中,第一类专有词汇为基础词汇,第二类专有词汇为与用户相关的专有词汇。
本发明所提供的分词方法,首先将自定义词典中的第一类专有词汇加载至基础词典中,以此构建分词词库,然后根据分词词库对用户输入信息进行第一次分词,以得到第一分词结果,之后再将自定义词典中的第二类专有词汇加载至分词词库中,并根据新的分词词库对第一分词结果中的第一分词词语进行识别,以得到第二分词结果,最后对第二分词结果中的第二分词词语进行词性标注,以得到第三分词结果。其中,第一类专有词汇为基础词汇,第二类专有词汇为与用户相关的专有词汇。本发明提出的分词方法将专有词汇分为基础词汇和与用户相关的专有词汇两类,并根据这两类词汇构建自定义词典,这样,扩大了分词工具的适用范围,解决了分词工具对专业知识的依赖性较大的问题,增加了分词工具的使用场景。在分词过程中,通过将基础词汇预加载至分词词库以及将与用户相关的专有词汇动态加载至分词词库中,使得分词工具对专有词汇的识别更加高效和准确,从而解决了因对专有词汇的错误分词而导致关键词无法定位的问题,提高了分词结果的精确度,提高了分词工具的可靠性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友网络科技股份有限公司,未经用友网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111129412.1/2.html,转载请声明来源钻瓜专利网。