[发明专利]基于文本分类和实体抽取模型的家庭维修服务识别方法在审
申请号: | 202310503603.2 | 申请日: | 2023-05-06 |
公开(公告)号: | CN116628197A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 王国伟;朱红坤;贺光华;李奇隆 | 申请(专利权)人: | 重庆川南环保科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/126;G06F18/214;G06F18/241;G06Q10/20;G06N3/04;G06N3/08 |
代理公司: | 重庆西南华渝专利代理有限公司 50270 | 代理人: | 郭桂林 |
地址: | 401120 重庆市渝北区双*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 分类 实体 抽取 模型 家庭 维修服务 识别 方法 | ||
本发明为了提供家庭维修服务中用户输入语句识别的准确性,提供了一种基于文本分类和实体抽取模型的家庭维修服务识别方法,包括以下步骤:训练数据获取阶段;数据预处理阶段;文本分类模型训练,记录下文本分类的结果;实体抽取模型训练,记录下实体抽取的结果;结合前面步骤的分类结果确定用户服务最终分类。本发明结合了文本分类和实体抽取两种模型,对用户在咨询机器人客服时的文本进行家庭维修服务分类的识别,具有更强鲁棒性和更高的准确率。
技术领域
本发明属于自然语言处理技术领域,尤其是在家庭维修智能客服中所涉及的基于文本分类和实体抽取模型的家庭维修服务识别方法。
背景技术
家庭维修服务通常是指家庭内各种设备的维修,例如水管、电线、墙壁等;以及一些家电修,如冰柜、洗衣机、电视机等。相对于其他类型服务而言,其种类繁多,并且表达问题人员的素质差异较大,以及对维修需要的迫切性要求较高,因此对维修问题快速准确识别的能力要求更高。
参考附图1中罗列的现有技术方案流程图,其采用以下步骤进行维修服务问题识别:首先对商品名称进行预处理,只保留中文字段;接着通过j ieba分词,将预处理后的商品名称短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数;其次将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,并将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;最后将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词不同的权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
这种方式虽然能够实现智能识别,但却存在以下问题:
第一,现有技术仅仅是对商品名称短文本进行分类,得到相应的税码类别标签。但商品名称短文本可能会包含一些和商品名称无关的文本,这些无关的文本信息会干扰最终的分类结果。
第二,对商品文本进行实体链接与消歧时,采用链接到百度百科的外部知识库,若出现链接错误,误差会累积到后面的transformer模型,影响最终的商品名称分类的结果。并且现有网络上的外部知识库涉及到家庭维修服务相关的知识有限,更新也比较慢,这也会导致影响最终分类结果。
第三,家庭维修服务存在大量结构和语义上都很相似的分类名称,还有一些有包含关系的分类名称。现有技术不能很好地区分这些相近或者有包含地分类。
发明内容
本发明旨在解决现有技术中存在的技术问题,提供基于文本分类和实体抽取模型的家庭维修服务识别方法,以此提高分类结果的准确性。
为了实现本发明的上述目的,本发明提供基于文本分类和实体抽取模型的家庭维修服务识别方法,包括以下步骤:
步骤S100:训练数据获取阶段;
步骤S200:数据预处理阶段;
步骤S300:文本分类模型训练,记录下文本分类的结果;
步骤S400:实体抽取模型训练,记录下实体抽取的结果
步骤S500:结合步骤S300和步骤S400的分类结果确定用户服务最终分类。
进一步地,所述数据预处理阶段包括以下步骤:
步骤S210:对从家庭维修客服聊天记录中得到的用户文本数据集进行数据清洗;
步骤S220:进行文本分类的标注任务,对清洗后的每一条用户输入的数据打上对应的分类标签;
步骤S230:进行实体抽取的标注任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆川南环保科技有限公司,未经重庆川南环保科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310503603.2/2.html,转载请声明来源钻瓜专利网。