[发明专利]一种基于命名实体识别提取短信文本摘要的方法及装置在审
| 申请号: | 202010435221.7 | 申请日: | 2020-05-21 |
| 公开(公告)号: | CN111597813A | 公开(公告)日: | 2020-08-28 |
| 发明(设计)人: | 元方;唐小波;宋争光;郭乐;郭盛楠 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/34 |
| 代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 胡文莉 |
| 地址: | 201600 上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 命名 实体 识别 提取 短信 文本 摘要 方法 装置 | ||
1.一种基于命名实体识别提取短信文本摘要的方法及装置,其特征在于,包括以下步骤:
S1.准备待提取摘要的短信文本集合;
S2.标注短信文本集合,每条短信文本需要标注两部分,组织实体词与产品实体词;
S3.收集短信文本的标注数据进行AI模型训练,训练模型为语言模型BERT和条件随机场模型CRF,表示为y=f(x),其中x为短信文本,y为短信摘要,即S2中的组织实体词与产品实体词;通过已知的x和y去学习f()参数,当训练的f()计算测试数据x_test的结果y_test集合的准确率达到预期数值g则完成以上训练;
S4.当S3的AI模型训练完成后对数据进行预测,即给定新的x_new,通过f(x_new)求得y_new,即给定新的未被标注短信文本,识别出短信x_new中的组织实体词与产品实体词;
S5.将AI模型识别出的组织实体词与产品实体词作为短信文本的摘要。
2.根据权利要求1所述的一种基于命名实体识别提取短信文本摘要的方法及装置,其特征在于:S2所述的组织实体词具体为商家名或组织名或机构名或社区名或写字楼名。
3.根据权利要求2所述的一种基于命名实体识别提取短信文本摘要的方法及装置,其特征在于:S2所述的产品实体词为实物的产品名或非实物的服务名或套餐名或订单或预约或验证码。
4.根据权利要求3所述的一种基于命名实体识别提取短信文本摘要的方法及装置,其特征在于:S3所述的预期数值g大于等于92%。
5.一种基于命名实体识别提取短信文本摘要的装置,包括:
数据标注模块,用于标注待提取的短信文本集合,每条短信文本需要标注两部分,组织实体词与产品实体词;
模型训练模块,用于将收集短信文本的标注数据进行AI模型训练,训练模型为语言模型BERT和条件随机场模型CRF,表示为y=f(x),其中x为短信文本,y为短信摘要,即S2中的组织实体词与产品实体词;通过已知的x和y去学习f()参数,当训练的f()计算测试数据x_test的结果y_test集合的准确率达到预期数值g则完成以上训练;
模型预测模块,用于当S3的AI模型训练完成后对数据进行预测,即给定新的x_new,通过f(x_new)求得y_new,即给定新的未被标注短信文本,识别出短信x_new中的组织实体词与产品实体词;
命名识别模块,用于将AI模型识别出的组织实体词与产品实体词作为短信文本的摘要。
6.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-4所述的方法中的任一方法的指令。
7.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-4所述的方法中的任一方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010435221.7/1.html,转载请声明来源钻瓜专利网。





