[发明专利]基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法有效
| 申请号: | 202011236359.0 | 申请日: | 2020-11-02 |
| 公开(公告)号: | CN112582074B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 刘晓夏;吕颖达 | 申请(专利权)人: | 吉林大学 |
| 主分类号: | G16H50/80 | 分类号: | G16H50/80;G06F16/215;G06F40/295;G06K9/62;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 130022 吉*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 bi lstm tf idf 疫情 预测 分析 方法 | ||
本发明提供一种基于Bi‑LSTM与TF‑IDF的新冠疫情预测与分析方法,具体为:根据目标区域的类别收集病患信息;P2,利用Bi‑LSTM模型对病患的关键信息进行识别和提取;P3,利用TF‑IDF模型计算得到已抽取信息的权重系数;P4,利用多分类SVM对信息进行分类;P5,筛选信息形成患者路径地图/疫情传播关系树并预测疫情始发地/零号病人。本发明综合利用人工智能和自然语言处理技术,针对区域的不同情况采取相应的处理策略,动态建立预测模型,通过应用机器学习中的分类模型以及实际情况,对信息对应的权重系数进行了多次调整,使得预测过程更符合客观科学规律和疫情实际情况,从而能够分析出目标区域的疫情源头信息,在遏制疫情蔓延的同时,从源头上避免疫情的肆虐乃至复发。
技术领域
本发明涉及自然语言处理(NLP)和深度学习领域,尤其涉及一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法。
技术背景
由于患者基数大,而且需要统计每名患者一段时间内的具体行程,所以需要应用自然语言处理与深度学习等计算机技术对大量的文本内容进行提取并且加以分类。
自然语言处理(NLP)是人工智能(AI)的一个重要方向。自然语言处理是一个涉及语言学、计算机科学以及人工智能,用于实现人类与计算机之间借助自然语言进行通信的领域。因此,自然语言处理能够创造出理解自然语言并对自然语言进行处理和分析的计算机系统。现代自然语言处理往往需要面对海量文本信息,因此通常借助机器学习以及深度学习中的人工神经网络来实现相应的技术功能。本发明主要使用自然语言处理技术作为信息抽取(Information Extraction)。
信息抽取是从自然语言文本中,抽取出特定的事件或事实信息,从而将海量内容自动分类、提取和重构。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息,例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。
信息提取的第一步是检测文本中的实体,也就是命名实体识别(NER)。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体。
长短期记忆网络(Long Short-Term Memory,LSTM)是一种循环神经网络(Recurrent Neural Network,RNN)的特殊类型,通过特殊的结构涉及来避免长期依赖问题。基于神经网络的双向长短时记忆网络(Bi-LSTM)在命名实体识别任务中非常流行和普遍。
Bi-LSTM模型是一个双向LSTM,也就是Bi-LSTM模型由一个前向的LSTM与一个后向的LSTM结合而成。Bi-LSTM模型为三层结构:第一层为表示层,其功能为将每个句子表示为词向量和字向量;第二层为Bi-LSTM层,通过输入词向量和字向量到Bi-LSTM层,输出句子的每个词的所有标签的各自得分,其中,标签的各自得分相当于每个词映射到标签的发射概率值;第三层为条件随机场模型(CRF)层。CRF用于解决给定一组输入的随机变量的情况下,预测另一组输出随机变量的条件分布。CRF的优点在于其为一个位置进行标注的过程中可以利用到此前已经标注的信息,这与命名实体识别的任务契合的更好。本发明中选取BIO标注集,即B-PER、I-PER代表人名首字和人名非首字,B-LOC、I-LOC代表地名首字和地名非首字,B-ORG、I-ORG代表组织机构名首字和组织机构名非首字,O代表该字不属于命名实体的一部分。CRF层使用Bi-LSTM层的输出,即发射概率矩阵,以及转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,从而得到词或字的类别,也就实现了对于命名实体的识别和提取。其具体流程为:首先,利用Bi-LSTM模型对需要进行提取的文本内容进行分词;然后,获取需要识别的领域标签,并对分词结果进行标签标注;接着,对标签标注的分词进行抽取;最后,将抽取的分词组成需要的领域的命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011236359.0/2.html,转载请声明来源钻瓜专利网。





