[发明专利]从非结构化文本提取和标准化突变基因用于认知搜索和分析在审
| 申请号: | 201910810998.4 | 申请日: | 2019-08-30 |
| 公开(公告)号: | CN110931084A | 公开(公告)日: | 2020-03-27 |
| 发明(设计)人: | R·L·马丁;A·J·J·耶佩斯;D·M·艾劳拉;A·拉考斯特;C·施尔博 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B30/00;G16B40/00;G16B50/00;G06F40/295;G06F40/30;G06F40/247;G06F16/33 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 郑宗玉 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结构 文本 提取 标准化 突变 基因 用于 认知 搜索 分析 | ||
从非结构化文本提取和标准化突变基因用于认知搜索和分析。提供用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的方法、计算机系统和计算机程序产品。本发明可包括提取描述第一实体和第二实体的非结构化文本。然后,本发明可包括识别特定第一实体和特定第二实体。本发明还可包括将特定第一实体和特定第二实体相关联。本发明还可包括创建突变基因实体。然后,本发明可包括识别创建的突变基因实体与一个或多个第三实体之间的至少一个语义关系。本发明还可包括将与特定第一实体和特定第二实体相关联的至少一组数据、语义关系和创建的突变基因实体存储在数据库中。
技术领域
本发明总体涉及计算领域,更具体地涉及遗传学研究和数据处理。
背景技术
基因可以以许多种方式突变,从单核苷酸取代到从染色体中删除整个基因。基因序列的改变对基因到基因产物(例如蛋白质)中的表达具有影响。从生物学的角度来看,基因突变可以成为对疾病易感性的基础,识别患者可能由于遗传易感性而如何对治疗产生反应,并且识别药物发现渠道的新药物靶点。突变的基因被认为是疾病的驱动因素之一。因此,从文献中了解基因突变的内容和方式以及这些突变如何引起生物学后果(例如疾病易感性),对于获得对疾病生物学和可能的治疗方法的了解是重要的。
发明内容
本发明的实施例公开了用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的方法、计算机系统和计算机程序产品。本发明可以包括提取描述第一实体(例如,突变实体)和第二实体(例如,基因实体)的至少一组非结构化文本。然后,本发明可以包括识别在所提取的至少一组非结构化文本中描述的至少一个特定第一实体(例如,至少一个特定突变实体)和至少一个特定第二实体(例如,至少一个特定基因实体)。本发明还可以包括将所识别的至少一个特定第一实体与对应的所识别的至少一个特定第二实体相关联。本发明还可以包括通过合并与所关联的至少一个特定第一实体和对应的所关联的至少一个特定第二实体相关联的至少一组数据来创建对应的至少一个突变基因实体。然后,本发明可以包括识别所创建的至少一个突变基因实体与一个或多个第三实体之间的至少一个语义关系。本发明还可以包括将所合并的与所关联的至少一个特定第一实体和所关联的至少一个特定第二实体相关联的至少一组数据、所识别的至少一个语义关系以及所创建的至少一个突变基因实体存储在注释存储数据库中。
附图说明
本发明的这些和其他目的、特征和优点将从以下结合附图阅读的说明性实施例的详细描述中变得明显。附图的各种特征未按比例绘制,因为为了清楚起见,图示便于本领域技术人员结合详细描述来理解本发明。在附图中:
图1示出了根据至少一个实施例的联网计算机环境;
图2是示出根据至少一个实施例的用于自动提取和标准化至少一个突变基因的处理的操作流程图;
图3是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图;
图4是根据本公开的实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图;
图5是根据本公开的实施例的图4的说明性云计算环境的功能层的框图。
具体实施方式
本文中公开了要求保护的结构和方法的详细实施例;然而,可以理解的是,所公开的实施例仅仅是对可以以各种形式实施的要求保护的结构和方法的说明。然而,本发明可以以许多不同的形式实施,并且不应该被解释为限于本文中阐述的示例性实施例。相反,提供这些示例性实施例是为了使本公开透彻和完整,并且向本领域技术人员充分传达本发明的范围。在描述中,可以省略公知特征和技术的细节,以避免不必要地模糊所呈现的实施例。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910810998.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动分析装置
- 下一篇:漫游时增强的LTE可保持性





