[发明专利]一种遗传变异研究数据存储方法及装置在审

申请号：	201710170244.8	申请日：	2017-03-21
公开（公告）号：	CN106951533A	公开（公告）日：	2017-07-14
发明（设计）人：	不公告发明人	申请（专利权）人：	为朔医学数据科技(北京)有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F19/18
代理公司：	北京超凡志成知识产权代理事务所(普通合伙)11371	代理人：	朱文杰
地址：	100070 北京市丰台***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种遗传变异研究数据存储方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据分析及基因技术领域，具体而言，涉及一种遗传变异研究数据存储方法及装置。

背景技术

单基因遗传病是指受一对等位基因控制的遗传病，约有6600多种，并且每年在以10-50种的速度递增，较为常见的有红绿色盲、血友病、白化病等，目前，单基因遗传病对人类的健康已经构成了很大的威胁，因此，在某些情况下需要对单基因遗传病进行检测，而在检测单基因遗传病时，需要使用单基因遗传病知识库。

现有的单基因遗传病知识库有人类孟德尔遗传(Online Mendelian Inheritance in Man，OMIM)、人类基因突变知识库(The Human Gene Mutation Database，HGMD)等，在这些单基因遗传病知识库中存储有基因变异数据、基因变异对单基因遗传病的致病性的评估依据等数据，但是，这些数据以文本等非结构化的形式存储在单基因遗传病知识库中，使得计算机无法识别知识库中的数据，进而影响对知识库中数据的自动检索与分析等。

发明内容

有鉴于此，本发明实施例的目的在于提供一种遗传变异研究数据存储方法及装置，以解决现有技术中遗传变异研究数据以非结构化数据的形式存储在遗传变异知识库中，导致计算机无法识别该数据，进而影响对知识库中的数据的自动检索与分析的问题。

第一方面，本发明实施例提供了一种遗传变异研究数据存储方法，其中，所述方法包括：

创建遗传变异知识库；

获取遗传变异研究数据，并确定所述遗传变异研究数据的类别；

将所述遗传变异研究数据转换为遗传变异研究元数据；

根据所述遗传变异研究数据的类别，将所述遗传变异研究元数据存储到所述遗传变异知识库中。

结合第一方面，本发明实施例提供了上述第一方面的第一种可能的实现方式，其中，所述确定所述遗传变异研究数据的类别，包括：

确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在所述遗传变异研究数据中出现的概率，所述预设的分类样本集中包括多个分类样本；

计算每种类别的分类样本在所述预设的分类样本集中的概率；

根据每个所述关键词对应的概率和所述每种类别的分类样本对应的概率，确定所述遗传变异研究数据的类别。

结合第一方面的第一种可能的实现方式，本发明实施例提供了上述第一方面的第二种可能的实现方式，其中，所述根据每个所述关键词对应的概率和所述每种类别的分类样本对应的概率，确定所述遗传变异研究数据的类别，包括：

计算所有所述关键词对应的概率的第一乘积；

计算所述第一乘积和所述每种类别的分类样本对应的概率的第二乘积；

将所述第二乘积确定为所述遗传变异研究数据属于所述每种类别的概率；

根据所述遗传变异研究数据属于所述每种类别的概率，确定所述遗传变异研究数据的类别。

结合第一方面的第二种可能的实现方式，本发明实施例提供了上述第一方面的第三种可能的实现方式，其中，所述根据所述遗传变异研究数据属于所述每种类别的概率，确定所述遗传变异研究数据的类别，包括：

比较所述遗传变异研究数据属于所述每种类别的概率；

确定所述遗传变异研究数据属于所述每种类别的概率中的最大概率；

将所述最大概率对应的类别确定为所述遗传变异研究数据的类别。

结合第一方面的第一种可能的实现方式，本发明实施例提供了上述第一方面的第四种可能的实现方式，其中，所述确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在所述遗传变异研究数据中出现的概率，包括：

计算每个所述关键词在所述每种类别的似然度；

根据每个所述关键词在所述每种类别的似然度，确定每个所述关键词在所述遗传变异研究数据中出现的概率。

结合第一方面的第一种可能的实现方式，本发明实施例提供了上述第一方面的第五种可能的实现方式，其中，根据以下步骤从预设的分类样本集和预设的分类标准中获取多个关键词：

根据词语在所述预设的分类样本集和所述预设的分类标准中出现的次数，筛选所述预设的分类样本集和所述预设的分类标准中的候选词语；

计算所述候选词语在预设的语料库中的词频和逆文档频率，所述预设的语料库包括所述预设的分类样本集和所述预设的分类标准；

根据所述候选词语对应的所述词频和所述逆文档频率，确定所述关键词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于为朔医学数据科技(北京)有限公司，未经为朔医学数据科技(北京)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710170244.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种遗传变异研究数据存储方法及装置在审

专利文献下载