[发明专利]一种利用文本挖掘进行病毒及人类蛋白相互作用的方法无效
| 申请号: | 201010193130.3 | 申请日: | 2010-06-04 |
| 公开(公告)号: | CN102268485A | 公开(公告)日: | 2011-12-07 |
| 发明(设计)人: | 曾华宗 | 申请(专利权)人: | 上海聚类生物科技有限公司 |
| 主分类号: | C12Q1/70 | 分类号: | C12Q1/70;C12Q1/68;G01N33/53;G06F19/24 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 200333 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 文本 挖掘 进行 病毒 人类 蛋白 相互作用 方法 | ||
技术领域
本发明属于生物技术领域,涉及一种利用文献挖掘技术进行病毒与人类蛋白相互作用研究的方法。
背景技术
病毒是一种非细胞生命形态,它由一个核酸长链和蛋白质外壳构成,病毒没有自己的代谢机构,没有酶系统。因此病毒离开了宿主细胞,就成了没有任何生命活动、也不能独立自我繁殖的化学物质。一旦进入宿主细胞后,它就可以利用细胞中的物质和能量以及复制、转录和转译的能力,按照它自己的核酸所包含的遗传信息产生和它一样的新一代病毒。
病毒的主要特征之一便是致瘤作用,有一些病毒能诱发良性肿瘤,如痘病毒科的兔纤维瘤病毒、人传染性软疣病毒和乳多泡病毒科的乳头瘤病毒;另有一些能诱发恶性肿瘤,按其核酸种类可分为DNA肿瘤病毒和RNA肿瘤病毒。病毒在自身上表现代谢无活性,具感染性,对细胞有绝对的依存性,表现在:存在于细胞外的病毒不具遗传活性,但保留感染活性;当病毒在宿主细胞内是,病毒便复制、翻译、表达自身核酸,已侵染细胞。对于宿主细胞,病毒的侵入,往往会导致宿主细胞蛋白表达模式的改变,抑制宿主蛋白基因的表达,这种抑制将影响宿主细胞的正常生理功能并决定病毒的致病进程和结果。
最新研究表明,病毒对人类蛋白的抑制调控作用存在多种形式,本发明特提出一种假说:病毒通过自身基因表达蛋白,调控人类蛋白转录因子的表达,再经由特定表达的转录因子调控人类蛋白的表达,这是病毒调控蛋白的一种形式。
发明内容
本发明的方法主要研究的问题是病毒与人类蛋白相互作用的关系,基于一种文献挖掘技术研究找出病毒对人类蛋白的调控机制。因此我们提出一种病毒调控蛋白的假说,其假说为:病毒不会直接调控人类目标蛋白,而是通过调控相关的转录因子来间接调控目标蛋白的表达。为此我们设计了如下流程:
1、利用文献挖掘技术构建病毒与人类基因的相互作用数据库
2、利用上述数据库对病毒和人类蛋白进行相互作用关系分析,并从中提取出转录因子基因
3、对转录因子进行调控蛋白预测,预测出的调控蛋白即被认为跟病毒存在间接的相互作用。
4、对病毒与人类调控基因进行实验验证,验证其表达调控关系
附图说明
图1是本发明方法的实施流程图
图2是使用文献挖掘技术找出的HBV与人类蛋白基因的相互作用关系
图3是采用western blot实验验证HBV与人类蛋白基因IFNAR2表达调控关系的结果。
实施方式
本发明的方法将以HBV(乙型肝炎病毒)与人类蛋白的相互作用关系为例介绍本发明实施的具体方式。
步骤1、构建HBV与人类基因的相互作用数据库,从PubMed文献摘要数据库中下载HBV与人类基因相互作用关系的相关文献,构建数据库。步骤为:
1)Document searching & formating:文档搜索及格式化,利用关键词进行文档搜索,并将文档整理成XML格式。
2)Sentence tokenlization using Lingpipe:利用Lingpipe工具包中的Sentencetokenlization工具将摘要文本分离成单个句子。后续的分析是以句子为基本单位的。
3)Human gene mention tagging using ABNER:利用ABNER软件进行人类基因的描述的定位。提取人类基因。
4)Conjunction resolution:对于提取的基因的描述中,如“STAT3/5gene”将被解析成STAT3gene和STAT5gene
5)Gene name normalization based on Entrez database:由于自由文本中对于基因的名字比较混乱,需要将文章中的基因描述统一为官方基因符号,以方便分析和比较。基因符号以NCBI的entrez gene数据库为准。
6)Verb tagging using Lingpipe and inhouse protein-protein interaction verbdictionary:先建立一个蛋白互作的verb词典,包含如repress,regulate,inhibit,interact,phosphorylate,downregulate,upregulate等所有动词及其变型。词典取材自BioNLP项目(http://bionlp.sourceforge.net/)。然后利用Lingpipe工具包分离句子中蛋白互作的verb。并以此构建文献数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海聚类生物科技有限公司,未经上海聚类生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010193130.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液体喷出装置以及喷出检查方法
- 下一篇:悬滴板





