关注

【靶点预测第②弹】OMIM/GeneCards/DrugBank/GEO 等七大靶点数据库实操指南

引言

宝子们!上一篇咱们把疾病靶点数据库按功能分了类,解决了“找靶点不知选哪个库”的纠结~ 这篇直接上硬菜——把OMIM、GeneCards等7个核心数据库的“检索-提取-导出”全流程拆成 step-by-step 实操,每个步骤都标清关键动作,跟着做就能从数据库里精准抠出有用数据,科研效率直接翻倍!

一、OMIM:人类孟德尔遗传数据库(罕见病首选)

核心定位:单基因遗传病的“权威字典”,精准匹配致病基因与疾病的对应关系。

实操步骤:

1. 访问官网:直接在搜索框输入疾病名称或基因名称。

2. 筛选结果:疾病检索选“对应的孟德尔疾病条目”,基因检索选“该基因的专属条目”,条目内包含疾病描述、相关基因、变异类型及文献引用。

3. 获取关键信息:疾病条目里点击“基因链接”,查看该基因编码的蛋白功能、已知突变及关联疾病;基因条目重点看“相关疾病”列表。

4. 导出数据:无直接下载按钮,手动复制关键信息到表格;需批量数据时,用“高级搜索”功能限定条件,结合下载工具或批量检索导出。

【技巧与注意事项】

• 数据来源于文献,准确性高但更新慢,使用时需结合最新文献验证。

• 罕见病优先用,复杂疾病(多基因相关)需搭配DisGeNET等数据库补充信息。


二、GeneCards:人类基因综合数据库(复杂疾病必备)

核心定位:整合多来源信息,覆盖几乎所有人类基因,适合复杂疾病(如癌症、糖尿病)的候选基因筛选。

实操步骤:

1. 访问官网:搜索框输入疾病名称或基因名称。

2. 浏览基因卡片:搜索结果会列出相关基因卡片,优先选择“文献评分高、数据来源明确”的卡片,点击进入详细页面。

3. 筛选疾病关联:重点查看“Diseases”板块,里面会标注疾病名称及对应的证据等级(如文献支持力度),点击疾病名称可查看更详细信息。

4. 导出数据:点击页面右上角“Export”按钮,选择CSV或Excel格式,一键导出基因基本信息(名称、别名、染色体位置)、功能注释、疾病关联等数据。

【技巧与注意事项】

• 支持“反向查找”:输入疾病名称,可获取与该疾病相关的所有基因及关联证据,方便快速锁定候选基因。

• 数据量大但部分关联证据不足,需通过“文献评分”和“数据来源”筛选高可信度关联。


三、DrugBank:药物-靶点数据库(药物研发/重定位首选)

核心定位:综合性药物数据库,详细收录药物与靶点的关联信息,兼顾化学结构、作用机制等实用数据。

实操步骤:

1. 访问官网:搜索框输入药物名称或靶点名称。

2. 查看条目详情:搜索药物点击“对应药物条目”,详情页包含化学结构、适应症、作用机制,重点看“Targets”部分获取作用靶点蛋白列表;搜索靶点点击“对应靶点条目”,查看蛋白基本信息、功能、所属通路及相关药物列表。

3. 导出数据:小规模使用可直接复制信息;批量数据需进入“Data”或“Download”栏目,选择XML或SQL格式下载完整数据库,或仅下载药物列表、靶点列表等特定部分;也可通过DGIdb工具获取特定药物-靶点关系数据。

【技巧与注意事项】

• 优先收录药物主要靶点,次要靶点可能未标注,需结合文献验证关联可靠性。

• 上市药物和临床候选药物信息全面,新型/实验性药物需搭配TTD数据库补充。


四、TTD:疗效药靶数据库(新药靶点重点参考)

核心定位:专注药物靶点与药物的关联,更新及时,适合新药靶点研究和避免重复研发。

实操步骤:

1. 访问官网:搜索框输入药物名称或靶点名称。

2. 浏览靶点条目:搜索靶点点击“对应靶点条目”,详情页包含靶点名称、功能、参与的信号通路、所属疾病类别及对应药物列表。

3. 查看药物列表:在靶点详情页的“Drugs”部分,可查看作用于该靶点的药物名称、适应症,以及药物作用类型(如激动剂、拮抗剂)。

4. 导出数据:进入“Download”栏目,选择XML或文本格式下载完整数据库,或仅下载靶点列表、药物列表等特定部分,下载后可用于进一步分析和可视化。

【技巧与注意事项】

• 数据更新及时,优先收录新发现的药物靶点和药物信息,是新药靶点研究的重要参考。

• 仅标注药物直接作用靶点,间接靶点可能未收录,需结合其他数据库确认。


五、DisGeNET:疾病基因网络数据库(网络分析利器)

核心定位:汇集多来源数据构建疾病-基因关联网络,适合大规模基因富集分析和关键基因集合筛选。

实操步骤:

1. 访问官网:可选择“在线工具”交互查询或直接下载数据。

2. 查询基因-疾病关联:在线工具中输入疾病名称或基因名称,输入疾病可获取相关所有基因及关联证据,输入基因可获取相关所有疾病列表。

3. 筛选数据:按“数据来源”(如GWAS、文献、实验)、“关联类型”或“置信度分数”过滤结果,剔除低证据关联。

4. 导出与分析:筛选后可导出CSV格式数据,包含基因-疾病关联评分及证据来源;下载后可用Excel、R或Python软件进行基因-疾病关联网络绘制、功能富集分析等。

【技巧与注意事项】

• 提供多个数据集版本(如DisGeNET 7.0),需根据研究需求选择合适版本。

• 关联分数(DisGeNET Score)越高,关联可信度越强,分析时优先关注高分关联。

• 新兴疾病关联可能存在滞后,需结合PubMed文献补充验证。


六、PharmGKB:药物基因组学知识库(个体化用药参考)

核心定位:聚焦遗传变异对药物反应的影响,提供临床用药指导,适合药物基因组学相关研究。

实操步骤:

1. 访问官网:搜索框输入基因名称、药物名称或疾病名称。

2. 浏览条目:搜索结果列出相关基因、药物或疾病条目,选择感兴趣的条目进入详情页,包含详细的基因型-表型信息(如基因变异对药物代谢的影响)。

3. 获取药物-基因关联:药物条目查看“相关基因列表”,了解哪些基因变异会影响药物疗效或毒性;基因条目查看“相关药物列表”及临床用药建议(如剂量调整指导)。

4. 导出数据:进入“Data”或“Download”栏目,选择XML或JSON格式下载完整数据库,或仅下载基因-药物关联列表;常用数据也可通过Web服务(如API)获取。

【技巧与注意事项】

• 区分“药物作用靶点”和“药物代谢/转运基因”:前者直接作用于靶点,后者影响药物在体内的代谢过程。

• 信息来源于临床指南和研究,可信度高,适合指导个体化用药或药物筛选;寻找全新靶点时需搭配DrugBank、TTD等数据库。


七、GEO:基因表达综合数据库(差异表达基因挖掘)

核心定位:全球最大的基因表达数据库,收录高通量实验数据,适合筛选疾病与健康组织的差异表达基因。

实操步骤:

1. 访问官网:可通过数据浏览器或PubMed检索数据集。

2. 检索数据集:数据浏览器中输入疾病名称+组织类型(如“lung cancer”+“lung tissue”),返回的数据集包含标题、摘要、实验设计等信息。

3. 选择数据集:优先选择样本量充足、实验设计清晰、包含临床信息的数据集,点击进入详情页查看样本分组、平台信息及数据矩阵链接。

4. 下载与分析:点击“Download”按钮,下载Series Matrix文件(.txt格式,日常分析够用)或原始数据(如CEL文件);下载后可用R(limma包)或Python进行差异表达分析,识别疾病样本中显著上调或下调的基因。

【技巧与注意事项

• 不同数据集可能存在批次效应,合并分析前需进行标准化或批次校正。

• 结合数据集的元数据(如患者预后信息),可筛选与疾病预后相关的基因。

• 建议参考文献了解数据集背景和质量,部分论文补充材料会提供相关分析结果,可作为验证参考。


结语

宝子们!这篇把 7 个核心数据库的实操步骤拆得明明白白,从检索到导出再到避坑,跟着走就能避开 “找数据难、筛信息乱” 的问题~ 其实靶点预测的核心就是 “选对库 + 找对步骤”,先用这些数据库 “广撒网” 收集候选线索,但光有线索还不够,想让 “候选靶点” 真正成为有价值的研究对象,还需要靠谱的技术帮你进一步筛选和验证!

热蛋白组分析(TPP)就是超适配的 “好帮手”,刚好能补上数据库 “重关联、轻验证” 的短板:

1. 适配病理样本,真实还原疾病状态下的靶点结合特征,不搞 “纸上谈兵”;

2. 同步完成筛选与验证,直接锁定能与配体特异性结合的靶点,省去多轮试错;

3. 区分特异性 / 非特异性结合,排除假阳性,还能直接关联靶点的疾病功能。

先用数据库 “广撒网” 找候选靶点,再用 TPP“精筛选、严把关” 锁定真实有效的靶点,就能形成 “预测 - 筛选” 的闭环,让你的疾病靶点研究效率翻倍!

下一篇咱们再来讲 “数据整合与筛选技巧”,教大家把不同数据库的结果融会贯通,精准锁定高价值靶点!赶紧关注码住~


参考资料

[1] Home - OMIM - (OMIM.ORG). https://www.omim.org/

[2] GeneCards - Human Genes | Gene Database | Gene Search. https://www.genecards.org/

[3] DisGeNET - a database of gene-disease associations. https://disgenet.com/

[4] Drugbank. https://go.drugbank.com/

[5] Therapeutic Target Database. https://lib.cpu.edu.cn/64/37/c1197a156727/page.htm

[6] Home - GEO - NCBI. https://www.ncbi.nlm.nih.gov/geo/

[7] PharmGKB. https://www.drugsnav.com/detail/tuijian/674.html

[8] Stelzer G, Rosen N, Plaschkes I, et al. The GeneCards Suite: From Gene Data Mining to Disease Genome Sequence Analyses. Curr Protoc Bioinformatics. 2016;54:1.30.1-1.30.33. Published 2016 Jun 20. doi:10.1002/cpbi.5

[9] Zhou Y, Zhang Y, Zhao D, et al. TTD: Therapeutic Target Database describing target druggability information. Nucleic Acids Res. 2024;52(D1):D1465-D1477. doi:10.1093/nar/gkad751

[10] Hamosh A, Scott AF, Amberger J, Bocchini C, Valle D, McKusick VA. Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders. Nucleic Acids Res. 2002;30(1):52-55. doi:10.1093/nar/30.1.52

首个蛋白质组水平无偏倚药物靶点筛选方法——TPP药物靶点筛选解决方案

▶全面直接筛选真实药靶组合:蛋白质组水平筛选药物结合的蛋白靶点,全面覆盖治疗靶点与脱靶靶点;使用药物分子本体进行试验,无需设计合成分子探针,药靶结合更真实

多种数据分析策略:结合蛋白热变性曲线分析和非参数分析方法(NPARC),全面捕获潜在药物靶点

多种生信分析数据库挖掘辅助筛选:对潜在药物靶点进行生信分析与数据库挖掘,辅助最终药物靶点的确认

多种衍生技术可选:除常规温度范围(TPP-TR)、药物浓度范围(TPP-CCR)、两者结合(2D-TPP)的常规热蛋白组分析方法外,还可进行单温度点(ITSA)、多温度点混合(PISA)等高通量热蛋白组分析方法

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/Specally/article/details/154655061

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--