【靶点预测第②弹】OMIM/GeneCards/DrugBank/GEO 等七大靶点数据库实操指南

引言

宝子们！上一篇咱们把疾病靶点数据库按功能分了类，解决了“找靶点不知选哪个库”的纠结～这篇直接上硬菜——把OMIM、GeneCards等7个核心数据库的“检索-提取-导出”全流程拆成 step-by-step 实操，每个步骤都标清关键动作，跟着做就能从数据库里精准抠出有用数据，科研效率直接翻倍！

一、OMIM：人类孟德尔遗传数据库（罕见病首选）

核心定位：单基因遗传病的“权威字典”，精准匹配致病基因与疾病的对应关系。

实操步骤：

1. 访问官网：直接在搜索框输入疾病名称或基因名称。

2. 筛选结果：疾病检索选“对应的孟德尔疾病条目”，基因检索选“该基因的专属条目”，条目内包含疾病描述、相关基因、变异类型及文献引用。

3. 获取关键信息：疾病条目里点击“基因链接”，查看该基因编码的蛋白功能、已知突变及关联疾病；基因条目重点看“相关疾病”列表。

4. 导出数据：无直接下载按钮，手动复制关键信息到表格；需批量数据时，用“高级搜索”功能限定条件，结合下载工具或批量检索导出。

【技巧与注意事项】

• 数据来源于文献，准确性高但更新慢，使用时需结合最新文献验证。

• 罕见病优先用，复杂疾病（多基因相关）需搭配DisGeNET等数据库补充信息。

二、GeneCards：人类基因综合数据库（复杂疾病必备）

核心定位：整合多来源信息，覆盖几乎所有人类基因，适合复杂疾病（如癌症、糖尿病）的候选基因筛选。

实操步骤：

1. 访问官网：搜索框输入疾病名称或基因名称。

2. 浏览基因卡片：搜索结果会列出相关基因卡片，优先选择“文献评分高、数据来源明确”的卡片，点击进入详细页面。

3. 筛选疾病关联：重点查看“Diseases”板块，里面会标注疾病名称及对应的证据等级（如文献支持力度），点击疾病名称可查看更详细信息。

4. 导出数据：点击页面右上角“Export”按钮，选择CSV或Excel格式，一键导出基因基本信息（名称、别名、染色体位置）、功能注释、疾病关联等数据。

【技巧与注意事项】

• 支持“反向查找”：输入疾病名称，可获取与该疾病相关的所有基因及关联证据，方便快速锁定候选基因。

• 数据量大但部分关联证据不足，需通过“文献评分”和“数据来源”筛选高可信度关联。

三、DrugBank：药物-靶点数据库（药物研发/重定位首选）

核心定位：综合性药物数据库，详细收录药物与靶点的关联信息，兼顾化学结构、作用机制等实用数据。

实操步骤：

1. 访问官网：搜索框输入药物名称或靶点名称。

2. 查看条目详情：搜索药物点击“对应药物条目”，详情页包含化学结构、适应症、作用机制，重点看“Targets”部分获取作用靶点蛋白列表；搜索靶点点击“对应靶点条目”，查看蛋白基本信息、功能、所属通路及相关药物列表。

3. 导出数据：小规模使用可直接复制信息；批量数据需进入“Data”或“Download”栏目，选择XML或SQL格式下载完整数据库，或仅下载药物列表、靶点列表等特定部分；也可通过DGIdb工具获取特定药物-靶点关系数据。

【技巧与注意事项】

• 优先收录药物主要靶点，次要靶点可能未标注，需结合文献验证关联可靠性。

• 上市药物和临床候选药物信息全面，新型/实验性药物需搭配TTD数据库补充。

四、TTD：疗效药靶数据库（新药靶点重点参考）

核心定位：专注药物靶点与药物的关联，更新及时，适合新药靶点研究和避免重复研发。

实操步骤：

1. 访问官网：搜索框输入药物名称或靶点名称。

2. 浏览靶点条目：搜索靶点点击“对应靶点条目”，详情页包含靶点名称、功能、参与的信号通路、所属疾病类别及对应药物列表。

3. 查看药物列表：在靶点详情页的“Drugs”部分，可查看作用于该靶点的药物名称、适应症，以及药物作用类型（如激动剂、拮抗剂）。

4. 导出数据：进入“Download”栏目，选择XML或文本格式下载完整数据库，或仅下载靶点列表、药物列表等特定部分，下载后可用于进一步分析和可视化。

【技巧与注意事项】

• 数据更新及时，优先收录新发现的药物靶点和药物信息，是新药靶点研究的重要参考。

• 仅标注药物直接作用靶点，间接靶点可能未收录，需结合其他数据库确认。

五、DisGeNET：疾病基因网络数据库（网络分析利器）

核心定位：汇集多来源数据构建疾病-基因关联网络，适合大规模基因富集分析和关键基因集合筛选。

实操步骤：

1. 访问官网：可选择“在线工具”交互查询或直接下载数据。

2. 查询基因-疾病关联：在线工具中输入疾病名称或基因名称，输入疾病可获取相关所有基因及关联证据，输入基因可获取相关所有疾病列表。

3. 筛选数据：按“数据来源”（如GWAS、文献、实验）、“关联类型”或“置信度分数”过滤结果，剔除低证据关联。

4. 导出与分析：筛选后可导出CSV格式数据，包含基因-疾病关联评分及证据来源；下载后可用Excel、R或Python软件进行基因-疾病关联网络绘制、功能富集分析等。

【技巧与注意事项】

• 提供多个数据集版本（如DisGeNET 7.0），需根据研究需求选择合适版本。

• 关联分数（DisGeNET Score）越高，关联可信度越强，分析时优先关注高分关联。

• 新兴疾病关联可能存在滞后，需结合PubMed文献补充验证。

六、PharmGKB：药物基因组学知识库（个体化用药参考）

核心定位：聚焦遗传变异对药物反应的影响，提供临床用药指导，适合药物基因组学相关研究。

实操步骤：

1. 访问官网：搜索框输入基因名称、药物名称或疾病名称。

2. 浏览条目：搜索结果列出相关基因、药物或疾病条目，选择感兴趣的条目进入详情页，包含详细的基因型-表型信息（如基因变异对药物代谢的影响）。

3. 获取药物-基因关联：药物条目查看“相关基因列表”，了解哪些基因变异会影响药物疗效或毒性；基因条目查看“相关药物列表”及临床用药建议（如剂量调整指导）。

4. 导出数据：进入“Data”或“Download”栏目，选择XML或JSON格式下载完整数据库，或仅下载基因-药物关联列表；常用数据也可通过Web服务（如API）获取。

【技巧与注意事项】

• 区分“药物作用靶点”和“药物代谢/转运基因”：前者直接作用于靶点，后者影响药物在体内的代谢过程。

• 信息来源于临床指南和研究，可信度高，适合指导个体化用药或药物筛选；寻找全新靶点时需搭配DrugBank、TTD等数据库。

七、GEO：基因表达综合数据库（差异表达基因挖掘）

核心定位：全球最大的基因表达数据库，收录高通量实验数据，适合筛选疾病与健康组织的差异表达基因。

实操步骤：

1. 访问官网：可通过数据浏览器或PubMed检索数据集。

2. 检索数据集：数据浏览器中输入疾病名称+组织类型（如“lung cancer”+“lung tissue”），返回的数据集包含标题、摘要、实验设计等信息。

3. 选择数据集：优先选择样本量充足、实验设计清晰、包含临床信息的数据集，点击进入详情页查看样本分组、平台信息及数据矩阵链接。

4. 下载与分析：点击“Download”按钮，下载Series Matrix文件（.txt格式，日常分析够用）或原始数据（如CEL文件）；下载后可用R（limma包）或Python进行差异表达分析，识别疾病样本中显著上调或下调的基因。

【技巧与注意事项】

• 不同数据集可能存在批次效应，合并分析前需进行标准化或批次校正。

• 结合数据集的元数据（如患者预后信息），可筛选与疾病预后相关的基因。

• 建议参考文献了解数据集背景和质量，部分论文补充材料会提供相关分析结果，可作为验证参考。

结语

宝子们！这篇把 7 个核心数据库的实操步骤拆得明明白白，从检索到导出再到避坑，跟着走就能避开 “找数据难、筛信息乱” 的问题～其实靶点预测的核心就是 “选对库 + 找对步骤”，先用这些数据库 “广撒网” 收集候选线索，但光有线索还不够，想让 “候选靶点” 真正成为有价值的研究对象，还需要靠谱的技术帮你进一步筛选和验证！

热蛋白组分析（TPP）就是超适配的 “好帮手”，刚好能补上数据库 “重关联、轻验证” 的短板：

1. 适配病理样本，真实还原疾病状态下的靶点结合特征，不搞 “纸上谈兵”；

2. 同步完成筛选与验证，直接锁定能与配体特异性结合的靶点，省去多轮试错；

3. 区分特异性 / 非特异性结合，排除假阳性，还能直接关联靶点的疾病功能。

先用数据库 “广撒网” 找候选靶点，再用 TPP“精筛选、严把关” 锁定真实有效的靶点，就能形成 “预测 - 筛选” 的闭环，让你的疾病靶点研究效率翻倍！

下一篇咱们再来讲 “数据整合与筛选技巧”，教大家把不同数据库的结果融会贯通，精准锁定高价值靶点！赶紧关注码住~

参考资料

[1] Home - OMIM - (OMIM.ORG). https://www.omim.org/

[2] GeneCards - Human Genes | Gene Database | Gene Search. https://www.genecards.org/

[3] DisGeNET - a database of gene-disease associations. https://disgenet.com/

[4] Drugbank. https://go.drugbank.com/

[5] Therapeutic Target Database. https://lib.cpu.edu.cn/64/37/c1197a156727/page.htm

[6] Home - GEO - NCBI. https://www.ncbi.nlm.nih.gov/geo/

[7] PharmGKB. https://www.drugsnav.com/detail/tuijian/674.html

[8] Stelzer G, Rosen N, Plaschkes I, et al. The GeneCards Suite: From Gene Data Mining to Disease Genome Sequence Analyses. Curr Protoc Bioinformatics. 2016;54:1.30.1-1.30.33. Published 2016 Jun 20. doi:10.1002/cpbi.5

[9] Zhou Y, Zhang Y, Zhao D, et al. TTD: Therapeutic Target Database describing target druggability information. Nucleic Acids Res. 2024;52(D1):D1465-D1477. doi:10.1093/nar/gkad751

[10] Hamosh A, Scott AF, Amberger J, Bocchini C, Valle D, McKusick VA. Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders. Nucleic Acids Res. 2002;30(1):52-55. doi:10.1093/nar/30.1.52

首个蛋白质组水平无偏倚药物靶点筛选方法——TPP药物靶点筛选解决方案

▶全面直接筛选真实药靶组合：蛋白质组水平筛选药物结合的蛋白靶点，全面覆盖治疗靶点与脱靶靶点；使用药物分子本体进行试验，无需设计合成分子探针，药靶结合更真实

▶多种数据分析策略：结合蛋白热变性曲线分析和非参数分析方法（NPARC），全面捕获潜在药物靶点

▶多种生信分析数据库挖掘辅助筛选：对潜在药物靶点进行生信分析与数据库挖掘，辅助最终药物靶点的确认

▶多种衍生技术可选：除常规温度范围（TPP-TR）、药物浓度范围（TPP-CCR）、两者结合（2D-TPP）的常规热蛋白组分析方法外，还可进行单温度点（ITSA）、多温度点混合（PISA）等高通量热蛋白组分析方法

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/Specally/article/details/154655061

【靶点预测第②弹】OMIM/GeneCards/DrugBank/GEO 等七大靶点数据库实操指南

引言

一、OMIM：人类孟德尔遗传数据库（罕见病首选）

二、GeneCards：人类基因综合数据库（复杂疾病必备）

三、DrugBank：药物-靶点数据库（药物研发/重定位首选）

四、TTD：疗效药靶数据库（新药靶点重点参考）

五、DisGeNET：疾病基因网络数据库（网络分析利器）

六、PharmGKB：药物基因组学知识库（个体化用药参考）

七、GEO：基因表达综合数据库（差异表达基因挖掘）

结语

参考资料

首个蛋白质组水平无偏倚药物靶点筛选方法——TPP药物靶点筛选解决方案

评论

评论列表

微信小程序

QQ小程序

关于作者