最佳实践 · 三维品质
BioProfile 定义的最佳实践同时满足生物学可信、计算高效、AI 就绪三个标准。每个实践均经过文献验证、性能评测或 Skill 打包,为可靠复现与自动化执行提供基础。
第一层 · 生物学准确性
一个流程被认为是生物学上最佳的,必须基于高质量同行评议文献的验证或推荐,或者被领域社区广泛接受为标准方法。BioProfile 从流程所采用的算法、参考数据集、以及与 gold standard 的对比结果中提取证据,确保分析结果具有可解释性和临床/科研可靠性。
证据类型
文献引用
核心算法或完整方案已在同行评议期刊发表,且被后续研究正面引用
基准测试
在标准测试数据集(GIAB、10x Genomics 公共数据等)上与替代方法对比
社区共识
被多个独立实验室采用,或作为官方推荐流程(如 GATK Best Practices)
示例:WGS 变异检测流程
基于 GATK4 Best Practices,发表于《Nature Protocols》2020;在 GIAB 基准数据集上 F1 得分 0.998。
第二层 · 计算效率可评测
最佳实践应具备可量化的计算性能指标。BioProfile 的高性能计算评测框架将对每个流程进行标准化的基准测试,包括:运行时间、内存占用、并行加速比、能耗效率等。评测结果将公开,便于用户根据自身硬件资源选择最优流程。
| 指标类别 | 具体指标 | 状态 |
|---|---|---|
| 时间效率 | 总运行时间、各步骤耗时 | 即将支持 |
| 资源效率 | 峰值内存、CPU 利用率 | 即将支持 |
| 并行扩展 | 强扩展性、弱扩展性 | 计划中 |
| 能耗 | 能耗/任务、能耗/核·小时 | 研究阶段 |
已评测示例
WGS 变异检测流程:在 32 核节点上,100x 全基因组数据耗时 2.1 小时,相比默认配置加速 1.8 倍。
第三层 · AI Agent 可执行
每个最佳实践均配套一个标准化的 Skill 包,包含流程定义(SKILL.md)、可执行脚本、环境配置、测试数据索引等。该 Skill 遵循统一的接口规范,使得大语言模型驱动的 Agent 能够自动解析、调度、运行和监控流程,实现“自然语言 → 可复现计算”的闭环。
# Skill 包目录结构
workflow_name/
├── SKILL.md # 流程元数据、步骤、输入输出
├── scripts/ # 主控脚本与环境配置
├── references/ # 参考数据集、基因组索引
└── tests/ # 验证数据
与 Agent 集成方式
- Agent 通过读取 SKILL.md 获得流程的输入要求、命令模板和预期输出
- Agent 调用 scripts/ 并传递参数,自动分配计算资源
- 运行日志和结果可被 Agent 解析,用于下一步决策或报告生成
示例
scRNA-seq 标准分析 Skill:Agent 接收“对样本 A 和 B 进行整合去批次”指令后,自动调用 Harmony 步骤,输出整合后的 Seurat 对象。
精选实践 · 三维品质展示
以下流程已同时满足至少两层最佳实践标准。点击查看完整步骤与 Skill 包。
WGS/WES 变异检测流程
基于 GATK4 Best Practices,从 FASTQ 到变异注释的完整分析流程
数据预处理与质量控制
覆盖多平台定量、sc/snRNA-seq差异质控、环境RNA去污染与双细胞去除的完整预处理流程
标准 RNA-seq 分析流程
从质量控制到差异表达基因鉴定的全流程
ChIP-seq 分析流程
从原始测序到 Peak Calling 与功能注释
多模态单细胞整合流程
整合 RNA + ATAC 多模态数据的端到端分析
功能富集分析流程
基于差异表达基因的 GO/KEGG/GSEA 富集分析
浏览全部分析流程
查看所有已收录的标准化生物信息学流程,支持按领域和难度筛选。
前往 Workflow 库Skill 技能包
每个 Skill 包含 SKILL.md、脚本和参考数据,集成到 AI Agent 或本地环境。
随流程详情页获取按领域浏览
单细胞转录组
单细胞 RNA 测序、批次校正、轨迹推断等
游离多组学
cfDNA多组学特征提取、多癌种早筛、MRD监测与组织溯源
非编码RNA
miRNA、lncRNA、circRNA鉴定定量、差异分析、ceRNA网络与疾病标志物
计算辅助药物设计
蛋白质结构预测、虚拟筛选、自由能计算、ADMET、AI分子生成与全流程决策
基因组学
全基因组/外显子组分析、结构变异、基因组组装
基因组重复序列分析
重复序列注释、TE分析、串联重复变异检测与多组学整合
转录组学
RNA-seq、可变剪接、功能富集分析
表观组学
ChIP-seq、ATAC-seq、DNA 甲基化分析
多组学整合
跨组学数据整合、多模态单细胞、空间转录组
流程性能评测框架
即将推出BioProfile 正在建立标准化的流程性能基准测试方法,涵盖运行时间、内存效率、并行扩展性、能耗等维度。未来每个最佳实践将附带官方评测报告。
参与共建
- 提交您的最佳实践— 推荐经过验证的分析流程
- 参与性能评测框架测试— 协助完善评测方法论
- Skill 包开发指南— 了解 Skill 包规范与开发流程
- 反馈建议— 帮助我们持续改进