AI 科学家:从辅助到自主的演进

自动做研究不再只是科幻——当前 AI Agent 系统的全景图与未来展望

引言:当 AI 开始”搞科研”

想象一下:你在睡觉,AI 在跑实验;你醒来时,发现它已经完成了文献调研、做了 20 组实验、写了论文初稿、还自己审了一轮。

这不是远景——多个开源项目已经实现了这个流程

从 Andrej Karpathy 的「睡前 запусти 实验」到 SakanaAI 的「完全自动化科学发现」,从单人作战的科研助手到多智能体协作的研究团队,AI 正在重塑科学研究的范式。

这篇文章会:

  1. 聊聊 AI Agent 做研究的可能性
  2. 横向对比当前主流系统
  3. 展望未来

一、AI Agent 做研究:现在能做什么?

1.1 核心能力

现代 LLM-based AI Agent 已经可以独立完成:

能力 描述
文献调研 搜索 arXiv、Zotero、Obsidian、CrossRef,自动总结
想法生成 基于已有工作提出新研究方向
实验执行 写代码、改代码、跑训练、调参
结果分析 可视化、统计分析、发现规律
论文写作 LaTeX 排版、图表生成、格式规范
同行评审 模拟审稿人给出评分和改进建议

1.2 两种范式


二、主流系统横评

2.1 SakanaAI / AI-Scientist 🧪

首个完全自动化的开源科学发现系统

定位:从想法到论文的端到端自动化

核心能力

支持的领域:NanoGPT 训练、2D 扩散模型、Grokking 现象

局限:目前依赖预设模板,通用性有限


2.2 EvoScientist ⚙️

自进化的 AI 科学家框架

定位:多智能体研究团队

核心架构

特点


2.3 karpathy / autoresleep 🚀

Andrej Karpathy 的个人实验

定位:单 GPU 上的自动化训练实验

核心理念

优势

局限:只管训练实验,不涉及文献和写作


2.4 ARIS (Auto-Research-In-Sleep) 🌙

让 Claude Code 帮你做研究

定位:端到端 Claude Code 技能包

核心创新跨模型评审

工作流

  1. /idea-discovery:文献 → 8-12 个想法 → GPU 试点
  2. /auto-review-loop:4 轮自主评审,5/10 → 7.5/10
  3. /paper-writing:叙事 → LaTeX → PDF → 8.5/10
  4. /research-pipeline:一键端到端

特色功能


2.5 openags / auto-research 🏗️

通用科学家框架

定位:从文献调研到投稿的全流程

两阶段规划

覆盖环节:文献综述 → 提案 → 实验 → 写作 → 投稿 → 审稿


2.6 对比矩阵

系统 自动化程度 智能体数 写作能力 评审能力 适用场景
AI-Scientist ★★★★★ 1 完全自动化科研
EvoScientist ★★★★☆ 6 团队协作、可扩展
ARIS ★★★★☆ 2+ Claude Code 用户
auto-research ★★★☆☆ 全流程管理
karpathy ★★☆☆☆ 1 训练实验自动化

三、为什么跨模型评审很重要?

ARIS 论文[1] 提到了一个深刻洞见:

单一模型自我审查 = 随机 bandit(可预测的奖励噪声)
跨模型审查 = 对抗性 bandit(审查者主动探测执行者未预料的弱点)

两人对弈收敛到 Nash 均衡的效率,远高于多人混战。从 1→2 的收益最大,2→4 边际收益递减。

这也是为什么 ARIS 用 Claude Code + Codex,而不是让同一个模型既执行又评审。


四、挑战与局限

  1. 科学品味:AI 能执行指令,但”什么是好的研究方向”仍需人类判断
  2. 幻觉风险:文献引用、实验设计仍可能出错
  3. 物理实验:目前只能做模拟,真实世界的实验还需机器人
  4. 评估标准:如何衡量”科学发现”的质量?现有基准有限
  5. 安全风险:AI 写的代码可能调用危险包,需要容器化隔离

五、未来展望

短期(1-2 年)

中期(3-5 年)

长期


结语

AI 不会取代科学家,但会用 AI 的科学家会取代不会用 AI 的

现在的系统已经从”写代码的助手”进化到”能自主做研究的伙伴”。无论你是:

都有现成的开源项目可以尝试。

唯一的问题是:你准备好让 AI 帮你做研究了吗?


参考


本文基于 2026 年 3 月的开源项目调研,后续可能有更新。