AI 科学家:从辅助到自主的演进
自动做研究不再只是科幻——当前 AI Agent 系统的全景图与未来展望
引言:当 AI 开始”搞科研”
想象一下:你在睡觉,AI 在跑实验;你醒来时,发现它已经完成了文献调研、做了 20 组实验、写了论文初稿、还自己审了一轮。
这不是远景——多个开源项目已经实现了这个流程。
从 Andrej Karpathy 的「睡前 запусти 实验」到 SakanaAI 的「完全自动化科学发现」,从单人作战的科研助手到多智能体协作的研究团队,AI 正在重塑科学研究的范式。
这篇文章会:
- 聊聊 AI Agent 做研究的可能性
- 横向对比当前主流系统
- 展望未来
一、AI Agent 做研究:现在能做什么?
1.1 核心能力
现代 LLM-based AI Agent 已经可以独立完成:
| 能力 | 描述 |
| 文献调研 | 搜索 arXiv、Zotero、Obsidian、CrossRef,自动总结 |
| 想法生成 | 基于已有工作提出新研究方向 |
| 实验执行 | 写代码、改代码、跑训练、调参 |
| 结果分析 | 可视化、统计分析、发现规律 |
| 论文写作 | LaTeX 排版、图表生成、格式规范 |
| 同行评审 | 模拟审稿人给出评分和改进建议 |
1.2 两种范式
- Human-in-the-loop:人主导,AI 打下手(写代码、查文献)
- Human-on-the-loop:AI 主导,人在关键节点审批(EvoScientist 的定位)
二、主流系统横评
2.1 SakanaAI / AI-Scientist 🧪
首个完全自动化的开源科学发现系统
定位:从想法到论文的端到端自动化
核心能力:
- 自动生成研究想法(基于模板)
- 自主设计并执行实验
- 撰写完整论文(LaTeX + PDF)
- 模拟同行评审
支持的领域:NanoGPT 训练、2D 扩散模型、Grokking 现象
局限:目前依赖预设模板,通用性有限
2.2 EvoScientist ⚙️
自进化的 AI 科学家框架
定位:多智能体研究团队
核心架构:
- 6 个子智能体:plan → research → code → debug → analyze → write
- 持久记忆(跨会话)
- MCP 集成(可动态接入工具)
- 多渠道(CLI + Telegram + Slack + 飞书 + 微信)
特点:
- “Human-on-the-loop”:AI 是研究伙伴,与人共同进化
- 多模型支持:Anthropic、OpenAI、Google、NVIDIA
- 技能系统:可从 GitHub 安装研究技能
2.3 karpathy / autoresleep 🚀
Andrej Karpathy 的个人实验
定位:单 GPU 上的自动化训练实验
核心理念:
- 极简:只有 3 个文件(prepare.py, train.py, program.md)
- 固定 5 分钟预算:每次实验都是 5 分钟,便于比较
- Agent 只改 train.py,其他保持固定
优势:
- 极其轻量,适合个人研究者
- 可复现性强
- 约每小时 12 次实验,睡觉时能跑 ~100 次
局限:只管训练实验,不涉及文献和写作
2.4 ARIS (Auto-Research-In-Sleep) 🌙
让 Claude Code 帮你做研究
定位:端到端 Claude Code 技能包
核心创新:跨模型评审
- Claude Code 执行(快)
- Codex (GPT-5.4) 评审(慢但严谨)
- 对抗性审查,避免自我审查盲点
工作流:
-
/idea-discovery:文献 → 8-12 个想法 → GPU 试点 -
/auto-review-loop:4 轮自主评审,5/10 → 7.5/10 -
/paper-writing:叙事 → LaTeX → PDF → 8.5/10 -
/research-pipeline:一键端到端
特色功能:
- Zotero + Obsidian + 本地 PDF + arXiv 多源文献
- DBLP/CrossRef 真实 BibTeX 防幻觉
- 飞书/微信通知
2.5 openags / auto-research 🏗️
通用科学家框架
定位:从文献调研到投稿的全流程
两阶段规划:
- Phase 1:纯软件智能体
- Phase 2:+ 机器人(物理实验)
覆盖环节:文献综述 → 提案 → 实验 → 写作 → 投稿 → 审稿
2.6 对比矩阵
| 系统 | 自动化程度 | 智能体数 | 写作能力 | 评审能力 | 适用场景 |
| AI-Scientist | ★★★★★ | 1 | ✅ | ✅ | 完全自动化科研 |
| EvoScientist | ★★★★☆ | 6 | ✅ | ❌ | 团队协作、可扩展 |
| ARIS | ★★★★☆ | 2+ | ✅ | ✅ | Claude Code 用户 |
| auto-research | ★★★☆☆ | 多 | ✅ | ❌ | 全流程管理 |
| karpathy | ★★☆☆☆ | 1 | ❌ | ❌ | 训练实验自动化 |
三、为什么跨模型评审很重要?
ARIS 论文[1] 提到了一个深刻洞见:
单一模型自我审查 = 随机 bandit(可预测的奖励噪声)
跨模型审查 = 对抗性 bandit(审查者主动探测执行者未预料的弱点)
两人对弈收敛到 Nash 均衡的效率,远高于多人混战。从 1→2 的收益最大,2→4 边际收益递减。
这也是为什么 ARIS 用 Claude Code + Codex,而不是让同一个模型既执行又评审。
四、挑战与局限
- 科学品味:AI 能执行指令,但”什么是好的研究方向”仍需人类判断
- 幻觉风险:文献引用、实验设计仍可能出错
- 物理实验:目前只能做模拟,真实世界的实验还需机器人
- 评估标准:如何衡量”科学发现”的质量?现有基准有限
- 安全风险:AI 写的代码可能调用危险包,需要容器化隔离
五、未来展望
短期(1-2 年)
- 更多领域模板(生物、化学、材料科学……)
- 更强的多模态能力(读图、分析数据)
- 与真实实验设备集成
中期(3-5 年)
- AI 科学家 vs 人类科学家合作论文
- 自动同行评审系统
- 跨领域迁移能力
长期
- 真正的 “AI Nobel Prize”
- 自我改进的科学研究循环
结语
AI 不会取代科学家,但会用 AI 的科学家会取代不会用 AI 的。
现在的系统已经从”写代码的助手”进化到”能自主做研究的伙伴”。无论你是:
- 想自动化实验流程 → karpathy/autoresearch
- 想端到端写论文 → ARIS 或 AI-Scientist
- 想搭建团队级研究系统 → EvoScientist
都有现成的开源项目可以尝试。
唯一的问题是:你准备好让 AI 帮你做研究了吗?
参考
- [1] ARIS: Auto-Research-In-Sleep. wanshuiyin et al. 2026.
- [2] EvoScientist: Towards Multi-Agent Evolving AI Scientists. Lyu et al. arXiv:2603.08127
- [3] The AI Scientist: Towards Fully Automated Open-Enented Scientific Discovery. SakanaAI, 2024.
本文基于 2026 年 3 月的开源项目调研,后续可能有更新。