头版 · 前沿
一张只有四行指令的纸条,让基础模型学会了自我纠错
本周一篇被广泛讨论的研究提出「内省式微调」:无需外部奖励、无需成对偏好数据,模型在推理过程中自行判定错误并回溯——效果在数学与代码基准上平均提升 11.4 个百分点。
"真正令人意外的不是提升幅度,而是它几乎不需要额外数据。"
编辑部 · 编辑部 · 12 分钟阅读
图示 · 一张只有四行指令的纸条,让基础模…
本期头版
公司
Anthropic 推出「长程工作」接口,单任务可持续 8 小时不中断
面向编码与调研场景的长时 Agent 接口开放预览,官方演示中一个实例完成了从抓取到部署的完整闭环。
今晨 06:42产品
一款主打「桌面原生」的 AI IDE 获千万级种子轮
项目由前 JetBrains 与 Cursor 工程师联合创立,宣称在本地 16GB 设备上流畅运行 70B 级模型。
昨日 22:10观点
「Scaling 已死」?三位顶会主席在圆桌上给出了三种不同答案
一场本应温和的闭门讨论变成了罕见的公开分歧,录音节选已在社区流传。
昨日 18:05本周研究精选
arXiv / 会议论文arXiv 2604.01823
内省式微调:让模型在推理中自查自纠
Y. Mori, S. Patel, J. Chen 等 · 12 人
Mila / Meta FAIR
提出在链式推理末端插入「第三者视角」token,以仅 1.2% 的额外算力获得大幅正确率提升。
预印本 · 3 天内被引 47 次
arXiv 2604.01712
小模型的记忆压缩:一种可学习的稀疏 KV 缓存策略
王家豪、林晓、A. Volkov
清华 KEG / 智源
在 7B 模型上把上下文成本降到原来 31%,长文档问答基本无损。
预印本 · 代码已开源
ICLR Spotlight
从演化的角度看 MoE 路由崩塌
Chen, T. & Ramirez, E.
Stanford / Cohere
以群体遗传学的视角重新解释专家层失活现象,给出可直接落地的正则方案。
Oral 入选 · 社区复现中
NeurIPS Submitted
Agent 记忆的遗忘曲线:一次长周期实证
R. Goldberg 等 · 6 人
DeepMind
在 90 天连续运行的 Agent 群组中观察到类人记忆衰减规律。
评审中 · 数据集待发布
前沿公司动态
实时跟踪产品GPT-5o Voice 面向所有付费用户开放,支持 34 种语言的情感化朗读2 小时前
人事首席研究官 Bob 宣布离职,将创立一家主攻机器人基础模型的公司今日
接口「长程工作」Beta 开放预览,单次任务上限 8 小时今晨
研究发布关于可解释性的新论文:circuits-v3 方法昨日
产品Gemini 3 Pro 在 SWE-bench 官方榜单刷新至 74.2%6 小时前
学术与 Isomorphic 合作的 AlphaFold 4 开放学术查询3 天前
开源Llama 4 Small / Medium / Max 三档同步发布,权重可商用1 天前
人事Yann 发表长文,再次否定「当前范式能抵达 AGI」2 天前
产品Codestral 2 发布,面向欧洲企业本地化部署2 天前
产品DeepSeek-V4 预览版数学榜单持续领跑今日
融资月之暗面据悉完成新一轮,估值逼近 500 亿人民币本周
AI 名人语录
本周金句我们过度关心模型会说什么,太少关心它为什么那样说。
引自本周一场高校闭门分享
下一个十年,教育的界面就是一个会走神的老师 —— 但它有无限耐心。
个人博客最新一篇长文
通往 AGI 的每一步都会被误以为是 AGI 本身。
Demis Hassabis
Google DeepMind CEO
《金融时报》专访
推理不是规模的副产品,是单独一门手艺。
François Chollet
ARC Prize
ARC-AGI-2 评测发布会
创新产品发布
本周上线Series A前 Notion / Readwise
Paperline
把任意 PDF 变成可对话的「研究同事」
前 Notion / Readwise
本周上线多模型路由,Claude/GPT/Gemini 价格自动择优
Seed前 JetBrains × Cursor
Orbital IDE
桌面原生的 AI IDE,16GB Mac 本地跑 70B
前 JetBrains × Cursor
周内种子轮 $12M,红杉领投
Public Beta两人团队
Whisperframe
给视频创作者的自动字幕 + 情节索引
两人团队
Product Hunt 本周第一
Preview独立开发者 Liang Yu
Chorus
把一群 Agent 当乐队来编排
独立开发者 Liang Yu
用 YAML 写 Agent 乐谱的尝试
Series B来自 Harvey 早期成员
Quill.ai
给律所用的判例检索 + 起草助手
来自 Harvey 早期成员
官宣与两家 Magic Circle 所合作
Closed AlphaPixar 出身
Relay Studio
AI 原生的动画制作台
Pixar 出身
官方 demo 刷屏 X
Skills / Prompts精选
本周推荐01工作流
入门 · 5 分钟
像对待初级研究员一样交代任务
把背景、成功标准、可用资源、禁止项、交付形式五件事一次说清,可让输出质量翻倍。
02写作
中阶 · 8 分钟
用「反向大纲」检查长文一致性
写完后让模型倒推每段 claim,再与你的原大纲逐条对齐,能揪出 80% 的隐蔽跳跃。
03Agent 调试
进阶 · 15 分钟
Agent 崩溃时第一时间做的三件事
冻结记忆、抓最小可复现 trace、把系统提示退回上一稳定版本。
04工程
入门 · 10 分钟
用 MCP 连本地 SQLite 的最短路径
官方 mcp-sqlite-server + 一份 30 行的 manifest,桌面客户端即刻可用。
05工作流
入门 · 3 分钟
让模型主动问清楚再动手
一行系统提示:「如果信息不足以保证高质量输出,先列出你需要问我的问题。」
06写作
中阶 · 6 分钟
长上下文中防止「中间遗忘」的两个小技巧
结构化锚点 + 段首复述;尤其对 32k 以上的对话显著有效。
模型排行榜
综合基准| # | 模型 | 机构 | 综合分 | 变动 |
|---|
| 1 | Claude Opus 4.7 | Anthropic | 88.2 | +2.1 |
| 2 | GPT-5.4 | OpenAI | 87.6 | +0.4 |
| 3 | Gemini 3 Pro | DeepMind | 85.9 | +3.0 |
| 4 | DeepSeek-V4 | DeepSeek | 83.1 | +1.2 |
| 5 | Llama 4 Max | Meta | 81.4 | — |
| 6 | Qwen 3 Max | 阿里 | 80.8 | +0.9 |
本期简报
60 秒掌握本周DIGEST / No. 037
如果只读一屏,读这6条。
- Anthropic 开放 8 小时长程 Agent 预览;
- Gemini 3 Pro 在 SWE-bench 更新至 74.2;
- Llama 4 三档同步开源;
- 月之暗面据传估值近 500 亿;
- ICLR 2026 Oral 名单公布;
- 一位资深研究员公开质疑当前 Scaling 路线。