AI日报 · 2026-06-03 - ephron's blog

导览

微软在Build 2026推出首款自研推理模型MAI-Thinking-1，同时Claude Code新增动态多智能体工作流、OpenAI Codex发布可嵌入SDK——智能体编程工具链密集升级，AI正从“对话问答”加速转向“自主执行任务”。

模型发布/更新

1. 微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026发布首款高级推理模型MAI-Thinking-1，定位中等规模，在关键软件工程基准中达领先水平，完全自研未蒸馏第三方，标志微软自研AI重要一步。The Verge ↗

2. Holo3.1：快速本地计算机使用智能体

Holo3.1基于Qwen模型，提供0.8B至35B-A3B四种尺寸，首次发布FP8等量化检查点优化本地推理。35B-A3B在AndroidWorld基准得分从67%升至79.3%。Hugging Face：Blog ↗

3. 阶跃星辰Step 3.7 Flash发布，专为高效推理设计

阶跃星辰发布196B MoE推理优化模型Step 3.7 Flash，采用多矩阵分解注意力，KV-cache成本仅为DeepSeek的22%，通过Fireworks AI提供，Apache 2.0许可。X：@StepFun_ai ↗

4. 百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

PaddleOCR-VL-1.6已上线官网，支持网页端和API调用。量子位 ↗

5. Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件

Qwen3.7-Plus已上线阿里云百炼，作为多模态智能体新基座，可一键复刻桌面端专业软件。量子位 ↗

产品与工具

6. Claude Code 新增动态工作流功能

Claude Code新增动态工作流，模型可即兴创建多智能体框架处理复杂任务，通过JavaScript文件协调子代理，适用于研究、安全分析等场景，消耗更多token。Claude：Blog ↗

7. Claude Platform 新增 CLI 工具

Claude Platform新增CLI工具ant，可从终端调用Messages API、启动托管智能体并管道输出，被Claude Code良好理解。X：@ClaudeDevs ↗

8. OpenAI Codex 发布 Python SDK，可直接嵌入应用

Codex发布Python SDK，安装指令pip install openai-codex，可嵌入应用实现编程和生图Agent，并复用Codex登录态。X：@vista8 ↗

9. Runway API 推出 Aleph 2.0 视频编辑功能

Aleph 2.0通过Runway API提供，支持在多镜头序列中编辑最长30秒1080p视频，仅修改目标部分。X：@runwayml ↗

10. GitHub Copilot应用：智能体原生的桌面体验

微软Build 2026上，GitHub将Copilot应用定位为智能体原生桌面体验，让AI智能体以用户习惯的方式工作。GitHub Blog：Blog ↗

11. 刚刚，Meta Skill来了

GitHub热门仓库OpenSquilla发布。量子位 ↗

开发与工程

12. Google DeepMind 开源科学智能体工具包

Google DeepMind开源Science Skills工具包，用于构建科学发现自主智能体，提升token效率，已在GitHub发布。X：@googleaidevs ↗

13. 微软发布开源框架 Adaptive Spec-driven Scoring：支持用文本描述创建 AI 评估测试

微软开源Adaptive Spec-driven Scoring框架，开发者可通过文本描述快速生成AI行为测试，用于模型评估与回归测试。TechCrunch ↗

14. 商汤开源SenseNova-Skills AI办公技能套件

商汤开源SenseNova-Skills，提供图像图表生成、数据分析、PPT创建、深度研究四大功能，兼容多种智能体，完全开源。X：@SenseTime_AI ↗

15. 字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

字节开源Bernini框架，为DiT模型提供理解能力，先理解视频内容再进行编辑。量子位 ↗

16. 机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑

清华AIR开源机器人强化学习训练架构UniLab，3分钟完成人形训练，速度提升10倍，支持Mac。量子位 ↗

行业与公司

17. Replit 与微软合作发布 Fabric 集成

Replit与微软合作，组织可在Replit中构建工具并直接发布到Microsoft Fabric，内置安全、身份验证和治理功能。X：@Replit ↗

18. Alphabet拟融资800亿美元 Anthropic提交IPO申请

Alphabet拟股权融资800亿美元扩展AI基础设施；Anthropic秘密提交IPO申请，领先OpenAI；SpaceX协商IPO承销费，HPE销售预期超预估。Bloomberg ↗

19. Anthropic扩展Project Glasswing计划

Anthropic将Project Glasswing扩展至约150个新组织，覆盖电力、医疗等关键基础设施，利用Claude Mythos Preview扫描并修复漏洞，应对AI安全挑战。Anthropic ↗

20. SK会长崔泰源：SK海力士计划未来五年内晶圆产能翻倍

SK海力士会长崔泰源宣布五年内晶圆产能翻倍，应对AI持续存储需求，供需紧张或延续至2030年，市值首破1万亿美元。IT之家 ↗

21. Anthropic支持美国AI行政令实施

Anthropic支持美国AI行政令，称其加强AI领导地位，期待与白宫合作实施。X：@AnthropicAI ↗

22. OpenAI呼吁通过全球领导力推进青年AI安全与机遇

OpenAI呼吁全球设立AI安全研究所，保障青少年使用AI安全并创造发展机遇。OpenAI：官网动态 ↗

23. Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作推出AI理赔助手，引导客户完成理赔流程，提供全天候支持以扩展运营规模。OpenAI：官网动态 ↗

24. 头部厂商集体买单，全球AI原生达人营销头号平台正在诞生！

平台入驻全球达人已超10万。量子位 ↗

25. 滴滴2026Q1财报：国内基本盘稳固国际业务成第二增长引擎

滴滴日均订单刷新历史纪录至3940万单。量子位 ↗

26. “豆包汽车”，目标市场10万-20万

国资入主，赛力斯让权。量子位 ↗

论文与研究

27. 微软研究：Aurora天气预报速度超传统超算数千倍

微软Aurora天气预报模型速度比传统超算快数千倍，在MSBuild上由Kenji Takeda分享。X：@MSFTResearch ↗

28. Anthropic可解释性研究：区分因果效应相似的特征

Anthropic提出新方法，通过分析下游连接和TWERA加权排序，区分激活模式相似但因果效应不同的模型特征。transformer-circuits.pub：官网动态 ↗

人物与花絮

29. Nathan Lambert离开Ai2，结束2.5年OLMO等项目工作

Ai2研究员Nathan Lambert离职，曾在Ai2工作2.5年主导OLMO和Tulu等开源模型项目，称其为职业生涯巅峰，后续将继续深耕开源与开放科学。X：@natolambert ↗

30. OpenAI挖走中科大少年班校友！12岁上大学，哈佛史上最年轻正教授

OpenAI挖走中科大少年班校友（12岁上大学、哈佛最年轻正教授），同时挖走苏炜杰。量子位 ↗

观点与教程

31. Codex正在成为每个人的生产力工具

报告指出Codex通过AI增强研究、数据分析、工作流自动化与内容创作，变革知识工作生产力。OpenAI：官网动态 ↗

32. 为了不花那120刀，我把电脑清理软件做成了开源skill

作者使用Codex分析MacBook发现超140G可清理空间，开源跨平台AI清理skill，生成三色分级HTML报告，支持安全执行。X：@Khazix0918 ↗

33. Karpathy 分享学习方法论

Andrej Karpathy谈如何学习。X：@rohanpaul_ai ↗

34. Claude Code团队实践：智能体编程如何重塑工程组织与流程

Claude Code团队在活动上分享智能体编程成为默认方式后，规划转向JIT模式，上下文收集先问Claude，代码审查聚焦法律安全，工程瓶颈转向验证与安全。Claude：Blog ↗

35. Claude Code 自我检查与反馈闭环技巧

如何编码手动检查让Claude在交回工作前自行检查成果，实现反馈闭环。X：@ClaudeDevs ↗

36. Gemini Spark：最令人印象深刻也最可怕的AI体验

Google DeepMind的Gemini Spark模型带来深刻但令人不安的体验，其强大能力引发恐惧。The Verge ↗

37. 开放模型的繁荣生态

OpenRouter数据显示开放权重模型token使用量占69.1%，闭源占30.9%，模型领导地位频繁更迭，如DeepSeek后被MiniMax等取代。tomtunguz.com ↗

38. Gary Marcus：为什么事情终将崩塌

AI批评者Gary Marcus撰文指出数学理论局限与人类心理复杂性是AI系统可能崩塌的根源。garymarcus.substack.com ↗

39. 文章：为何仅向量搜索不够——RAG的混合检索

Aaditya Chauhan讨论纯向量搜索RAG管道的局限，以及使用倒数排名融合（RRF）的全域搜索应用。InfoQ AI ↗

40. 用智能体AI重塑全球医疗保健

全球医疗保健因长期投入不足和需求激增面临压力，文章探讨智能体AI的解决方案。MIT科技评论AI ↗

41. 小企业如何利用AI

本文来自MIT Technology Review系列，探讨小企业从会计到设计等领域应用LLM的方法。MIT科技评论AI ↗

42. MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

实测MiniMax M3模型处理74个Logo等复杂任务，还能打卡老黄同款路线。量子位 ↗

总结

强信号

微软MAI-Thinking-1发布，完全自研未蒸馏第三方，在关键软件工程基准中达到领先水平 这意味着微软补上了推理模型的自研短板，不再完全依赖OpenAI或第三方模型。
阶跃星辰Step 3.7 Flash的KV-cache成本仅为DeepSeek的22%，采用多矩阵分解注意力，并开源Apache 2.0许可 这是中国团队在推理效率上的显著突破，直接拉低了部署成本门槛。
OpenRouter数据显示开放权重模型token使用量占69.1%，且模型领导地位频繁更迭（DeepSeek后被MiniMax取代） 开源生态活跃度远超闭源，但头部模型轮换加快，开发者面临“哪家强”的持续选择压力。

中信号

Anthropic将Project Glasswing扩展至约150个关键基础设施组织，用Claude Mythos Preview扫描并修复漏洞 安全智能体从概念验证进入规模化部署，电力、医疗等行业的AI防护开始落地。
Runway API推出Aleph 2.0，支持在多镜头序列中编辑最长30秒1080p视频且只修改目标部分 视频创作AI工具进一步具体化，从“生成片段”进化到“精准局部修改”。

待验证

Gary Marcus撰文称AI系统可能因数学理论局限与人类心理复杂性而崩塌 这种根本性质疑缺乏实证支撑，但反映了部分学术界对当前大模型可靠性的持续担忧，是否被后续事故证实仍需观察。
Alphabet拟股权融资800亿美元扩展AI基础设施，Anthropic秘密提交IPO申请 如此大规模资本涌入能否被实际需求消化，以及Anthropic上市后的商业模型可持续性，都是悬念。

AI日报 · 2026-06-03

导览