导览

微软在Build 2026推出首款自研推理模型MAI-Thinking-1,同时Claude Code新增动态多智能体工作流、OpenAI Codex发布可嵌入SDK——智能体编程工具链密集升级,AI正从“对话问答”加速转向“自主执行任务”。

模型发布/更新

1. 微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026发布首款高级推理模型MAI-Thinking-1,定位中等规模,在关键软件工程基准中达领先水平,完全自研未蒸馏第三方,标志微软自研AI重要一步。The Verge ↗

2. Holo3.1:快速本地计算机使用智能体

Holo3.1基于Qwen模型,提供0.8B至35B-A3B四种尺寸,首次发布FP8等量化检查点优化本地推理。35B-A3B在AndroidWorld基准得分从67%升至79.3%。Hugging Face:Blog ↗

3. 阶跃星辰Step 3.7 Flash发布,专为高效推理设计

阶跃星辰发布196B MoE推理优化模型Step 3.7 Flash,采用多矩阵分解注意力,KV-cache成本仅为DeepSeek的22%,通过Fireworks AI提供,Apache 2.0许可。X:@StepFun_ai ↗

4. 百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

PaddleOCR-VL-1.6已上线官网,支持网页端和API调用。量子位 ↗

5. Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件

Qwen3.7-Plus已上线阿里云百炼,作为多模态智能体新基座,可一键复刻桌面端专业软件。量子位 ↗

产品与工具

6. Claude Code 新增动态工作流功能

Claude Code新增动态工作流,模型可即兴创建多智能体框架处理复杂任务,通过JavaScript文件协调子代理,适用于研究、安全分析等场景,消耗更多token。Claude:Blog ↗

7. Claude Platform 新增 CLI 工具

Claude Platform新增CLI工具ant,可从终端调用Messages API、启动托管智能体并管道输出,被Claude Code良好理解。X:@ClaudeDevs ↗

8. OpenAI Codex 发布 Python SDK,可直接嵌入应用

Codex发布Python SDK,安装指令pip install openai-codex,可嵌入应用实现编程和生图Agent,并复用Codex登录态。X:@vista8 ↗

9. Runway API 推出 Aleph 2.0 视频编辑功能

Aleph 2.0通过Runway API提供,支持在多镜头序列中编辑最长30秒1080p视频,仅修改目标部分。X:@runwayml ↗

10. GitHub Copilot应用:智能体原生的桌面体验

微软Build 2026上,GitHub将Copilot应用定位为智能体原生桌面体验,让AI智能体以用户习惯的方式工作。GitHub Blog:Blog ↗

11. 刚刚,Meta Skill来了

GitHub热门仓库OpenSquilla发布。量子位 ↗

开发与工程

12. Google DeepMind 开源科学智能体工具包

Google DeepMind开源Science Skills工具包,用于构建科学发现自主智能体,提升token效率,已在GitHub发布。X:@googleaidevs ↗

13. 微软发布开源框架 Adaptive Spec-driven Scoring:支持用文本描述创建 AI 评估测试

微软开源Adaptive Spec-driven Scoring框架,开发者可通过文本描述快速生成AI行为测试,用于模型评估与回归测试。TechCrunch ↗

14. 商汤开源SenseNova-Skills AI办公技能套件

商汤开源SenseNova-Skills,提供图像图表生成、数据分析、PPT创建、深度研究四大功能,兼容多种智能体,完全开源。X:@SenseTime_AI ↗

15. 字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手

字节开源Bernini框架,为DiT模型提供理解能力,先理解视频内容再进行编辑。量子位 ↗

16. 机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

清华AIR开源机器人强化学习训练架构UniLab,3分钟完成人形训练,速度提升10倍,支持Mac。量子位 ↗

行业与公司

17. Replit 与微软合作发布 Fabric 集成

Replit与微软合作,组织可在Replit中构建工具并直接发布到Microsoft Fabric,内置安全、身份验证和治理功能。X:@Replit ↗

18. Alphabet拟融资800亿美元 Anthropic提交IPO申请

Alphabet拟股权融资800亿美元扩展AI基础设施;Anthropic秘密提交IPO申请,领先OpenAI;SpaceX协商IPO承销费,HPE销售预期超预估。Bloomberg ↗

19. Anthropic扩展Project Glasswing计划

Anthropic将Project Glasswing扩展至约150个新组织,覆盖电力、医疗等关键基础设施,利用Claude Mythos Preview扫描并修复漏洞,应对AI安全挑战。Anthropic ↗

20. SK会长崔泰源:SK海力士计划未来五年内晶圆产能翻倍

SK海力士会长崔泰源宣布五年内晶圆产能翻倍,应对AI持续存储需求,供需紧张或延续至2030年,市值首破1万亿美元。IT之家 ↗

21. Anthropic支持美国AI行政令实施

Anthropic支持美国AI行政令,称其加强AI领导地位,期待与白宫合作实施。X:@AnthropicAI ↗

22. OpenAI呼吁通过全球领导力推进青年AI安全与机遇

OpenAI呼吁全球设立AI安全研究所,保障青少年使用AI安全并创造发展机遇。OpenAI:官网动态 ↗

23. Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作推出AI理赔助手,引导客户完成理赔流程,提供全天候支持以扩展运营规模。OpenAI:官网动态 ↗

24. 头部厂商集体买单,全球AI原生达人营销头号平台正在诞生!

平台入驻全球达人已超10万。量子位 ↗

25. 滴滴2026Q1财报:国内基本盘稳固 国际业务成第二增长引擎

滴滴日均订单刷新历史纪录至3940万单。量子位 ↗

26. “豆包汽车”,目标市场10万-20万

国资入主,赛力斯让权。量子位 ↗

论文与研究

27. 微软研究:Aurora天气预报速度超传统超算数千倍

微软Aurora天气预报模型速度比传统超算快数千倍,在MSBuild上由Kenji Takeda分享。X:@MSFTResearch ↗

28. Anthropic可解释性研究:区分因果效应相似的特征

Anthropic提出新方法,通过分析下游连接和TWERA加权排序,区分激活模式相似但因果效应不同的模型特征。transformer-circuits.pub:官网动态 ↗

人物与花絮

29. Nathan Lambert离开Ai2,结束2.5年OLMO等项目工作

Ai2研究员Nathan Lambert离职,曾在Ai2工作2.5年主导OLMO和Tulu等开源模型项目,称其为职业生涯巅峰,后续将继续深耕开源与开放科学。X:@natolambert ↗

30. OpenAI挖走中科大少年班校友!12岁上大学,哈佛史上最年轻正教授

OpenAI挖走中科大少年班校友(12岁上大学、哈佛最年轻正教授),同时挖走苏炜杰。量子位 ↗

观点与教程

31. Codex正在成为每个人的生产力工具

报告指出Codex通过AI增强研究、数据分析、工作流自动化与内容创作,变革知识工作生产力。OpenAI:官网动态 ↗

32. 为了不花那120刀,我把电脑清理软件做成了开源skill

作者使用Codex分析MacBook发现超140G可清理空间,开源跨平台AI清理skill,生成三色分级HTML报告,支持安全执行。X:@Khazix0918 ↗

33. Karpathy 分享学习方法论

Andrej Karpathy谈如何学习。X:@rohanpaul_ai ↗

34. Claude Code团队实践:智能体编程如何重塑工程组织与流程

Claude Code团队在活动上分享智能体编程成为默认方式后,规划转向JIT模式,上下文收集先问Claude,代码审查聚焦法律安全,工程瓶颈转向验证与安全。Claude:Blog ↗

35. Claude Code 自我检查与反馈闭环技巧

如何编码手动检查让Claude在交回工作前自行检查成果,实现反馈闭环。X:@ClaudeDevs ↗

36. Gemini Spark:最令人印象深刻也最可怕的AI体验

Google DeepMind的Gemini Spark模型带来深刻但令人不安的体验,其强大能力引发恐惧。The Verge ↗

37. 开放模型的繁荣生态

OpenRouter数据显示开放权重模型token使用量占69.1%,闭源占30.9%,模型领导地位频繁更迭,如DeepSeek后被MiniMax等取代。tomtunguz.com ↗

38. Gary Marcus:为什么事情终将崩塌

AI批评者Gary Marcus撰文指出数学理论局限与人类心理复杂性是AI系统可能崩塌的根源。garymarcus.substack.com ↗

39. 文章:为何仅向量搜索不够——RAG的混合检索

Aaditya Chauhan讨论纯向量搜索RAG管道的局限,以及使用倒数排名融合(RRF)的全域搜索应用。InfoQ AI ↗

40. 用智能体AI重塑全球医疗保健

全球医疗保健因长期投入不足和需求激增面临压力,文章探讨智能体AI的解决方案。MIT科技评论AI ↗

41. 小企业如何利用AI

本文来自MIT Technology Review系列,探讨小企业从会计到设计等领域应用LLM的方法。MIT科技评论AI ↗

42. MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它

实测MiniMax M3模型处理74个Logo等复杂任务,还能打卡老黄同款路线。量子位 ↗

总结

强信号

  • 微软MAI-Thinking-1发布,完全自研未蒸馏第三方,在关键软件工程基准中达到领先水平 这意味着微软补上了推理模型的自研短板,不再完全依赖OpenAI或第三方模型。

  • 阶跃星辰Step 3.7 Flash的KV-cache成本仅为DeepSeek的22%,采用多矩阵分解注意力,并开源Apache 2.0许可 这是中国团队在推理效率上的显著突破,直接拉低了部署成本门槛。

  • OpenRouter数据显示开放权重模型token使用量占69.1%,且模型领导地位频繁更迭(DeepSeek后被MiniMax取代) 开源生态活跃度远超闭源,但头部模型轮换加快,开发者面临“哪家强”的持续选择压力。

中信号

  • Anthropic将Project Glasswing扩展至约150个关键基础设施组织,用Claude Mythos Preview扫描并修复漏洞 安全智能体从概念验证进入规模化部署,电力、医疗等行业的AI防护开始落地。

  • Runway API推出Aleph 2.0,支持在多镜头序列中编辑最长30秒1080p视频且只修改目标部分 视频创作AI工具进一步具体化,从“生成片段”进化到“精准局部修改”。

待验证

  • Gary Marcus撰文称AI系统可能因数学理论局限与人类心理复杂性而崩塌 这种根本性质疑缺乏实证支撑,但反映了部分学术界对当前大模型可靠性的持续担忧,是否被后续事故证实仍需观察。

  • Alphabet拟股权融资800亿美元扩展AI基础设施,Anthropic秘密提交IPO申请 如此大规模资本涌入能否被实际需求消化,以及Anthropic上市后的商业模型可持续性,都是悬念。