AI日报 · 2026-06-18 - ephron's blog

引言

今日AI日报涵盖模型能力新突破、产品应用加速落地及开发工具链升级。Grok 4.3正式登陆云平台，多模态模型持续涌现；智能音箱、实时交互世界等消费级产品亮相；智能体框架与开源工具推动工程化进程。

模型与能力

1. Grok 4.3 在 Amazon Bedrock 正式可用

xAI宣布Grok 4.3在Amazon Bedrock全面可用，前沿模型中最低幻觉率，支持100万token上下文和可配置推理努力。在多项基准排名第一，定价输入1.25美元、输出2.50美元每百万token。xAI：News（网页） ↗

2. MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、3D点标记和文字指令，预测未来数秒内点的3D轨迹。提供自回归和流匹配两个变体，开源模型权重、MolmoMotion-1M数据集和PointMotionBench基准。Hugging Face：Blog（RSS） ↗

3. 困住医疗AI的死循环，国产玩家终于跑通

多项关键医疗测评上打败了GPT-5.5。量子位 ↗

产品与应用

4. Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

Anthropic举办12小时黑客马拉松，310人用Opus 4.8完成原型。第一名Tekton：输入历史建筑照片，Claude自动搜集资料重建3D模型并自纠。第二名Sim Francisco：生成合成市民预测选举结果。第三名Custom Universe：手机拍照转为可交互3D物体。Claude：Blog（网页） ↗

5. Google 发布 99 美元 Gemini 智能音箱

Google推出首款Gemini专用音箱Google Home Speaker，售价99.99美元，支持自然语言、多步指令、连续对话。高级AI功能需订阅Home Premium（月费10美元）。TechCrunch：AI（RSS） ↗

6. Wolfram 语言和 Mathematica 15 发布

Version 15内置AI助手，新增符号音乐系统、大规模时间序列处理、ModelFit超函数等。笔记本支持千兆字节级大小、侧边栏、视觉主题，强化Python交互与WebSocket。Hacker News 热门（buzzing.cc 中文翻译） ↗

7. 阿里云发布 HappyOyster 1.0：一句话生成实时交互数字世界

HappyOyster基于原生多模态架构，支持多模态输入与音视频联合生成，实时响应指令。官网开放“实时导演”与“世界探索”玩法，内测进行中。IT之家（RSS） ↗

8. Claude Design 更新：跨项目品牌一致，与Claude Code协同

支持统一设计系统跨项目使用，与Claude Code同步工作流。可导入设计系统、锁定标准，新增桌面端侧边栏和独立网页端。支持导出PDF/PPT，集成Adobe、Canva、Gamma。Claude：Blog（网页） ↗

9. Claude Design 与 Replit 联动：设计变应用

用户可将Claude Design中的设计直接发送到Replit，自动生成可工作的应用。X：Replit (@Replit) ↗

10. 微信支付发布AI专属卡，WorkBuddy率先接入

用户可在与智能体对话中提出消费需求。量子位 ↗

11. GitHub Copilot桌面应用面向并行代理工作流

GitHub推出了Copilot桌面应用，作为代理原生开发的控制中心，旨在让工程师掌控同时让AI代理处理更多编码工作。Mario Rodriguez在GitHub博客上表示，近期编码代理浪潮带来了更快的交付，但也导致了工作流脱节、上下文切换增多以及审查代理生成代码耗时过多。InfoQ AI ↗

开发与基础设施

12. Google分享A2UI与MCP Apps三种集成架构模式

通过MCP服务器提供A2UI、利用MCP Resources/Tool调用传递JSON等模式，实现“一次编写，原生渲染”跨平台能力。Google Developers Blog（RSS） ↗

13. Matt Pocock开源skills v1，技能描述Token成本降低63%

工具包将技能分为模型/用户可调用，新增多项技能并重写已有技能，将prompt从咒语拆解为纪律性流程。X：阿易 AI Notes (@AYi_AInotes) ↗

14. Strands Robots SDK：从 Hugging Face Hub 到物理机器人

AWS开源SDK将LeRobot栈封装为AgentTools，支持模拟（MuJoCo）和真实机器人切换。可记录演示数据推送Hugging Face Hub，运行GR00T或LerobotLocal策略，通过Zenoh mesh控制多台机器人。Hugging Face：Blog（RSS） ↗

15. baoyu-design新增本地动画视频导出功能

基于f(t)声明式动画引擎，无头Chromium逐帧截图+ffmpeg编码，2倍DPR再缩回1080p确保细节，项目已开源MIT获1.2K star。X：宝玉 (@dotey) ↗

16. Omnigent 开源：AI 智能体团队元框架

Omnigent允许在单一会话中运行Claude Code、Codex、Cursor、Pi等组成的智能体团队，基于Databricks工具构建，已开源。X：Yuchen Jin (@Yuchenj_UW) ↗

17. Vercel 发布开源 AI 智能体框架 Eve

Eve采用文件系统优先设计，每个智能体对应一个目录，无需注册代码。内置持久执行、沙箱计算、人机审批、MCP连接、多通道和追踪评估能力，已在Vercel内部运行上百个智能体。MarkTechPost（RSS） ↗

18. 谷歌发布Agentic Resource Discovery（ARD）开放规范

ARD是用于Web上发布、发现和验证AI工具与智能体的开放规范。基于catalog和registry两个原语，支持加密验证。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持。开发者可通过托管ai-catalog.json文件使其服务被发现。Google Developers Blog（RSS） ↗

19. 北京建AI工厂：目标10万P算力，日产10万亿Token

计划1000倍综合降本。量子位 ↗

公司与资本

20. Databricks 扩大对 Snowflake 的领先优势

Databricks 年化经常性收入69亿美元（同比+80%），Snowflake约53亿美元（+34%），差距扩大至16亿美元。AI产品年化收入17亿，占总ARR 25%。Salesforce以36亿美元收购Fin，其AI智能体年收入1亿。Databricks估值1340亿美元，增长率远超同类。Tomer Tunguz 博客（VC 分析） ↗

21. 泄露文件显示OpenAI年营收130亿但亏损远超收入

OpenAI 2025年营收130.7亿美元，研发成本191.8亿（含向微软支付105.9亿），运营亏损209.2亿，净亏损约390亿（扣除一次性费用后约80亿）。ChatGPT周活超9亿，付费约5000万。已关闭Sora并削减非核心业务以控成本。Hacker News 热门（buzzing.cc 中文翻译） ↗

22. 消息称 OpenAI 今年一季度现金消耗达 37 亿美元，超同期收入的一半

OpenAI 2026年Q1现金消耗37亿美元，超过同期57亿美元收入的一半。公司已在美国保密递交IPO申请，最早9月完成，估值可达1万亿美元。IT之家（RSS） ↗

23. Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic启用首尔办公室，与NAVER、Nexon、LG CNS、Hanwha Solutions、Samsung SDS及Channel Corp等合作。NAVER部署Claude Code给数千工程师；Nexon用其编写游戏代码；LG CNS推广至整个LG集团；Samsung SDS部署Claude Cowork和Claude Code。Anthropic：Newsroom（网页） ↗

24. 头部具身大脑公司再获数亿美元融资，世界模型路线受追捧

半年三连发：从开源到端侧再到训练场。量子位 ↗

25. 九章云极发布“AI工厂”战略定义智能规模化新基建

该条目暂无摘要。量子位 ↗

政策与安全

26. Anthropic与DeepMind CEO呼吁G7组建AI联盟排除中国

Dario Amodei（Anthropic）与Demis Hassabis（Google DeepMind）在G7闭门会议提议组建美国主导联盟，以前沿模型和硬件访问权限为手段将中国排除，制定全球AI规则与标准。被视为高技术新冷战开端。X：Kim (@kimmonismus) ↗

27. 中国加紧筹建世界人工智能合作组织

中国倡议成立世界人工智能合作组织，践行多边主义与共商共建共享全球治理，旨在弥合智能鸿沟、促进AI向善普惠。初步考虑总部设在上海。同日，2025世界人工智能大会发表《人工智能全球治理行动计划》。IT之家（RSS） ↗

28. 特朗普向Anthropic提出不可能的要求暴露安全护栏困境

基于next-token predictor的LLM本质上不适合安全控制，要么限制LLM直至更好技术出现，要么承受后果。Gary Marcus：The Road to AI We Can Trust（RSS） ↗

29. 算苗3D TokenPU正式流片引领国产AI云端大算力芯片再升级

本文由算苗科技提供，量子位获授权转载，版权归原作者所有。量子位 ↗

论文与研究

30. Google AMIE系统新研究：从诊断迈向长期疾病管理

《自然》发文，AMIE利用Gemini长上下文整合共情对话与深度管理推理，盲测中在计划精确性与指南一致性上显著优于21名初级保健医生。Google Blog：AI（RSS） ↗

31. NVIDIA GEAR实验室发布ENPIRE：8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR推出ENPIRE系统，首次实现物理世界自主研究。8个Codex智能体控制8台机器人，配备硬运动限制和扭矩受限夹爪保障安全，支持通宵无人运行。自主完成扎带、整理细针、安装GPU等任务，8机器人并行探索更快。系统将开源。X：Jim Fan (@DrJimFan) ↗

32. OpenAI与Molecule.one合作：GPT‑5.4自主优化Chan‑Lam偶联反应

GPT‑5.4接入化学智能体Maria，两轮实验后平均产率从16.6%升至25.2%，产率超30%的反应占比从15.6%增至37.5%。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

33. OpenAI联合发布LifeSciBench评测基准

涵盖750个真实研究任务、7个工作流和7个生物领域，配19,020条评分标准，重点评估模型在复杂研究任务中的科学正确性与实用价值。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

34. 用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX支持Ling-2.6-1T（1T稀疏MoE）在TPU v7x上高效推理。团队开发Fused MoE V2核，融合scatter、专家FFN和gather，使MoE预填充延迟降53%、解码延迟降15%。16块TPU v7x输出吞吐量达16块H200 GPU的1.29倍。LMSYS：Blog（Chatbot Arena 团队） ↗

观点与教程

35. 预训练还不够“苦涩”

指出当前预训练的训练目标仍由人类在循环外选定，控制环路粗糙，探讨如何让这一环路更高效。CMU：Machine Learning Blog ↗

36. AI转型最大的门槛不是技术，是人

不主动改变，就只能等着被改变。量子位 ↗

37. 为什么最有价值的AI讨论总发生在知乎？

知乎记录的不只是AI，而是时代变化本身。量子位 ↗

38. 国产算力进入Token标准化时代

当前瓶颈不在芯片，而在从异构算力到可用Token之间的工程化转化能力。量子位 ↗

39. 演讲：从炒作到坚实基础——智能体的兴衰与复兴如何教会我们超越周期

Aditya Kumarakrishnan 讲解如何走出AI“失忆期”，为工程领导者提供构建模块化智能体框架的蓝图，利用CoALA和流程科学实现可扩展工作流，并将遗留环境改造为健壮的事件溯源制品。InfoQ AI ↗

人物与动态

40. Nathan Lambert更新Interconnects博客规划

披露与Arcee AI、Mercor签署咨询协议，订阅者破7万，付费约900人；运营实体成立但账户近零余额。Nathan Lambert：Interconnects（RSS） ↗

41. 星海图创始人高继扬：具身智能三层技术路线没有捷径

砸2亿为数据？星海图在WDC上发出三个信号。量子位 ↗

今日脉络

前沿模型与多模态能力 xAI的Grok 4.3在Amazon Bedrock全面可用，支持百万token上下文；MolmoMotion实现语言引导的3D运动预测；OpenAI的GPT-5.4与化学智能体协同优化反应产率。
消费级AI产品落地 Google推出99美元Gemini智能音箱，支持多步指令与连续对话；阿里云发布HappyOyster，一句话生成实时交互数字世界；Claude Design与Replit联动，设计可直接生成应用。
智能体与开发基础设施 Vercel开源AI智能体框架Eve，采用文件系统优先设计；Google发布A2UI与MCP集成架构模式；亚马逊开源Strands Robots SDK，连接Hugging Face与物理机器人。

总结

今日动态显示AI行业正从模型参数竞赛转向实用化与工程化：云平台降低前沿模型使用门槛，消费级设备与实时世界交互拉近AI与用户距离，智能体框架和硬件SDK为自动化提供坚实底座。

AI日报 · 2026-06-18

引言