AI日报 · 2026-06-17 - ephron's blog

引言

今日AI领域聚焦具身智能、实时语音与成本优化三大方向。阿里发布Qwen-Robot系列统一机器人操作、导航与世界模型；Cartesia推出实时语音栈登顶榜单；字节跳动视频生成成本砍半。此外企业AI格局生变，Anthropic首超OpenAI。

模型与能力

1. Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

Cartesia 推出 Sonic 3.5（TTS）和 Ink 2（STT）组成的实时语音栈，Ink 2 在流式语音转文字排行榜第一，Sonic 3.5 在实时 TTS 中排名第一，首音延迟约 82ms。X：Testing Catalog (@testingcatalog) ↗

2. Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 基于 Qwen-VL 构建 VLA 基础模型，引入覆盖表示、运动和行为的三维对齐框架，使用 38,100 小时预训练语料，在多个基准取得领先成绩。Qwen：Blog Retrieval（API） ↗

3. Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen-RobotNav 基于 Qwen3-VL 训练，统一五个导航领域，在 VLN-CE RxR 成功率 76.5%、HM3Dv2 目标导航 75.6% 等多项基准取得 SOTA。Qwen：Blog Retrieval（API） ↗

4. Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld 采用 MMDiT 架构，以语言为动作接口，统一 20 余种机器人形态，在 4 个基准中取得顶尖成绩，支持操作、自动驾驶、室内导航联合训练。Qwen：Blog Retrieval（API） ↗

5. 成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎上线 Seedance 2.0 Mini，速度比 Fast 版快 2 倍，质量相当，图生视频 0.023 元/千 tokens，720P 单秒成本约 0.5 元，较标准版降低一半。IT之家（RSS） ↗

6. 一个模型控制手脚腰身！机器人终于学会全身协同干精细活了

手的问题，其实不在手。量子位 ↗

7. 阿里发布首个具身大模型Qwen-Robot系列

边走、边看、边思考。量子位 ↗

产品与应用

8. AI 版支付宝官宣开启邀测：右滑打开“阿宝”

支付宝开放 AI 版邀测，用户右滑进入新版界面，通过“阿宝”助手以一句话指令代办事项，首批放出 100 个邀请码。IT之家（RSS） ↗

9. Grok for PowerPoint 发布

xAI 发布 Grok for PowerPoint 免费 Microsoft 365 插件，用户可在应用内将大纲转为幻灯片、进行内容撰写和排版，支持调用邮件及 SharePoint 信息，同样适用于 Word 和 Excel。xAI：News（网页） ↗

10. Midjourney V8.1 推出 Draft mode 草稿模式

Midjourney V8.1 草案模式每次生成24张低分辨率图片，用户可对任意图片点击“Vary”渲染为全质量版本，草稿任务消耗快速小时数减半。Midjourney：Updates（RSS） ↗

11. WorkBuddy日活飙升至行业第二的3-4倍，非技术用户涌入

从3月至今，WorkBuddy日活用户数达行业第二名的3-4倍，用户不再限于开发者，大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展Agent办公场景。同时，Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新争夺市场。腾讯云认为这是十年一遇的机遇。公众号：数字生命卡兹克 ↗

12. 小米 MiMo Claw 正式版发布：旗舰模型+金山办公

小米推出 MiMo Claw 正式版，搭载 MiMo-V2.5-Pro 模型，原生兼容 MCP，内置百万上下文，联动金山办公生态，推出 Token 订阅服务。公众号：小米 MiMo ↗

13. 微软考虑为 Copilot Cowork 集成 DeepSeek V4

微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本，作为更便宜选项。Copilot Cowork 将放弃无限定价转向按使用量计费。DeepSeek 模型可选、经过微调与安全防护，完全托管于 Azure。X：Kim (@kimmonismus) ↗

14. 教育部“阳光志愿”信息服务系统全新升级上线

系统依托海量官方数据免费提供志愿填报服务，支持 31 省区市本专科批次筛选，配备 AI 助手“智慧小招”和生涯测评工具。IT之家（RSS） ↗

15. Copilot Cowork 全球正式可用，支持多模型

Microsoft 宣布 Copilot Cowork 全球 GA，支持多模型，每个组织可让长期运行智能体处理复杂多步骤任务。X：Satya Nadella (@satyanadella) ↗

16. 罗永浩、胡彦斌参加AI大赛，100万奖金0门槛

100万奖金，0门槛参赛。量子位 ↗

17. 鸿蒙小艺与朱广权同台讲脱口秀，AI助手进入新阶段

能思考、调度和自进化。量子位 ↗

18. 神州数码以AI for Process构建AI落地产业飞轮

从技术向运营生产力质变。量子位 ↗

开发与基础设施

19. Google Cloud 推出 OKF v0.1：供应商中立的 Markdown 规范

OKF 为 AI 智能体提供结构化上下文，用带 YAML 元数据的 markdown 文件目录表示知识，无需专有服务或 SDK，可托管在任意文件系统。MarkTechPost（RSS） ↗

20. GitHub 遭遇 AI 算力短缺，微软转向 AWS 求援

微软旗下 GitHub 面临 AI 算力短缺，微软因此转向亚马逊 AWS 寻求计算资源支持。Hacker News 热门（buzzing.cc 中文翻译） ↗

21. Subagent：模型琐碎任务委托工具

OpenRouter 推出 openrouter:subagent 服务器工具，允许前沿模型将文档总结、数据提取等琐碎任务委托给更小、更便宜的 worker 模型，节省 token 消耗。OpenRouter：Announcements（RSS） ↗

22. AnySearch上线首月吸引10万开发者，为Agent解锁网页外世界

专为Agent设计的AI搜索层服务。量子位 ↗

23. 范式Rise vGPU获沙利文认证为Tier 1领先平台

成为全球领先的通用人工智能科技公司。量子位 ↗

24. PostgreSQL 19 Beta 引入 SQL 图查询与并发表重打包

PostgreSQL 19 Beta 发布，预计 9 月正式上线。新版本支持原生 SQL 属性图查询（SQL/PGQ）、无需停机的并发表重打包，并带来多项性能、可观测性与管理改进。InfoQ AI ↗

25. AI编码Agent获得专属Stack Overflow

Stack Overflow发布Stack Overflow for Agents，一个面向AI编码Agent的beta API-first知识交换服务，旨在解决“短暂智能差距”，让Agent共享记忆而非孤立重复。InfoQ AI ↗

26. 演示：使用MCP自动化Web——不崩溃的基础设施

Paul Klein讨论为AI Agent扩展云端浏览器基础设施的挑战：管理突发性有状态多租户、用Firecracker保障Chromium安全，以及利用Model Context Protocol将复杂网站转化为可访问的Agent工具。InfoQ AI ↗

27. 数据中心快速上线：灵活是关键

文章以英国队比赛期间电热水壶集中使用引发电网波动为例，探讨如何通过灵活性策略实现数据中心快速部署与上线。MIT科技评论AI ↗

公司与资本

28. Anthropic 5月企业 AI 订阅市场份额首超 OpenAI

Anthropic 5月企业 AI 订阅市场份额达41%，首次超越 OpenAI（39.5%）。公司完成650亿美元融资、估值9650亿美元，因盈利季度秘密提交 IPO。特朗普政府出口管制禁令要求 Anthropic 禁止非美国人访问最新模型，反而推动企业采用量创纪录。TechCrunch：AI（RSS） ↗

29. DeepSeek 完成首轮外部融资，估值超500亿美元

DeepSeek完成首轮外部融资，募资超500亿元人民币，估值超500亿美元。多数投资者通过有限合伙企业投入，无投票权且锁定期五年；仅国资AI基金直接投资并有投票权。创始人梁文锋个人投入约200亿元，腾讯和宁德时代为主要外部投资者。梁文锋称优先基础AI研究与AGI开发，将继续开源。DeepSeek此前凭V3、R1模型获得全球关注，今年4月发布运行于华为芯片的最大开源权重模型V4，并将V4 Pro永久折扣75%，输入价格约为OpenAI GPT-5.5的1/11，输出价格约1/35。The Decoder：AI News（RSS） ↗

30. SpaceX 以600亿美元股票收购 AI 编程公司 Cursor

SpaceX 在 IPO 数天后同意以600亿美元股票收购 AI 编程初创公司 Cursor，旨在辅助其 AI 部门追赶主要实验室。Cursor 此前估值500亿美元，投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。交易预计 Q3 完成。TechCrunch：AI（RSS） ↗

政策与安全

31. 五角大楼将日常 AI 工作流从 Anthropic 转移，目标9月前切断

五角大楼已转移超2/3日常 AI 工作流从 Anthropic，要求签署协议允许 Claude 用于大规模监控和全自动武器被拒。Anthropic 被列为“供应链风险”，OpenAI 调整立场获订单。此事凸显 AI 公司原则与政府合作的抉择。X：阿易 AI Notes (@AYi_AInotes) ↗

32. 美国司法部以国家安全为由为 xAI 燃气轮机辩护

美国司法部称 xAI 的 Grok 对军事行动至关重要，为其未经许可运行燃气轮机辩护。NAACP 诉讼指出燃气轮机从27台增至57台，氮氧化物排放飙升111%。国防部确认 Grok 是支持机密网络军事任务的四款 AI 模型之一。The Decoder：AI News（RSS） ↗

33. Fable 遭美国政府封禁，TechCrunch 质疑真正原因

美国政府对 Anthropic 的 Fable 模型实施封禁，TechCrunch 质疑实际原因并非此前认为的“模型越狱”问题。Hacker News 热门（buzzing.cc 中文翻译） ↗

论文与研究

34. Anthropic：智能体编码中专业知识回报持续存在

Anthropic基于约40万次Claude Code交互会话分析发现：人类主导规划决策（做什么），Claude主导执行决策（怎么做）。领域专业知识越强，模型每次指令完成的工作量越多。各类职业完成任务成功率与软件工程师平均相近；领域专家成功率更高但与中级用户差距不大。七个月间调试会话占比下降近一半，转向端到端智能体任务，典型任务价值上升约25%。Anthropic：Research（发表成果 · 网页） ↗

35. OpenAI 发布 Deployment Simulation 方法：模拟部署预测模型行为

OpenAI发布Deployment Simulation方法，通过隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线表现。在多个GPT-5-series Thinking部署中，该方法比传统评估更准确估计不良行为频率，发现新型对齐问题，并降低模型识别测试风险。还能扩展至涉及工具使用的智能体场景。但无法测量频率低于每20万条消息1次的行为。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

36. 公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（100万条对话）模拟部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实环境中的不良行为率。与私有生产数据对比，WildChat模拟平均预测误差约3倍；对技术性和智能体型失调的预测精度下降。验证了公开数据集作为外部审计工具的可行性。OpenAI：Alignment 研究博客（RSS） ↗

观点与教程

37. Meta 解散工程部门引发热议

6月16日，一篇题为“Why is Meta destroying its engineering organization?”的博客文章在Hacker News获110个点赞，指出Meta正在解散工程组织，引发业界广泛讨论。具体原因和后续影响未明确。Hacker News 热门（buzzing.cc 中文翻译） ↗

38. OpenAI 的领先优势正在快速缩小

评论认为OpenAI面临多重危机：缺乏护城河导致市场领先地位下滑；最大投资者微软持续疏远，甚至公开考虑将主要产品外包给中国；亏损速度远超预期，年亏损额以8倍增长。华盛顿方面可能打压Anthropic，但也可能反而帮助其崛起，而Elon Musk成为另一个潜在竞标者。Gary Marcus：The Road to AI We Can Trust（RSS） ↗

39. 前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects播客邀请Finbarr Timbers回顾后训练配方演变：从InstructGPT的SFT→奖励模型→RL三阶段，到Llama 3 / Tülu 3的SFT→DPO→可验证奖励RL，再至DeepSeek R1以大规模RL为核心。2026年配方分化为多个领域专家模型再合并回统一模型。新出现模式为Multi-teacher On-Policy Distillation（MOPD）：训练N个领域专家后，通过在线采样、逐token最小化反向KL散度训练通用学生模型。MiMo Flash V2率先引入，DeepSeek V4与Nemot…。Nathan Lambert：Interconnects（RSS） ↗

40. 毕业生陷入AI检测荒诞循环：手写摘要被判99%AI率，AI写部分0%

毕业生论文AIGC率检测出现荒诞现象：学生手写摘要被判定99%AI率，纯AI写部分却为0%。学校要求不超40%，学生用Claude反复修改并花上百元检测费，最终降至36.1%。答辩时改回学术表达，AI率回升至37.21%。同一论文在不同平台检测结果差异巨大。部分平台提供降重收费服务，少数学校改用AI使用声明表替代一刀切检测。公众号：数字生命卡兹克 ↗

人物与动态

41. SpaceX华人女孩刷屏：无硕博学位，6年从火箭小白到猛禽飞行操作员

她并非被神话的星舰女王。量子位 ↗

42. 网易有道首席科学家段亦涛：让AI技术扎根业务场景

转载自网易有道，段亦涛谈AI技术扎根业务场景。量子位 ↗

今日脉络

具身智能三连发：阿里Qwen-Robot系列统一机器人操作、导航与世界模型 阿里一口气发布三个机器人基础模型：Qwen-RobotManip、Qwen-RobotNav和Qwen-RobotWorld，分别覆盖操作、导航与多形态世界模型，在多项基准取得SOTA。
Cartesia推出实时语音栈，端到端延迟仅82ms Cartesia发布Sonic 3.5与Ink 2组成的实时语音栈，两者分别在TTS与STT榜单登顶，端到端首音延迟约82ms。
视频生成成本砍半：字节Seedance 2.0 Mini上线 字节跳动火山引擎推出Seedance 2.0 Mini，速度比Fast版快2倍，图生视频成本降至0.5元/秒，较标准版降低一半。
企业AI订阅市场变局：Anthropic五月首超OpenAI，DeepSeek完成首轮融资 Anthropic企业AI订阅份额达41%超越OpenAI；DeepSeek完成首轮外部融资估值超500亿美元，持续开源。

总结

今日具身智能与多模态模型成为最大亮点，阿里机器人三连发彰显统一架构趋势；语音交互迈入实时毫秒级时代；视频生成成本降至0.5元/秒推动应用普及。企业AI市场格局生变，开源与低成本路线持续冲击传统巨头。

AI日报 · 2026-06-17

引言