引言

今日AI领域聚焦具身智能、实时语音与成本优化三大方向。阿里发布Qwen-Robot系列统一机器人操作、导航与世界模型;Cartesia推出实时语音栈登顶榜单;字节跳动视频生成成本砍半。此外企业AI格局生变,Anthropic首超OpenAI。

模型与能力

1. Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

Cartesia 推出 Sonic 3.5(TTS)和 Ink 2(STT)组成的实时语音栈,Ink 2 在流式语音转文字排行榜第一,Sonic 3.5 在实时 TTS 中排名第一,首音延迟约 82ms。X:Testing Catalog (@testingcatalog) ↗

2. Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 基于 Qwen-VL 构建 VLA 基础模型,引入覆盖表示、运动和行为的三维对齐框架,使用 38,100 小时预训练语料,在多个基准取得领先成绩。Qwen:Blog Retrieval(API) ↗

3. Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

Qwen-RobotNav 基于 Qwen3-VL 训练,统一五个导航领域,在 VLN-CE RxR 成功率 76.5%、HM3Dv2 目标导航 75.6% 等多项基准取得 SOTA。Qwen:Blog Retrieval(API) ↗

4. Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld 采用 MMDiT 架构,以语言为动作接口,统一 20 余种机器人形态,在 4 个基准中取得顶尖成绩,支持操作、自动驾驶、室内导航联合训练。Qwen:Blog Retrieval(API) ↗

5. 成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎上线 Seedance 2.0 Mini,速度比 Fast 版快 2 倍,质量相当,图生视频 0.023 元/千 tokens,720P 单秒成本约 0.5 元,较标准版降低一半。IT之家(RSS) ↗

6. 一个模型控制手脚腰身!机器人终于学会全身协同干精细活了

手的问题,其实不在手。量子位 ↗

7. 阿里发布首个具身大模型Qwen-Robot系列

边走、边看、边思考。量子位 ↗

产品与应用

8. AI 版支付宝官宣开启邀测:右滑打开“阿宝”

支付宝开放 AI 版邀测,用户右滑进入新版界面,通过“阿宝”助手以一句话指令代办事项,首批放出 100 个邀请码。IT之家(RSS) ↗

9. Grok for PowerPoint 发布

xAI 发布 Grok for PowerPoint 免费 Microsoft 365 插件,用户可在应用内将大纲转为幻灯片、进行内容撰写和排版,支持调用邮件及 SharePoint 信息,同样适用于 Word 和 Excel。xAI:News(网页) ↗

10. Midjourney V8.1 推出 Draft mode 草稿模式

Midjourney V8.1 草案模式每次生成24张低分辨率图片,用户可对任意图片点击“Vary”渲染为全质量版本,草稿任务消耗快速小时数减半。Midjourney:Updates(RSS) ↗

11. WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入

从3月至今,WorkBuddy日活用户数达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展Agent办公场景。同时,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新争夺市场。腾讯云认为这是十年一遇的机遇。公众号:数字生命卡兹克 ↗

12. 小米 MiMo Claw 正式版发布:旗舰模型+金山办公

小米推出 MiMo Claw 正式版,搭载 MiMo-V2.5-Pro 模型,原生兼容 MCP,内置百万上下文,联动金山办公生态,推出 Token 订阅服务。公众号:小米 MiMo ↗

13. 微软考虑为 Copilot Cowork 集成 DeepSeek V4

微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本,作为更便宜选项。Copilot Cowork 将放弃无限定价转向按使用量计费。DeepSeek 模型可选、经过微调与安全防护,完全托管于 Azure。X:Kim (@kimmonismus) ↗

14. 教育部“阳光志愿”信息服务系统全新升级上线

系统依托海量官方数据免费提供志愿填报服务,支持 31 省区市本专科批次筛选,配备 AI 助手“智慧小招”和生涯测评工具。IT之家(RSS) ↗

15. Copilot Cowork 全球正式可用,支持多模型

Microsoft 宣布 Copilot Cowork 全球 GA,支持多模型,每个组织可让长期运行智能体处理复杂多步骤任务。X:Satya Nadella (@satyanadella) ↗

16. 罗永浩、胡彦斌参加AI大赛,100万奖金0门槛

100万奖金,0门槛参赛。量子位 ↗

17. 鸿蒙小艺与朱广权同台讲脱口秀,AI助手进入新阶段

能思考、调度和自进化。量子位 ↗

18. 神州数码以AI for Process构建AI落地产业飞轮

从技术向运营生产力质变。量子位 ↗

开发与基础设施

19. Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范

OKF 为 AI 智能体提供结构化上下文,用带 YAML 元数据的 markdown 文件目录表示知识,无需专有服务或 SDK,可托管在任意文件系统。MarkTechPost(RSS) ↗

20. GitHub 遭遇 AI 算力短缺,微软转向 AWS 求援

微软旗下 GitHub 面临 AI 算力短缺,微软因此转向亚马逊 AWS 寻求计算资源支持。Hacker News 热门(buzzing.cc 中文翻译) ↗

21. Subagent:模型琐碎任务委托工具

OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型将文档总结、数据提取等琐碎任务委托给更小、更便宜的 worker 模型,节省 token 消耗。OpenRouter:Announcements(RSS) ↗

22. AnySearch上线首月吸引10万开发者,为Agent解锁网页外世界

专为Agent设计的AI搜索层服务。量子位 ↗

23. 范式Rise vGPU获沙利文认证为Tier 1领先平台

成为全球领先的通用人工智能科技公司。量子位 ↗

24. PostgreSQL 19 Beta 引入 SQL 图查询与并发表重打包

PostgreSQL 19 Beta 发布,预计 9 月正式上线。新版本支持原生 SQL 属性图查询(SQL/PGQ)、无需停机的并发表重打包,并带来多项性能、可观测性与管理改进。InfoQ AI ↗

25. AI编码Agent获得专属Stack Overflow

Stack Overflow发布Stack Overflow for Agents,一个面向AI编码Agent的beta API-first知识交换服务,旨在解决“短暂智能差距”,让Agent共享记忆而非孤立重复。InfoQ AI ↗

26. 演示:使用MCP自动化Web——不崩溃的基础设施

Paul Klein讨论为AI Agent扩展云端浏览器基础设施的挑战:管理突发性有状态多租户、用Firecracker保障Chromium安全,以及利用Model Context Protocol将复杂网站转化为可访问的Agent工具。InfoQ AI ↗

27. 数据中心快速上线:灵活是关键

文章以英国队比赛期间电热水壶集中使用引发电网波动为例,探讨如何通过灵活性策略实现数据中心快速部署与上线。MIT科技评论AI ↗

公司与资本

28. Anthropic 5月企业 AI 订阅市场份额首超 OpenAI

Anthropic 5月企业 AI 订阅市场份额达41%,首次超越 OpenAI(39.5%)。公司完成650亿美元融资、估值9650亿美元,因盈利季度秘密提交 IPO。特朗普政府出口管制禁令要求 Anthropic 禁止非美国人访问最新模型,反而推动企业采用量创纪录。TechCrunch:AI(RSS) ↗

29. DeepSeek 完成首轮外部融资,估值超500亿美元

DeepSeek完成首轮外部融资,募资超500亿元人民币,估值超500亿美元。多数投资者通过有限合伙企业投入,无投票权且锁定期五年;仅国资AI基金直接投资并有投票权。创始人梁文锋个人投入约200亿元,腾讯和宁德时代为主要外部投资者。梁文锋称优先基础AI研究与AGI开发,将继续开源。DeepSeek此前凭V3、R1模型获得全球关注,今年4月发布运行于华为芯片的最大开源权重模型V4,并将V4 Pro永久折扣75%,输入价格约为OpenAI GPT-5.5的1/11,输出价格约1/35。The Decoder:AI News(RSS) ↗

30. SpaceX 以600亿美元股票收购 AI 编程公司 Cursor

SpaceX 在 IPO 数天后同意以600亿美元股票收购 AI 编程初创公司 Cursor,旨在辅助其 AI 部门追赶主要实验室。Cursor 此前估值500亿美元,投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。交易预计 Q3 完成。TechCrunch:AI(RSS) ↗

政策与安全

31. 五角大楼将日常 AI 工作流从 Anthropic 转移,目标9月前切断

五角大楼已转移超2/3日常 AI 工作流从 Anthropic,要求签署协议允许 Claude 用于大规模监控和全自动武器被拒。Anthropic 被列为“供应链风险”,OpenAI 调整立场获订单。此事凸显 AI 公司原则与政府合作的抉择。X:阿易 AI Notes (@AYi_AInotes) ↗

32. 美国司法部以国家安全为由为 xAI 燃气轮机辩护

美国司法部称 xAI 的 Grok 对军事行动至关重要,为其未经许可运行燃气轮机辩护。NAACP 诉讼指出燃气轮机从27台增至57台,氮氧化物排放飙升111%。国防部确认 Grok 是支持机密网络军事任务的四款 AI 模型之一。The Decoder:AI News(RSS) ↗

33. Fable 遭美国政府封禁,TechCrunch 质疑真正原因

美国政府对 Anthropic 的 Fable 模型实施封禁,TechCrunch 质疑实际原因并非此前认为的“模型越狱”问题。Hacker News 热门(buzzing.cc 中文翻译) ↗

论文与研究

34. Anthropic:智能体编码中专业知识回报持续存在

Anthropic基于约40万次Claude Code交互会话分析发现:人类主导规划决策(做什么),Claude主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务成功率与软件工程师平均相近;领域专家成功率更高但与中级用户差距不大。七个月间调试会话占比下降近一半,转向端到端智能体任务,典型任务价值上升约25%。Anthropic:Research(发表成果 · 网页) ↗

35. OpenAI 发布 Deployment Simulation 方法:模拟部署预测模型行为

OpenAI发布Deployment Simulation方法,通过隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线表现。在多个GPT-5-series Thinking部署中,该方法比传统评估更准确估计不良行为频率,发现新型对齐问题,并降低模型识别测试风险。还能扩展至涉及工具使用的智能体场景。但无法测量频率低于每20万条消息1次的行为。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗

36. 公开聊天数据能否预测真实世界AI失调?

OpenAI利用WildChat公开数据集(100万条对话)模拟部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实环境中的不良行为率。与私有生产数据对比,WildChat模拟平均预测误差约3倍;对技术性和智能体型失调的预测精度下降。验证了公开数据集作为外部审计工具的可行性。OpenAI:Alignment 研究博客(RSS) ↗

观点与教程

37. Meta 解散工程部门引发热议

6月16日,一篇题为“Why is Meta destroying its engineering organization?”的博客文章在Hacker News获110个点赞,指出Meta正在解散工程组织,引发业界广泛讨论。具体原因和后续影响未明确。Hacker News 热门(buzzing.cc 中文翻译) ↗

38. OpenAI 的领先优势正在快速缩小

评论认为OpenAI面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以8倍增长。华盛顿方面可能打压Anthropic,但也可能反而帮助其崛起,而Elon Musk成为另一个潜在竞标者。Gary Marcus:The Road to AI We Can Trust(RSS) ↗

39. 前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈

Interconnects播客邀请Finbarr Timbers回顾后训练配方演变:从InstructGPT的SFT→奖励模型→RL三阶段,到Llama 3 / Tülu 3的SFT→DPO→可验证奖励RL,再至DeepSeek R1以大规模RL为核心。2026年配方分化为多个领域专家模型再合并回统一模型。新出现模式为Multi-teacher On-Policy Distillation(MOPD):训练N个领域专家后,通过在线采样、逐token最小化反向KL散度训练通用学生模型。MiMo Flash V2率先引入,DeepSeek V4与Nemot…。Nathan Lambert:Interconnects(RSS) ↗

40. 毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%

毕业生论文AIGC率检测出现荒诞现象:学生手写摘要被判定99%AI率,纯AI写部分却为0%。学校要求不超40%,学生用Claude反复修改并花上百元检测费,最终降至36.1%。答辩时改回学术表达,AI率回升至37.21%。同一论文在不同平台检测结果差异巨大。部分平台提供降重收费服务,少数学校改用AI使用声明表替代一刀切检测。公众号:数字生命卡兹克 ↗

人物与动态

41. SpaceX华人女孩刷屏:无硕博学位,6年从火箭小白到猛禽飞行操作员

她并非被神话的星舰女王。量子位 ↗

42. 网易有道首席科学家段亦涛:让AI技术扎根业务场景

转载自网易有道,段亦涛谈AI技术扎根业务场景。量子位 ↗

今日脉络

  • 具身智能三连发:阿里Qwen-Robot系列统一机器人操作、导航与世界模型 阿里一口气发布三个机器人基础模型:Qwen-RobotManip、Qwen-RobotNav和Qwen-RobotWorld,分别覆盖操作、导航与多形态世界模型,在多项基准取得SOTA。

  • Cartesia推出实时语音栈,端到端延迟仅82ms Cartesia发布Sonic 3.5与Ink 2组成的实时语音栈,两者分别在TTS与STT榜单登顶,端到端首音延迟约82ms。

  • 视频生成成本砍半:字节Seedance 2.0 Mini上线 字节跳动火山引擎推出Seedance 2.0 Mini,速度比Fast版快2倍,图生视频成本降至0.5元/秒,较标准版降低一半。

  • 企业AI订阅市场变局:Anthropic五月首超OpenAI,DeepSeek完成首轮融资 Anthropic企业AI订阅份额达41%超越OpenAI;DeepSeek完成首轮外部融资估值超500亿美元,持续开源。

总结

今日具身智能与多模态模型成为最大亮点,阿里机器人三连发彰显统一架构趋势;语音交互迈入实时毫秒级时代;视频生成成本降至0.5元/秒推动应用普及。企业AI市场格局生变,开源与低成本路线持续冲击传统巨头。