AI日报 · 2026-06-09 - ephron's blog

引言

今日 AI 动态集中在模型能力扩展、智能体产品落地、开发基础设施完善，以及安全与研究边界的再讨论。

模型与能力

1. OpenBMB 发布 VoxCPM2 语音生成模型技术报告

面壁智能 OpenBMB 发布 2B 参数语音生成模型 VoxCPM2 技术报告。模型基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言，具备语音设计、可控语音克隆等能力，并以 Apache 2.0 开源权重、微调代码和推理工具。X：面壁智能 OpenBMB (@OpenBMB) ↗

2. 小米 MiMo-V2.5-Pro-UltraSpeed 输出突破 1,000 tokens/s

小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed，在单台标准 8-GPGPU 节点上运行 1T MoE 模型，输出速度超过 1,000 tokens/s。现提供限时免费聊天体验，UltraSpeed API 价格为 3 倍。X：小米 MiMo (@XiaomiMiMo) ↗

3. 高德发布 3D 原生城市世界模型 ABot-Earth0.5

阿里巴巴旗下高德发布 ABot-Earth0.5，已建成覆盖 190 多个国家和地区的 3D 地图。用户输入卫星图或文字描述，可在消费级 GPU 上生成公里级 3D 城市，并输出可编辑 3DGS 格式。现已开放内测申请。IT之家（RSS） ↗

4. 苹果发布第三代 Apple Foundation Models

苹果推出第三代 Apple Foundation Models（AFM）基础模型家族，与 Google 合作定制，包含五个模型，覆盖设备端到 Private Cloud Compute 服务器端，用于驱动 Apple Intelligence、全新 Siri 和智能工具。Apple Machine Learning Research（RSS） ↗

5. 高德发布 ABot-Earth0.5

高德推出 ABot-Earth0.5，采用 3D 原生方式驱动高一致性场景生成，并已开放内测。量子位 ↗

6. Gemma 4 12B 支持端侧多模态智能体工作流

Google 称 Gemma 4 12B 面向笔记本上的智能体与多模态能力，可结合 Google AI Edge 在本地构建和实验，支持数据处理、视觉洞察、网页生成和工具执行。InfoQ AI ↗

7. 用 ChatGPT 和豆包挑战高考数学

文章以高考数学题对比 ChatGPT 与豆包的表现。量子位 ↗

产品与应用

8. Runway Aleph 2.0 支持一键适配视频宽高比

Runway 的视频编辑模型 Aleph 2.0 可将现有视频适配到不同信息流和格式。用户上传视频并选择宽高比后，模型会补全画面场景。该功能可在桌面 Web 应用中试用。X：Runway (@runwayml) ↗

9. Apple Intelligence 升级日常 AI 体验

Apple 发布下一代 Apple Intelligence，将 AI 能力集成到 iPhone、iPad 和 Mac，提供更个性化、更有帮助的日常体验。Apple：Newsroom（RSS） ↗

10. ChatGPT 支持直接生成数据图表

ChatGPT 新增数据图表生成功能，可将数据和比较内容转化为图表，现已支持移动端和网页端。X：ChatGPT (@ChatGPTapp) ↗

11. NotebookLM 升级智能体能力与高级推理

NotebookLM 推出重大升级，新增对话中的智能体能力、更高级推理和多种输出格式，以处理复杂多步骤研究问题。现面向 Google AI Ultra 订阅者开放。X：NotebookLM (@NotebookLM) ↗

12. Pakistan Notice Helper 用 AI 识别可疑消息

Pakistan Notice Helper 是面向巴基斯坦用户的轻量安全工具，可在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。工具支持文本或截图输入，返回风险等级、解释、警示标志和安全建议，并支持英文和乌尔都语。Hugging Face：Blog（RSS） ↗

13. 微信AI 内测：提供自动与开发两种接入模式

微信开发者官方确认微信AI处于内测阶段。开放平台提供自动模式和开发模式，开发者可授权平台读取小程序源码，或自主开发技能供微信AI调用。用户可通过自然语言对话操作小程序。IT之家（RSS） ↗

14. 文远知行 WRD 3.0 亮相高通峰会

文远知行展示 L2++ 一段式端到端方案 WRD 3.0；广汽埃安 N60 在智驾大赛获亚军并获高通关注。量子位 ↗

15. 腾讯希望用一个入口串起企业 AI

腾讯提出以单一入口连接全栈智能体，简化企业使用 AI 的方式。量子位 ↗

16. 蚂蚁集团推出海外 AI 支付解决方案

蚂蚁集团发布面向海外的 AI 支付方案，帮助用户和商家判断智能体可信赖程度，并支持商户进行全球智能体运营。量子位 ↗

开发与基础设施

17. Apple Core AI Framework 文档引发 Hacker News 讨论

一篇指向 Apple Core AI Framework 官方文档的 Hacker News 帖子获得 109 个点赞，内容包含苹果开发者 OG 图片和 developer.apple.com 链接。Hacker News 热门（buzzing.cc 中文翻译） ↗

18. 英国借助 NVIDIA 技术推进主权 AI

英国主权 AI 计划取得进展，AI 云提供商数量翻倍，Nebius 部署三套 NVIDIA AI 基础设施，Isambard-AI 超级计算机基于 5,400 个 NVIDIA GH200 并由零碳电力驱动。主权 AI 基金还资助四家 NVIDIA Inception 初创公司。NVIDIA AI Blog ↗

19. Claude 为 Connector 开发者推出监控仪表盘

Claude 为已发布 Connector 推出性能监控仪表盘公开测试版，可追踪活跃用户、工具调用、目录排名、健康评分、错误率和延迟等指标。访问需 Team 或 Enterprise 账号权限，Connector 基于 MCP 构建。Claude：Blog（网页） ↗

20. Hivemind 推出 AI 编程智能体持续学习功能

Hivemind 发布面向 AI 编程智能体的持续学习功能，可收集团队中 Claude Code、Codex、Cursor、Hermes、Pi 等智能体轨迹，转化为可复用技能并推送给所有智能体。数据存储在用户自有云存储中，工具已开源并支持一行命令安装。X：Kim (@kimmonismus) ↗

21. Kimi Code 升级：新增视频理解与多数据源能力

Kimi Code 开源 Coding Agent 大版本升级，支持一行命令安装、毫秒级启动、视频理解、生成 LUT、长视频切片、根据录屏生成代码，并接入同花顺、天眼查等数据源。还支持 ACP 协议，可在 JetBrains、Zed 中使用。公众号：月之暗面（Kimi） ↗

22. OpenRouter Advisor 让小模型咨询高级模型

OpenRouter 推出服务器工具 Advisor，允许较小模型向更强“顾问”模型求助，以摆脱困境循环并迁移到更便宜的模型。X：OpenRouter (@OpenRouter) ↗

23. 小互开源视频翻译工具 xiaohu-video-translate

小互开源 xiaohu-video-translate，可用一句话自动完成视频下载、Whisper 本地转写、AI 翻译润色、烧字幕和生成文稿。工具支持 YouTube、Bilibili、抖音及本地文件，适配 Claude Code、Codex、OpenClaw 等 AI 编程工具。X：小互 (@xiaohu) ↗

24. Microsoft Discovery 在 Azure 上正式可用

Microsoft 宣布 Azure 平台 Microsoft Discovery GA，用于部署科学研发中的自主 AI 智能体团队，并称其支撑了 Majorana 2 量子芯片开发。InfoQ AI ↗

25. 中国团队以模拟矩阵和数字逻辑重构计算

文章介绍一家中国团队的芯片思路：让矩阵归模拟、逻辑归数字，并称其部分计算可一步完成。量子位 ↗

26. AWS 推出 DynamoDB 兼容适配器 ExtendDB

AWS 发布开源 ExtendDB，可用 DynamoDB API 连接不同存储后端，首个支持 PostgreSQL，并兼容现有 SDK 和工具。InfoQ AI ↗

27. Cloudflare 定位 ClickHouse 查询规划瓶颈

Cloudflare 发现计费流水线变慢源于 ClickHouse 查询规划阶段竞争，并通过共享锁、减少 parts list 拷贝和改进过滤进行修复。InfoQ AI ↗

28. 演讲：用 Valkey 提升应用性能

Viktor Vedmich 介绍 Valkey 的 Redis API 兼容性、懒加载等缓存策略，以及实时分析、限流和会话存储中的数据结构实践。InfoQ AI ↗

公司与资本

29. OpenAI 向 SEC 机密提交 S-1 草案

OpenAI 近日向 SEC 机密提交 S-1 草案，即首次公开募股注册声明，目前尚未决定上市时间。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

30. NVIDIA 与 LG 合作建设 AI 工厂

NVIDIA 与 LG 集团合作建设 AI 工厂，为 LG 的机器人、自动驾驶、数据中心和 GPU 云服务提供加速计算基础设施。双方将整合 NVIDIA AI 工厂平台与 LG 消费电子、机器人技术，并使用 Isaac Sim、Isaac Lab 等工具推进机器人仿真训练。NVIDIA AI Blog ↗

31. 奥尔特曼称 OpenAI 进入第三发展阶段

OpenAI CEO 奥尔特曼与首席科学家帕霍茨基发文称，公司进入第三发展阶段，目标是让 AI 普及、易用且安全。重点包括打造自动化人工智能研究员、推动经济提速、为每人配备专属通用人工智能，并呼吁成立国际机构应对 AI 风险。IT之家（RSS） ↗

32. 生数科技与华策影视共建 AI 视听创制中心

生数科技与华策影视签署战略合作协议，将以 Vidu 视频生成大模型为技术底座，共建“AI视听创制中心”，探索 AI 虚拟制作与实拍结合，并设立“华策&生数AI影视创制专业”。公众号：生数科技（Vidu·视频） ↗

33. 马斯克 SpaceX 路演 PPT 估值 1.77 万亿美元

文章解读 SpaceX 60 页路演 PPT，称其中最值得关注的不是火箭而是 AI。量子位 ↗

34. 2026 深圳新一代人工智能创业创新大赛启动

“2026 新一代人工智能（深圳）创业创新大赛”正式启动，面向 AI 创业者征集参与。量子位 ↗

35. 原力灵机入局具身智能 Picking

文章称大模型关注 Coding，具身智能关注 Picking，原力灵机已提前布局相关方向。量子位 ↗

政策与安全

36. 受 DMA 影响，Siri AI 在欧盟延迟上线

由于欧盟《数字市场法案》（DMA），Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区，具体时间未公布。Apple：Newsroom（RSS） ↗

37. AI 驱动的钓鱼攻击如何演进

文章分析 AI 如何将钓鱼从手工定向活动变为自动化、可扩展攻击，并梳理侦察、画像、内容生成、投递和交互等环节及分层防御。InfoQ AI ↗

38. Meta 事件显示 AI 安全不止于神话叙事

404 Media 报道称，攻击者利用 Meta 的 AI 客服代理窃取 Instagram 账号，通过要求代理绑定其控制的邮箱完成接管。MIT科技评论AI ↗

39. 法院如何应对 AI 生成诉讼激增

文章关注美国法院面对大量由无律师当事人提交、可能由 AI 生成的诉讼材料时的处理压力与审查挑战。MIT科技评论AI ↗

论文与研究

40. Perplexity 与哈佛研究 AI 智能体对知识工作的影响

Perplexity 与哈佛大学发表研究，比较聊天界面与 Computer 等自主智能体。三个月研究显示，使用 Computer 的工人完成任务比仅使用搜索快 87%，成本低 94%，满意度更高。X：Perplexity (@perplexity_ai) ↗

41. 研究：生物学 AI 智能体仍需确定性检索工具

Anthropic 研究让 Claude、Biomni、Edison Analysis、GPT 等科研智能体从 NCBI Virus 检索序列数据，发现最强模型也难以稳定构建可靠数据集。加入确定性检索层 gget virus 后，准确率接近 100%。研究指出，生物学数据库需面向智能体工作流改进。Anthropic：Research（发表成果 · 网页） ↗

42. 腾讯混元发布音频编辑基准 MMAE

腾讯混元联合上海交大、南洋理工等机构推出 MMAE，用于评估 AI 语音与音频编辑能力。该基准包含 2,000 个真实场景高保真样本和 17,741 条评估项，当前模型精确匹配率低于 5%。论文、代码、数据集和演示已公开。X：腾讯混元 (@TencentHunyuan) ↗

43. OpenAI 推出 Economic Research Exchange

OpenAI 启动 Economic Research Exchange，用于研究 AI 对就业、生产力和经济的影响。该项目现已开放研究项目申请。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

观点与教程

44. 奥尔特曼称 OpenAI 计划让 AI 主导大量研究

Sam Altman 在博客中称，到 2028 年 3 月，OpenAI 的大量研究将由 AI 完成。其路径包括构建自动 AI 研究员、加速科学与生产，并为每个人提供个人 AGI。X：Rohan Paul (@rohanpaul_ai) ↗

45. Claude Code GA 一周年回顾验证与自动模式

Claude Code GA 一周年之际，相关开发者回顾验证最佳实践、构建自动模式的原因、例程和循环，以及后续计划。X：Claude Devs (@ClaudeDevs) ↗

46. 邵猛开源 Brand to DESIGN.md Skill 并反思 AI 设计复刻

邵猛开源 Brand to DESIGN.md Skill，让 Agent 学习设计品味后复刻网站。他同时指出，这类复刻看多后可能从 Anti-AI-slop 衍生出新的“AI Slop”，外观相似但缺少设计精髓。X：邵猛 (@shao__meng) ↗

47. InfoQ 庆祝成立 20 周年

InfoQ 发布回顾文章，梳理其较早关注的技术趋势、当前采用曲线位置，以及未来十年的可能演进。InfoQ AI ↗

48. 文章：20 年后的技术采用曲线

InfoQ 20 周年文章回顾其早期识别的技术与实践，讨论它们在 2026 年的采用阶段，以及未来五到十年的演进可能。InfoQ AI ↗

人物与动态

49. 苹果 WWDC 2026 主题演讲直播引发讨论

苹果 WWDC 2026 主题演讲通过官网直播，相关 Hacker News 讨论热度达到 110 点。Hacker News 热门（buzzing.cc 中文翻译） ↗

50. 微软 AI CEO：超级智能将至但不会取代工作

微软 AI CEO Mustafa Suleyman 在 Decoder 访谈中表示，超级智能即将到来，但不会导致大规模失业。他还称微软与 OpenAI 新合同巩固合作，同时允许微软独立追求超级智能，并批评 Anthropic 将 Claude 描述为有意识。The Verge：AI（RSS） ↗

51. 地平线离职员工创业与余凯投资现象

文章讨论地平线人才外流及余凯投资离职创业员工的现象。量子位 ↗

今日脉络

多模态模型继续扩展可用场景 VoxCPM2 强化多语言语音生成与可控克隆，ABot-Earth0.5 则把 3D 城市生成推进到地图与消费级 GPU 场景。端侧方向上，Gemma 4 12B 与 Apple Foundation Models 都强调本地或设备端智能能力。
智能体产品进入具体工作流 NotebookLM、ChatGPT、微信AI 和 Claude Connector 仪表盘分别面向研究、图表生成、小程序操作和开发者监控，显示智能体能力正在嵌入更明确的日常与企业流程。
开发工具强调协作、复用与成本控制 Hivemind 将编程智能体轨迹转为可复用技能，Kimi Code 扩展视频理解与多数据源，OpenRouter Advisor 让小模型向高级模型求助，体现工具链在效率与可控性上的细化。
安全与研究仍在暴露边界问题 AI 钓鱼、客服代理被利用、AI 生成诉讼材料等案例提示实际部署风险；生物学智能体研究也显示，可靠任务仍需要确定性检索工具支撑。

总结

整体来看，AI 进展不只体现在模型参数或速度，也体现在是否能进入真实工作流、被开发者观测和复用，并在安全与可靠性约束下持续落地。

AI日报 · 2026-06-09

引言