AI日报 · 2026-05-20 - ephron's blog

模型发布/更新

1. 谷歌I/O 2026：Gemini进入自主代理时代

谷歌在I/O 2026大会宣布Gemini进入自主代理时代，其新功能可自动执行复杂任务，如管理邮件、安排日程，显著提升工作效率。Google Blog：AI（RSS） ↗

2. 谷歌发布多模态生成模型Gemini Omni

谷歌推出Gemini Omni全能模型，能从图像、文本等任意输入生成高质量视频，并具备物理推理能力。该模型代表了多模态理解和生成的新突破。IT之家（RSS） ↗

3. 谷歌发布全天候个人AI代理Gemini Spark

谷歌发布Gemini Spark，定位为可代表用户工作的全天候个人AI代理，标志着Gemini从问答助手向任务执行助手的转变。X：Gemini (@GeminiApp) ↗

4. Qwen最新3.7 Max预览版发布

Qwen（通义千问）发布3.7 Max预览版，在文本和视觉领域均表现强劲，被评价为达到国产第一水平。量子位 ↗

产品与工具

5. 谷歌推出基于Gemini 3.5的智能搜索框

谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框，整合AI Overviews与AI Mode，支持文本、图像、视频等多模态跨模态推理查询。X：Google AI (@GoogleAI) ↗

6. Google Workspace新增语音功能及AI设计工具

谷歌为Gmail、Docs等Workspace应用增添新语音功能，并推出全新设计工具Google Pics，旨在提升工作协作效率。Google Blog：AI（RSS） ↗

7. Anthropic为Claude智能体平台推出自托管沙箱与MCP隧道

Anthropic为其Claude智能体托管平台新增自托管沙箱与MCP隧道功能，允许企业在自有基础设施上安全运行智能体并连接私有网络资源。Claude：Blog（网页） ↗

8. Claude Managed Agents登陆Cloudflare

Cloudflare宣布与Anthropic的Claude Managed Agents深度整合，提供全球范围内的隔离执行环境，支持开发者扩展代理工作流。Cloudflare Blog ↗

开发与工程

9. Ramp利用Gemini API构建高级财务代理

金融科技公司Ramp利用Gemini API中的新托管代理功能，在不接触后端基础设施的情况下构建了高级财务代理。X：Google AI for Developers (@googleaidevs) ↗

10. Google Flow与Gemini Omni结合创作电影级故事

谷歌展示Google Flow与最新Gemini Omni模型的结合，能创作更具电影感的故事，具备批量编辑、改进角色一致性等功能。X：Google DeepMind (@GoogleDeepMind) ↗

11. Claude智能体操作真实界面的生产实践指南

Anthropic分享Claude智能体在生产环境中操作真实用户界面的实践指南，涵盖提高点击准确性、保持上下文及记录可重放演示等技巧。X：Claude Devs (@ClaudeDevs) ↗

12. AI代理集成新方案：单一技能连接万种API

Membrane推出一种通用“技能”解决方案，使Claude Code、ChatGPT等主流AI代理能用一条指令调用超过一万个外部服务API，简化集成逻辑。X：Rohan Paul (@rohanpaul_ai) ↗

13. Forge：提升8B模型工具调用可靠性的防护层

开源项目Forge通过错误解析、重试提示等防护机制，将8B参数模型在复杂多步骤智能体任务中的表现从53%大幅提升至99%。Hacker News：AI 热帖 ↗

14. NVIDIA开源首个4-bit超长视频生成基础设施

NVIDIA开源LongLive 2.0，这是首个支持4-bit量化的端到端长视频生成框架，在5B模型上实现45.7 FPS的生成速度。X：Berry Xia (@berryxia) ↗

15. 国内首个全栈具身智能仿真平台发布

国产GPU相关团队发布国内首个全栈具身智能仿真平台，旨在推动具身智能的研发与应用。量子位 ↗

行业与公司

16. 谷歌每月处理超3200万亿Token，同比增长7倍

谷歌在I/O大会宣布，其AI业务指标大幅增长，每月处理Token超3200万亿，同比增长7倍，Gemini App月活用户突破9亿。IT之家（RSS） ↗

17. OpenAI：ChatGPT图像生成周使用量突破15亿次

OpenAI宣布，人们每周在ChatGPT中生成超过15亿张图像，研究员将探讨Images 2.0发布以来的新用例和趋势。X：OpenAI (@OpenAI) ↗

18. Anthropic将与教皇共同发布人工智能通谕

Anthropic联合创始人将于2026年5月与教皇利奥十四世共同发布首个人工智能通谕，标志着科技企业与宗教领袖在AI议题上的合作。Hacker News 热门（buzzing.cc 中文翻译） ↗

19. AMD苏姿丰上海演讲：AI重新定义计算每一层

AMD CEO苏姿丰在上海表示，AI正在重新定义计算的每一层，并强调了AMD持续加码中国开发者生态建设。量子位 ↗

20. 百度无人车周订单破35万，单城已开始盈利

百度无人车周订单量突破35万，并已开始在单个城市实现盈利，目前已落地全球27个城市。量子位 ↗

21. Cursor新模型引热议，被指套壳并获马斯克关注

Cursor发布的新模型因性价比高（1/10成本、Opus 4.7级表现）引发讨论，同时被质疑“套壳Kimi”，并受到埃隆·马斯克的公开吆喝。量子位 ↗

论文与研究

22. 研究发现人类说服技巧对AI同样有效

一项发表于PNAS的研究发现，经典的人类说服技巧能以“类人”的方式有效提高AI的顺从率，但新模型对此抵抗力更强。X：Ethan Mollick (@emollick) ↗

23. 腾讯混元开源古代汉字视觉感知评估基准

腾讯混元开源Chronicles-OCR基准，用于评估视觉大模型对古代汉字（从甲骨文到草书）的感知能力，包含7种书体与2800张图像。X：腾讯混元 (@TencentHunyuan) ↗

24. 首个实时多智能体世界模型Agora-1发布

奥德赛实验室推出全球首个实时多智能体世界模型Agora-1，允许多人与AI在同一个模拟世界中实时互动，并提供可玩预览。X：Berry Xia (@berryxia) ↗

人物与花絮

25. 安德烈·卡帕西加入Anthropic

著名AI研究员安德烈·卡帕西宣布加入Anthropic，希望重返大语言模型研究前沿。此举标志着顶尖人才向AI安全领域流动。The Decoder：AI News（RSS） ↗

观点与教程

26. 百度提出智能体时代核心指标：DAA

百度提出新指标DAA（每日活跃智能体），将其类比为智能体时代的DAU，用于追踪智能体实际完成的工作产出。X：百度 Baidu (@Baidu_Inc) ↗

27. Claude Code转用HTML作为主要输出格式

Claude Code团队正从Markdown转向HTML作为主要输出格式，因其在信息密度、视觉结构、交互性方面更具优势。Claude：Blog（网页） ↗

28. Anthropic与全球多元群体对话以拓宽AI伦理视野

Anthropic为构建负责任的AI，正与全球多个宗教、哲学传统学者对话，为Claude等模型的价值观对齐提供多元视角。Anthropic：Newsroom（网页） ↗

AI日报 · 2026-05-20