AI日报 · 2026-05-21 - ephron's blog

模型发布/更新

1. Qwen3.7系列模型发布：主打Agent能力，多模态交互升级

通义千问团队发布面向智能体（Agent）时代的旗舰模型Qwen3.7-Max，在编程、办公自动化与自主任务执行方面表现领先。同时推出Qwen3.7模型，集成聊天、图像视频理解、文档处理、工具调用等全方位能力，推动多模态交互向综合自主方向发展…qwenlm.github.io ↗

2. 千问发布实时同传翻译大模型Qwen3.5-LiveTranslate

通义实验室发布实时同传翻译模型Qwen3.5-LiveTranslate-Flash，支持60种语言音频输入和29种语言语音输出，并具备实时跨语言音色克隆能力。qwen.ai ↗

3. Cohere发布开源模型Command A+，专精智能体任务

Cohere发布基于218B总参数MoE架构的开源大模型Command A+，整合视觉与推理能力，专注于Agentic任务。cohere.com ↗

4. Stability AI发布Stable Audio 3.0系列音频模型

Stability AI推出Stable Audio 3.0系列音频生成模型，其中小号和中号版本以开放权重形式发布，支持生成最长6分钟的音频，并可在一定限制下免费商用。stability.ai ↗

5. NVIDIA开源SANA-WM模型，实现分钟级可控视频生成

NVIDIA开源世界模型SANA-WM，支持基于单张图像与摄像机轨迹，在单块GPU上生成720p分辨率、长达60秒的可控视频。nvlabs.github.io ↗

6. 商汤发布SenseNova U1，实现文本与图像同步思考

商汤推出SenseNova U1模型，其核心特点是能够同时处理和思考文本与图像信息，旨在将想法直接转化为视觉叙事，推动多模态AI发展。X：商汤 SenseTime (@SenseTime_AI) ↗

7. Kling AI推出全球首个原生4K视频生成模型

Kling AI正式发布全球首个原生4K视频生成模型，专为专业内容创作设计，支持一键生成真4K画质视频，已获好莱坞团队采用。X：可灵 Kling AI (@Kling_ai) ↗

8. 智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro

智象未来发布参数量超两千亿的图像生成大模型HiDream-O1-Image-Pro，旨在向世界模型方向发展，同时公司融资持续提速。量子位 ↗

产品与工具

9. 腾讯发布操作系统级AI助手“马维斯”，三端同步上线

腾讯正式发布操作系统层级的AI助手“马维斯”，支持Windows、Mac和安卓平台同步上线。该助手与系统深度集成，可执行文档处理、图像识别、系统维护等任务，部分功能支持离线使用。IT之家（RSS） ↗

10. Google Stitch更新：AI设计助手实现全流程构建

Google为其AI设计伙伴Stitch推出多项更新，支持实时流式构建设计，允许用户在不中断流程的情况下进行编辑和互动反馈，并能导入现有代码库进行设计。X：Google AI for Developers (@googleaidevs) ↗

11. ChatGPT移动端支持Codex，实现跨设备协作

OpenAI宣布，用户现在可以通过ChatGPT移动应用使用Codex，实现随时随地提问，并在电脑上继续同一对话，支持跨设备协作。X：OpenAI Developers (@OpenAIDevs) ↗

12. OpenAI重置Codex使用限制，疑似应对Google I/O

OpenAI于5月20日宣布重置Codex的速率限制，此举疑似为应对即将召开的Google I/O大会做准备。X ↗

13. Midjourney V8.1新增反向提示功能

Midjourney为其V8模型恢复了“--no”反向提示功能，允许用户通过提示词从生成图像中排除特定元素，如人物。该功能已在V8.1中上线。X：Midjourney (@midjourney) ↗

14. MiniMax语音模型新增600余种声音

MiniMax与Together AI合作，在其平台上线了由MiniMax Speech 2.8 Turbo驱动的600多种新声音。X：MiniMax (@MiniMax_AI) ↗

15. OpenClaw发布2026.5.19更新，优化多平台体验

OpenClaw发布2026.5.19版本更新，Android Talk Mode实现实时化，Mac设置界面更清爽，并优化了xAI登录的无头模式支持。GitHub ↗

16. Hermes Agent集成xAI Grok网络搜索功能

NousResearch的Hermes Agent现已支持调用Grok模型执行网络搜索，相关功能文档已同步上线。hermes-agent.nousresearch.com ↗

17. Google发布广告AI多项更新，推出Ask Advisor测试版

Google连续发布广告与营销AI更新，包括推出跨产品Agent Ask Advisor测试版，Asset Studio即将集成Gemini Omni模型等。blog.google ↗

开发与工程

18. 智谱等联合部署ZCube网络架构，推理吞吐提升15%

智谱与相关机构联合开发并部署ZCube网络架构，通过创新设计解决了大模型推理网络拥塞问题，实现交换机与光模块成本降低33%，GPU平均推理吞吐提升15%。智谱：研究（网页内嵌数据） ↗

19. 阿里云发布磐久超节点服务器及自研芯片，推出“千问云”门户

阿里云发布磐久AL128超节点服务器及自研真武M890芯片，官方称可支持万亿参数大模型单节点运行。同时推出聚合150多款模型API的新门户“千问云”。微信文章 ↗

20. Hugging Face上线硬件页面及模型参数筛选功能

Hugging Face为Dataset Leaderboard新增按模型参数量级筛选基准测试结果的功能，并推出用于展示开源AI社区真实硬件使用情况的Hardware页面。huggingface.co ↗

21. Gemini 3.5 Flash登陆OpenCode平台

Gemini 3.5 Flash现已在OpenCode平台上线，具备极快的速度、100万上下文，定价与GLM、Kimi和DeepSeek Pro相近。X：opencode (@opencode) ↗

22. OpenRouter说明自动路由缓存机制

OpenRouter解释其缓存机制：使用自动路由时，会将会话固定在一个模型/提供商上直到缓存过期，以避免缓存未命中问题。X：OpenRouter (@OpenRouter) ↗

23. 谷歌正悄然反击针对其AI系统的操纵行为

为应对AI系统被操纵的风险，谷歌已悄然启动防御措施，以保护其AI生成内容的结果免受恶意干扰，确保搜索和AI服务的可靠性。Hacker News 热门（buzzing.cc 中文翻译） ↗

24. 多平台截图上传与内容处理的开源油猴脚本

一个开源油猴脚本，实现小红书、抖音、微信公众号截图粘贴自动上传，并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。X：Vista (@vista8) ↗

25. 开源插件为Codex App增添高级功能

一个开源项目允许用户通过安装插件增强Codex App的功能，即使通过API登录也能启用Computer Use特性并添加Goal指令，支持界面自定义。X：Vista (@vista8) ↗

行业与公司

26. OpenAI向所有YC创业公司提供200万美元API投资

OpenAI宣布向Y Combinator当前批次的每家创业公司提供价值200万美元的API信用额度投资，以换取股权，旨在支持初创公司的AI能力建设。X：Greg Brockman (@gdb) ↗

27. SpaceX与Anthropic扩大合作，提供大规模AI算力服务

埃隆·马斯克透露，SpaceX正在与Anthropic扩大合作，大规模提供AI算力服务，并与其他公司进行类似谈判，未来计划通过轨道数据中心以极高规模提供AI服务。X：Elon Musk (@elonmusk, xAI) ↗

28. 报道称OpenAI计划最快本周提交IPO申请

据《华尔街日报》报道，OpenAI正准备在未来几天或几周内秘密提交首次公开募股（IPO）申请，传闻估值最高达2万亿美元，预计最快于9月上市。wsj.com ↗

29. 消息称白宫计划建立前沿AI模型审查框架

据报道，白宫已向多家AI企业通报一项行政令计划，拟建立自愿审查框架，要求企业在发布前沿模型前最多提前90天与政府共享信息。reuters.com ↗

30. 欧盟发布《人工智能法》高风险系统分类指导草案

欧盟委员会发布关于《欧盟人工智能法》高风险AI系统分类的指导草案，旨在为系统分类提供明确标准，以确保欧盟范围内执法的一致性。DataGuidance：Artificial Intelligence（网页） ↗

31. Meta启动大规模裁员与重组，聚焦AI战略

Meta计划削减约8000个岗位，同时将约7000名员工调配至新的AI相关职位，此举旨在围绕AI进行内部结构重塑，集中资源于AI基础设施和商业化。X：Rohan Paul (@rohanpaul_ai) ↗

32. 软银超600亿美元投资OpenAI引发内部质疑

软银对OpenAI的投资承诺已超600亿美元，引发内部对孙正义过度信任OpenAI创始人奥尔特曼的担忧，部分高管质疑将巨额资本集中于单一公司存在风险。IT之家（RSS） ↗

33. Exa完成2.5亿美元C轮融资，估值22亿美元

AI搜索引擎公司Exa完成2.5亿美元C轮融资，估值达22亿美元，由a16z领投，致力于为AI Agent构建专属搜索引擎。a16z.com ↗

34. OpenAI推出“OpenAI for Singapore”多年合作计划

OpenAI宣布推出“OpenAI for Singapore”合作计划，承诺投入超3亿新元，并设立其美国境外的首个Applied AI Lab，以支持该国国家AI战略。openai.com ↗

35. GitHub调查内部仓库泄露事件，称客户数据暂未受影响

黑客组织TeamPCP挂牌出售窃取的约3800个GitHub内部仓库数据。GitHub确认泄露源于一名员工安装了恶意VS Code扩展，已轮换相关密钥，目前无证据显示客户数据受影响。X ↗

36. 消息称微软内部警告GitHub面临生存级风险

微软内部发出警告，称因Cursor、Claude Code等AI编程助手兴起，改变了开发者工作流，其代码托管平台GitHub正面临“生存级风险”。微软已要求部分团队统一工具链。IT之家（RSS） ↗

37. Gemini与XPRIZE联合举办全球黑客松

Google AI与XPRIZE合作，发起一场全球黑客松，旨在利用全新的智能体工具解决现实世界的挑战。X：Google AI for Developers (@googleaidevs) ↗

38. DeepSeek组建Harness团队，招聘中

据DeepSeek工作人员透露，DeepSeek正在组建一个新的Harness团队。Harness是DevOps领域的知名工具，此举可能意在加强其AI开发工具链的建设。X ↗

论文与研究

39. OpenAI宣布内部模型自主攻克数学猜想，证明已获验证

OpenAI宣布其通用推理模型自主解决了悬而未决80年的平面单位距离问题，成功推翻离散几何领域的一个核心猜想，被视为AI驱动数学研究的里程碑。openai.com ↗

40. Prompt驱动AI生成超真实足球自拍视频

一条推文展示了在PixVerse平台用于生成超真实智能手机自拍风格足球视频的复杂提示词，通过极其详细的设定来确保生成内容的连贯性和真实感。X：PixVerse (@PixVerse_) ↗

人物与花絮

41. 苏姿丰上海开讲：AI正在重新定义计算的每一层

AMD CEO苏姿丰在上海演讲时表示，AI正在重新定义计算的每一层，并强调AMD将持续加码中国开发者生态建设。量子位 ↗

观点与教程

42. Ramp工程师如何用Codex加速代码审查

Ramp工程师团队通过集成Codex与GPT-5.5模型，实现了代码审查流程的显著提速，能够在数分钟内为代码变更提供实质性反馈与改进建议。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

43. Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户

Anthropic销售负责人利用Claude Cowork自动化销售管理工作，每晚自动处理4000个账户数据，完成客户评分、简报准备及报告生成，替代了以往跨部门协作的低效流程。Claude：Blog（网页） ↗

44. 太初元碁洪源：异构计算将成为AI算力基础设施重要方向

太初元碁CEO洪源在演讲中表示，AI产业正在进入新一轮高强度算力周期，异构计算能力将成为未来AI算力基础设施的重要方向。量子位 ↗

45. VC、品牌顾问、编剧，正在批量把自己做成AI

文章探讨了不同行业的专业人士如何将自己的经验和技能转化为AI模型，实现7x24小时自动服务，从而拓展业务。量子位 ↗

46. AIDC建设正从“通用标准”走向“适用高效”

商汤大装置负责人林海探讨了AI数据中心（AIDC）的建设趋势，认为其正从追求通用标准转向追求适用与高效。量子位 ↗

47. 生成式AI是否会沦为科技行业的“越南战争”？

Gary Marcus撰文探讨，当前生成式AI的狂飙突进可能引发深度审视与社会反弹，使其陷入类似“越南战争”的泥潭，但公众的抵制也可能引导其走向更优的发展路径。Gary Marcus：The Road to AI We Can Trust（RSS） ↗

AI日报 · 2026-05-21