AI日报 · 2026-05-12 - ephron's blog

模型发布/更新

1. SenseNova U1图像生成模型登陆ComfyUI平台

商汤SenseNova U1现已可在ComfyUI上运行，支持8步快速推理，应用场景涵盖人像、超现实艺术、文字标志等，相关资源已在Hugging Face、GitHub和Discord开放。X：商汤 SenseTime ↗

2. AntLingAGI发布万亿参数模型Ring-2.6-1T

AntLingAGI发布万亿参数旗舰"思考模型"Ring-2.6-1T，5月15日前可通过OpenRouter免费使用。核心特性包括可调节思考强度、专为智能体优化的高频工作流，以及深度思考能力。X：OpenRouter ↗

3. 腾讯混元Hy3预览版发布，专注复杂智能体任务

腾讯混元Hy3预览版开放早期体验，采用256K上下文长度和快慢思维机制的混合专家架构，面向现实世界有效性设计，具备处理复杂智能体任务的能力。X：腾讯混元 ↗

产品发布/更新

4. Anthropic开源金融AI全栈模板，定义行业落地新标准

Anthropic在GitHub开源金融服务行业AI解决方案模板库，包含10个端到端智能体、7个垂直行业插件及11家主流金融数据商的MCP连接器，覆盖投研、投行、风控等核心工作流。X：小北 ↗

5. Pareto Code以市场需求重塑模型选择

OpenRouter推出Pareto Code，利用真实市场需求观察帕累托前沿。DeepSeek V4 Pro占据首位，其次是GPT 5.4 Mini和Gemini 3.1 Pro。X：OpenRouter ↗

6. Luma Agents：从情绪板到完整广告的自动化创作

Luma Labs推出Agents功能，用户上传参考素材并设定方向后，可自动将情绪板转化为完整广告内容。X：Luma AI ↗

7. Claude Code v2.1.139版本更新

新增集中管理会话的Agent视图、可设目标持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令，修复超过20项问题。GitHub Releases ↗

8. HappyHorse AI视频引擎登陆阿里云

面向生产就绪内容的AI视频引擎HappyHorse上线阿里云Model Studio，支持复杂物理交互和原生1080p唇形同步。X：阿里云 ↗

9. Claude Code发布多任务管理工具Agent View

Claude Code推出Agent View，将所有会话集中在一个界面管理，可直观查看各Agent状态并快速切换或接管任务，类似"AI多任务调度中心"。X：小互 ↗

10. 中国移动上线AI模型中转平台MoMA，国家队入局AI基础设施竞争

中国移动推出AI模型中转平台MoMA，已接入DeepSeek、通义千问等300多个主流模型，标志"国家队"正式进入AI基础设施领域。X：阿易 AI Notes ↗

11. Anthropic在AWS上正式推出Claude平台

Anthropic在AWS上推出Claude平台，首次将全套Claude API功能引入AWS生态，由Anthropic直接运营，支持Claude托管智能体、代码执行、文件API等核心功能。Claude Blog ↗

行业动态

12. OpenAI推出DeployCo以协助企业围绕智能构建业务

OpenAI正式推出全新企业部署公司DeployCo，帮助各类组织将前沿AI技术投入实际生产并转化为可衡量的商业影响，标志其进一步深入企业服务领域。OpenAI ↗

13. AI芯片企业Cerebras IPO获20+倍超额认购，拟调升发行价近三成

Cerebras的IPO获得超过20倍超额认购，发行价区间从115-125美元上调至150-160美元，最高可筹资48亿美元，有望成为2026年以来全球最大IPO。IT之家 ↗

14. 纳德拉出庭反击马斯克诉讼案

微软CEO纳德拉在马斯克诉OpenAI案中作证，出示马斯克2016年的感谢邮件证明其当时完全支持微软与OpenAI的合作，并评价2023年OpenAI董事会解雇奥尔特曼为"业余之举"。IT之家 ↗

15. Anthropic估值五日激增2000亿美元，营收呈指数级增长

Anthropic市场隐含估值五天内从1.2万亿飙升至1.4万亿美元，年化收入从2023年的1亿美元跃升至当前450亿美元，过去12个月增长1400%。X：Kim ↗

16. 旧金山AI模型开发者盛会周三举行

旧金山将于5月13日举办下一代模型盛会，与Vercel、Anthropic和Kimi Moonshot共同参与，每位参与者可获$30 MiniMax API积分。X：MiniMax ↗

17. MiniMax组建"10x团队"，邀请领域专家共推AI跨越式发展

MiniMax宣布成立"10x团队"，邀请各领域深度专家直接参与问题定义、评估构建及工作流设计，提供全球竞争力薪酬和多地办公选择。X：MiniMax ↗

论文研究

18. 小块有大智慧：7B模型指挥前沿大模型超越单模型性能

研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型，在多个硬核基准测试中全面超越单个前沿模型的性能。X：Berry Xia ↗

19. 智能体执行能力强但优化用户立场不足

Microsoft Research通过SocialReasoning Bench测试发现，各模型智能体能够胜任执行任务，但即便在明确要求优化用户利益的指令下，仍无法持续改善用户处境。X：Microsoft Research ↗

20. BalCapRL：基于强化学习的MLLM图像描述平衡框架

Apple研究团队提出BalCapRL框架，通过多维度奖励函数解决了现有强化学习方法在追求描述效用时引发的幻觉、噪声和冗长问题，在多个基准测试中实现更均衡的性能表现。Apple ML Research ↗

技巧与观点

21. 在脚本的shebang行中使用LLM

Simon Willison介绍了一种创新方法，将LLM工具直接嵌入脚本的shebang行中，可执行从内容生成到数据查询的多样化任务，展现了LLM作为脚本解释器的强大扩展性。Simon Willison 博客 ↗

22. 开源PPT工具"鬼藏PPT技能"迎重大更新

新增瑞士国际主义视觉风格，通过接入GPT-Image 2.0可根据PPT内容自动生成胶片质感配图，支持一键生成公众号、小红书等多平台封面图。X：歸藏 ↗

23. AI工具批量生成知识产权申请材料引关注

AI已可批量生成发明专利、软件著作权等知识产权申请材料，相关skill已在GitHub开源，引发行业对知识产权体系冲击的讨论。X：小北 ↗

24. Karpathy谈人机交互界面的演进：从文本到交互式神经视频

Andrej Karpathy认为AI交互界面正从Markdown向HTML演进，终极形式将是扩散神经网络直接生成的交互式视频，并建议现阶段尝试让LLM以HTML格式结构化回复。X：Andrej Karpathy ↗

25. GPT-Image-2生图结构化提示词框架

Berry Xia分享了一套提升AI生图质量的结构化提示词框架，核心思路是"结构越清晰，输出质量越好"，涵盖画幅定义、主题明确、视觉隐喻、风格选择和文字系统规划。X：Berry Xia ↗

26. 菲尔兹奖得主亲测ChatGPT 5.5 Pro：17分钟出论文级成果

菲尔兹奖得主Timothy Gowers测试ChatGPT 5.5 Pro，AI在17分钟内独立解决了一个加法数论公开难题，产出博士论文级别成果。Gowers警告这将冲击数学研究领域，尤其博士生培养。IT之家 ↗

27. 传奇总部"Cog House"首度公开：Cognition AI的崛起之路

Cognition AI总部首次公开内部影像，创始人Scott Wu自幼展现数学天赋，三获国际信息学奥赛金牌。公司推出的AI软件工程师Devin上线18个月已实现4.45亿美元年化营收，估值约250亿美元。X：swyx ↗

28. 3.3万星AI论文学习库，收录精选视频教程

GitHub上获3.3万星标的AI论文学习资源库，系统性收集整理了来自YouTube和Bilibili的高质量AI学习视频，已按时间和主题详细分类。X：Vista ↗

AI日报 · 2026-05-12