引言

本期AI日报涵盖模型能力跃升、企业级产品落地、行业应用深化三大板块,聚焦开源模型进展、AI智能体办公场景接入、工业AI落地及开发基础设施更新等核心动态,梳理当日AI领域关键信息。

模型与能力

1. Fable 5在RLI基准中自动化率达16.1%,较八个月前提升六倍

Remote Labor Index(RLI)衡量AI智能体完成240个付费自由职业项目的专业质量比例,最新结果显示Fable 5自动化率达16.1%,是八个月前最佳系统2.5%的六倍多,超过Opus 4.8(8.3%)和GPT-5.5(6.3%)。因美国政府限制访问,Fable 5仅完成218个项目评估,最坏情况仍达14.6%。AI裁判会高估模型表现,仍需人类评估员使用专业软件检验细节,测试环境为配备30余款专业应用的虚拟Linux机。The Decoder:AI News(RSS) ↗

2. 葡萄牙发布开源葡语大模型AMALIA

葡萄牙高校及研究机构联合体发布首个面向葡萄牙语的开源大模型AMALIA,包含9B参数语言模型AMALIA-9B和视觉语言模型AMALIA-VL。amaliallm.pt ↗

3. 全球首个无英伟达成分的万亿模型成海外开发者抢手货

原摘要信息截断,仅提及该模型霸榜相关榜单。量子位 ↗

4. 世界模型新用途:从参赛者转向裁判角色

暂无公开补充摘要。量子位 ↗

产品与应用

5. 昆仑万维天工3.2发布Skywork Tags,AI智能体可接入工作群聊

昆仑万维天工3.2发布Skywork Tags,支持将AI智能体以团队成员身份接入Slack、飞书、钉钉等即时通讯工具,团队可在原有工作群@Skywork参与讨论,无需切换窗口或迁移数据,共享版Agent吸收团队上下文后表现优于个人版,无需改变原有工作方式即可让AI持续积累团队上下文优化表现。公众号:昆仑万维(天工) ↗

6. Claude Enterprise新增用量成本分析及支出管控功能

Claude Enterprise推出管理分析工具与成本控制功能,仪表板可按群组、用户分析用量与成本,支持SCIM群组筛选,展示各场景成本;Claude Code管理控制台新增使用量、价值选项卡,展示活跃开发者、会话次数等数据及生产力提升估算;分析聊天支持自然语言查询并导出图表,Analytics API可接入Datadog等成本管理工具;管理员可设置模型默认、权限控制及组织级支出限额告警,用户在额度达75%、95%时收到应用内提醒。Claude:Blog(网页) ↗

7. Kimi K2.7 Code开源模型正式上线GitHub Copilot

Kimi K2.7 Code开源权重模型已在GitHub Copilot正式可用,是Copilot模型选择器首个可选的开源权重模型,由GitHub托管于Microsoft Azure按用量计费,逐步向Copilot Pro、Pro+、Max计划用户推送,支持VS Code 1.127.0及以上、Visual Studio 17.14.6及以上等多款IDE及Copilot CLI等工具。Hacker News 热门(buzzing.cc 中文翻译) ↗

8. 支付宝AI助手“阿宝”开放公测,无需邀请码即可体验

支付宝AI助手阿宝今日开启公测,iOS及安卓用户可在应用商店或支付宝App搜索“阿宝”“蚂蚁阿宝”直接使用,通过对话即可办理查公积金等业务,资金变动与支付环节需用户本人确认,扫码、转账等功能已预留入口。IT之家(RSS) ↗

9. Anthropic向Pro和Max用户开放Claude Code Artifacts功能

Anthropic宣布Claude Code的Artifacts功能现已面向Pro和Max用户开放,用户可请求Claude生成交互式网页并实时发布至个人claude.ai空间。X:ClaudeDevs (@ClaudeDevs) ↗

10. Anthropic计划算力允许后将Fable恢复为订阅标配

Anthropic工程师Thariq回应社区Fable可用性问题时表示,官方目标是在算力允许后尽快将其恢复为订阅标配。Anthropic ↗

11. Arena.ai发布Code Arena Fullstack功能

Arena.ai宣布为Code Arena平台引入Fullstack功能,开发者可构建需要数据库或后端支持的复杂应用,后续将基于投票数据推出Fullstack排行榜。X:arena (@arena) ↗

12. 天工3.2重磅升级:Skywork Tags上线,为Agent赋予身份凭证,可加入用户工作群聊

支持Agent与人类协同办公。量子位 ↗

13. 支付宝Agent“阿宝”开放公测并取消邀请码限制

支付宝Agent“阿宝”宣布正式开放公测,用户无需邀请码即可在iOS或安卓端体验其优化的口语理解及全场景办事能力。微信公众号 ↗

14. 钉钉A1录音卡入选Gartner AI可穿戴设备报告

AI硬件的核心竞争力并非参数比拼,而在于背后是否具备成熟的企业级AI协作平台。量子位 ↗

15. 阿里计划整合QoderWork、悟空、MuleRun三大Agent产品

整合后现有产品将无缝升级,用户权益不受影响。ithome.com ↗

16. 科大讯飞举办智能交互生态发布会,三大平台同步升级

暂无公开补充摘要。量子位 ↗

17. 教AI与涡轮机协同运行

AI虽凭借聊天机器人、图像生成器获得公众关注,但其最具影响力的应用场景正远离消费端工具:在物理基础设施、运营连续性和安全性优先的行业中,AI正成为核心运营层,适配sprawling工业系统与持续的运营数据流。MIT科技评论AI ↗

开发与基础设施

18. Emil Kowalski发布设计工程师Skills,为AI编码工具赋予UI动画审美能力

Emil Kowalski将多年UI/动画原则沉淀为三个Skill,使Codex、Claude Code、Cursor等Coding Agents具备资深设计工程师的审美判断。核心规则包括:动画须有合理理由、高频操作禁用动画、UI动画控制在300ms内、仅动画transform和opacity属性、尊重prefers-reduced-motion设置等。review-animations Skill以严格标准审查动画代码,输出Before/After/Why表格;animation-vocabulary Skill可将模糊动画描述转化为可执行规则。X:邵猛 (@shao__meng) ↗

19. Google Health API开源CLI工具ghealth发布,支持Fitbit数据处理

ghealth是封装Google Health API v4的开源命令行工具,以Go单二进制文件发布(Apache 2.0协议),支持输出40种健康数据类型(步数、心率、睡眠等)的结构化JSON,采用Agent优先设计,附带SKILL.md供AI智能体使用,需用户自行创建OAuth凭据完成PKCE S256认证,数据来源覆盖Fitbit、Pixel Watch及第三方设备。MarkTechPost(RSS) ↗

20. Runway推出deckard控制器回收闲置推理GPU用于研究

Runway开发名为deckard的容量控制器,可在生产推理集群与研究集群间动态重分配GPU,基于预计算时间窗口提前扩容回收,每次集群间转移耗时20-60分钟,通过排队论确定目标利用率避免队列发散,实现夜间闲置GPU用于研究、白天排队等待缩短。Runway:News(网页) ↗

21. browser-use发布开源AI视频剪辑Skill「video-use」

browser-use团队推出面向Codex、Claude Code等AI编码智能体的开源Skill「video-use」,支持LLM通过ElevenLabs Scribe将音频转写为约12KB含逐词时间戳、说话人分离、事件标记的文本,仅在决策点调用timeline_view.py生成PNG帧图。技术流水线包括转写、打包、生成JSON格式EDL、ffmpeg渲染及最多3轮自评估,支持HyperFrames、Remotio等动画功能。X:邵猛 (@shao__meng) ↗

22. Agent辅助SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环,现有技能涵盖CUDA调试、内核集成、性能分析、扩散模型调优等,长期优化转向Loop Engineering。LMSYS:Blog(Chatbot Arena 团队) ↗

23. 阿里巴巴开源Page Agent库,支持自然语言操控网页DOM

阿里巴巴发布开源JavaScript库Page Agent,嵌入网页后可通过自然语言指令直接操作DOM元素,无需依赖截图或多模态模型,将实时DOM脱水压缩为FlatDomTree文本映射供纯文本模型执行操作,继承用户cookies和会话无需独立后端,支持任意OpenAI兼容端点模型,采用MIT许可证,适用于AI副驾、智能表单填充等场景,单页面范围内风险操作需服务端验证。MarkTechPost(RSS) ↗

24. AReaL 2.0开源,打造面向自演进智能体的强化学习基础设施

该项目旨在推动自演进智能体生态发展。量子位 ↗

25. 苹果首次将私有云计算服务扩展至谷歌云

苹果首次选择谷歌云运行其自有数据中心外的私有云计算服务,采用英伟达Blackwell GPU、英特尔TDX及谷歌Titan芯片,苹果保留独立的仅追加式硬件账本及双供应商认证根,AWS和Azure未参与此次合作。InfoQ AI ↗

公司与资本

26. OpenAI提议美国政府持股5%,对应估值约426亿美元

据Financial Times、CNBC报道,OpenAI提议向美国政府提供公司5%的股份,按近期8520亿美元估值计算价值约426亿美元,OpenAI CEO Sam Altman表示此举是与公众分享AI发展红利的最佳方式。X:Testing Catalog (@testingcatalog) ↗

27. 多家企业限制员工使用AI旗舰模型控成本

据内部资料,Atlassian、Adobe、亚马逊等六家企业限制员工使用AI工具,要求改用能力较低的大模型避免成本失控。花旗因GitHub改为按量计费,禁用Claude Opus 4.6、4.7及GPT-5.5等旗舰模型;Adobe终止Claude无限制使用协议;Atlassian月AI支出从500万美元飙升至1500万美元;GitHub计划改用开源模型并测试单人按量计费模式。IT之家(RSS) ↗

28. 微软成立Frontier Company,投25亿美元派驻6000名AI工程师到客户现场

微软新设业务部门Frontier Company,拨款25亿美元,将6000名行业与工程专家派驻企业客户现场共同设计、部署并持续改进AI系统,该部门由Rodrigo Kede Lima领导,定位为OpenAI、Anthropic的“平台中立”替代方案,将联合埃森哲、凯捷等系统集成商扩大覆盖范围。The Decoder:AI News(RSS) ↗

29. 快手可灵AI获20.28亿美元注资,投后估值180亿美元

快手港交所公告,21名初始投资者以20.28亿美元现金注资北京可灵,15名额外投资者追加7.66亿美元出资,投后北京可灵估值180亿美元。快手预计12个月内启动可灵AI港交所上市,募资用于扩充算力、建设数据中心及人才引进。IT之家(RSS) ↗

30. 谷歌AI建设推动2025年用电量同比增长37%

2025年谷歌年度用电量同比上涨37%,创历史最大增幅,数据中心全年消耗超4200万兆瓦时,超过新西兰、丹麦、尼日利亚等国总用电量。自2019年以来谷歌总用电量增长超250%,用电激增主要来自Google Cloud、YouTube及AI相关数据中心的建设运营。谷歌称AI基础设施建设速度超过电网脱碳速度,仍致力于扩大清洁电力规模、降低运营排放,2024年用电量增幅为27%。Ars Technica:AI(RSS) ↗

31. OpenAI据悉向美国政府提议出让5%股份,估值约426亿美元

OpenAI CEO Sam Altman称此举旨在与公众分享AI发展红利。cnbc.com ↗

32. 微软成立Microsoft Frontier Company,投25亿美元派驻6000名专家

该部门将为企业客户提供不绑定单一模型的AI部署与持续改进服务。blogs.microsoft.com:Blog ↗

33. Anthropic启动自有AI芯片研发,正与三星电子洽谈制造合作

目前该芯片研发处于早期阶段。X:theinformation (@theinformation) ↗

34. NVIDIA推出收入分成合作模式,携手AI云伙伴部署大规模AI工厂

该模式旨在加速AI原生公司的训练与推理算力获取。blogs.nvidia.com:Blog ↗

35. 天工AI业务ARR突破8亿美元,有望成为国内首个非BAT阵营ARR达10亿美元的AI企业

其中AI短剧平台业务ARR超7亿美元。量子位 ↗

36. 广告营销领域企业率先冲刺A股无人驾驶第一股

其最大客户为赛力斯,单一大客户贡献全年约三成营收。量子位 ↗

政策与安全

37. Anthropic与五角大楼就Claude军事用途护栏产生分歧

WSJ法庭文件显示,Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael就Claude军事用途护栏产生分歧,Anthropic要求禁止全自主武器及部分监控用途,五角大楼希望Claude可用于所有合法国家安全场景,随后五角大楼将Anthropic列为供应链风险,阻止合作伙伴在国防部项目中使用其模型,目前法官已暂停部分措施,政府正在上诉,原有采用Anthropic的操作中已有三分之二切换至其他AI工具。X:Kim (@kimmonismus) ↗

论文与研究

38. VideoFlexTok:可变长度粗到细视频分词方法

VideoFlexTok提出可变长度token序列的视频表示方法,采用粗到细结构,首个token捕捉语义、运动等抽象信息,后续token添加精细细节,支持任意token数量的视频重建。相比传统3D网格分词,可根据下游需求调整token数,相同预算下可编码更长视频。在类别和文本到视频生成任务中,1.1B参数的VideoFlexTok达到与5.2B参数模型可比的生成质量,训练处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。Apple Machine Learning Research(RSS) ↗

39. 多智能体LLM团队难以有效利用专家成员能力

自我组织的多智能体LLM系统中,团队无法有效利用专家成员专业知识,多个基准测试中即使明确告知专家身份,团队表现仍落后于最佳专家智能体的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,团队倾向于“整合性妥协”平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关;该行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用的根本性权衡。Apple Machine Learning Research(RSS) ↗

40. 开源基准Senior SWE-Bench发布,评估AI智能体高级软件工程师能力

Senior SWE-Bench是用于评估AI智能体完成高级软件工程师任务能力的开源基准,任务分功能开发、Bug修复两类,功能任务通过专家配方生成的行为测试验证,Bug任务需结合运行时日志、profiling等信息排查。排行榜显示Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,前沿模型超75%任务未达高级工程师级别要求;单个功能任务平均涉及11个文件,最强智能体需数百步完成,中位指令长度为SWE-Bench Pro的31%。Hacker News 热门(buzzing.cc 中文翻译) ↗

41. 强化学习微调视觉语言模型的鲁棒性与思维链一致性研究

研究将强化学习微调扩展至视觉语言模型(VLM),发现简单文本扰动(误导性标题、错误思维链)会显著降低模型鲁棒性和置信度,开源模型衰退更明显,闭源模型鲁棒性和推理一致性更强。微调提升基准准确率的同时会侵蚀思维链可靠性及上下文变化鲁棒性,对抗性增强可改善鲁棒性但无法阻止忠实性漂移;引入忠实性感知奖励可恢复答案与推理对齐,但与增强结合时训练易崩溃到捷径策略,研究强调需联合关注正确性、鲁棒性与视觉推理忠实性。Apple Machine Learning Research(RSS) ↗

42. 字节Seed团队发布EdgeBench基准评估Agent环境学习能力

字节Seed团队发布EdgeBench基准测试,用于评估自主AI Agent在真实世界环境中长期学习的能力,该基准包含134个跨六大类别的任务,目前公开51个任务及完整评估框架。edge-bench.org ↗

观点与教程

43. Fable 5 仅需4.44美元即可搭建鲁布·戈德堡机械

使用Fable 5构建鲁布·戈德堡机械仅需4.44美元,相关提示词见附链。X:OpenRouter (@OpenRouter) ↗

44. 千问团队朱达:C端Agent Harness的“多快好省”工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务,执行时间降至初始1/3,Token消耗仅为海外同类产品1/10;团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,提出Agent工程已从Prompt Engineering演进至Harness Engineering,下一阶段为AIWare Engineering,强调“低功耗,够用就行”。公众号:千问APP(阿里) ↗

45. Mythos与网络安全相关讨论并非炒作

关于Mythos和网络安全的讨论并非炒作,使用Fable进行自主工作的用户已能感知到该结论。X:Ethan Mollick (@emollick) ↗

46. 借助AI实现运营卓越

精益六西格玛、业务流程管理(BPM)等框架曾因能为混乱运营提供结构化秩序而获得关注:前者强调统计严谨性与质量控制,后者绘制了跨部门工作流的端到端流程,二者都提供了可复用的运营优化路径。MIT科技评论AI ↗

人物与动态

47. AI企业家论坛首发阵容公开,千亿级实业巨头将出席

该论坛将于7月17日至7月20日举办。量子位 ↗

48. 招募|量子位RSS'26专题策划启动

活动时间为7月13日至17日,举办地为澳大利亚悉尼。量子位 ↗

今日脉络

  • 模型能力突破:Fable5自动化率六倍提升,多语言开源模型涌现
    Remote Labor Index基准显示Fable 5自动化率达16.1%,较八个月前提升六倍,超越Opus 4.8、GPT-5.5等主流模型;葡萄牙高校联合体发布首个开源葡语大模型AMALIA,包含9B参数语言及视觉语言模型。

  • 产品落地加速:AI智能体深度接入办公与生活场景
    昆仑万维天工3.2发布Skywork Tags,支持AI智能体以成员身份接入飞书、钉钉等群聊协同办公;Kimi K2.7 Code开源模型正式上线GitHub Copilot,成为首个可选的开源权重Copilot模型;支付宝AI助手阿宝开放公测,无需邀请码即可办理公积金查询等业务。

  • 行业应用深化:工业AI成核心运营层,开发基础设施持续完善
    AI正从消费端工具转向物理基础设施运营核心,适配工业系统持续数据流;Runway推出deckard控制器动态调度闲置GPU用于研究,阿里开源Page Agent库支持自然语言操控网页DOM,降低AI应用开发门槛。

总结

整体来看,当日AI行业技术落地进程持续提速,模型能力提升为专业场景自动化提供支撑,AI智能体接入办公生活流程降低使用门槛,工业及开发基础设施的完善进一步拓展应用边界,后续可重点关注技术落地转化及细分场景渗透进展。