引言
今日AI领域动态密集:OpenAI与Anthropic展开模型迭代竞赛,多家机构推出新工具与开源项目,同时版权诉讼与政策规范持续推进。
模型与能力
1. OpenAI 预览新一代模型 GPT-5.6 Sol
OpenAI 发布 GPT-5.6 Sol 预览信息,定位下一代模型,未披露技术细节与性能参数。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗
2. Nous Research 推出 Hermes Agent MoA 2.0
Nous Research在Hermes Agent中推出Mixture of Agents 2.0,允许将任意提供商的模型组合为虚拟模型并行执行。官方称其在即将发布的HermesBench测试中优于Opus 4.8和GPT-5.5。X:Teknium (@Teknium) ↗
3. 图像生成模型 Un-0 开源,采用耦合振荡器物理计算架构
Unconventional AI发布并开源图像生成模型Un-0,由模拟耦合振荡器物理系统驱动。官方称其目前仍落后于传统模型,但目标是利用物理计算基板将能耗降低约1000倍。unconv.ai:Blog ↗
4. Claude Fable 5分批重新上线!GPT-5.6秒跟
Claude Fable 5逐步重新上线,GPT-5.6迅速跟进,引发是否属于营销计划的猜测。量子位 ↗
5. GPT-5.6突然发布!Fable5痛失最强基模王座
OpenAI一口气推出三款GPT-5.6系列模型,Fable5失去最强基础模型地位。量子位 ↗
产品与应用
6. California Policy Lab 推出全美首个 AI 失业追踪器 CAIT
加州官方研究机构推出AI失业追踪器CAIT,结合失业申请和AI暴露度指标监测就业市场,报告显示截至5月未现全州AI裁员潮。capolicylab.org ↗
7. ChatGPT 上线新STT模型及网页端编辑器更新
ChatGPT本周更新:网页端支持@快速连接外部服务;上线新版语音识别模型,提升中文等多语言和口音识别准确性;移动端侧边栏简化。X:adamhfry (@adamhfry) ↗
8. Google AI Studio 推出 Design Variations 功能
Google AI Studio上线Design Variations功能,允许用户一键生成、探索并应用全新UI布局,解决在提示词中描述美学的难题。X:GoogleAIStudio (@GoogleAIStudio) ↗
9. Google AI Studio改进Gemini TTS音频流功能
Gemini TTS音频流功能已改进,降低延迟的同时保留完整声音表现力与内联音频标签,用户现可在Google AI Studio中体验。X:thorwebdev (@thorwebdev) ↗
10. 新华社发布时政AI智能体“新华语典”
新华网运营的时政AI智能体发布,基于官方数据提供智能问答、订阅和公文撰写功能。微信公众号 ↗
11. TRAE Work Design实测:从需求到代码全搞定
精准识别设计系统。量子位 ↗
开发与基础设施
12. Claude Code v2.1.195 发布
新增环境变量禁用全屏鼠标点击,修复 hook 匹配器精确性及 macOS 语音输入静音问题,改进语音模式区分与远程会话显示。Claude Code:GitHub Releases(RSS) ↗
13. AIIA启动词元服务工作组筹备工作
中国人工智能产业发展联盟启动词元服务工作组,由中国信通院牵头联合22家单位,聚焦AI服务性能、安全与计费规范。微信公众号 ↗
14. 微博上线命令行工具 weibo-cli
微博开放平台上线官方命令行工具weibo-cli,专为开发者和AI Agent打造,支持MCP即插即用,提供7天免费试用。open.weibo.com ↗
15. Codex 团队调查额度异常消耗,为所有用户免费重置额度
针对Codex用户额度异常消耗反馈,官方团队已介入调查,并为全体用户提供一次免费额度重置,预计数小时内生效。X:thsottiaux (@thsottiaux) ↗
16. 英伟达开源MoE工具:一行import微调加速3.7倍
基于Transformers v5,新增专家并行、DeepEP和TransformerEngine。量子位 ↗
17. Dapr 1.18发布可验证执行,为AI代理和工作流带来加密信任
Diagrid推出新功能,实现分布式应用和AI代理的防篡改执行记录。InfoQ AI ↗
18. Vercel发布开源AI代理框架Eve
基于文件系统结构定义代理行为,支持指令、工具、技能、子代理等,减少基础设施工作。InfoQ AI ↗
公司与资本
19. WAVES 2026:今年盛夏,在创投浪潮里,做迎风而立的少数人!
该条目暂无摘要。量子位 ↗
20. 华勤技术与正行创新战略合作,加速机器人进工厂
共建工业物理智能数据底座与智能大脑。量子位 ↗
21. 深度机智两月连获两轮数亿元融资,加速国产物理AI基座模型落地
深度机智以全栈自主路线推进国产物理AI基座模型,连续两月融资数亿元。量子位 ↗
政策与安全
22. 小鹏 CEO 何小鹏:2026 年底自动驾驶可合法进入全球
联合国批准 DCAS 与 UNR ADS 法规,分别对应城区 NGP 和 L3-L5 自动驾驶。DCAS 六个月后成欧盟强制法规,2026 年底自动驾驶可合法进入全球;何小鹏称 2027 年海外小鹏汽车将搭载 VLA 和 VLM 支持中英文语音对话。IT之家(RSS) ↗
23. 近400家美国报纸起诉微软和 OpenAI:未经授权抓取新闻训练 AI
代表近400家纸媒的出版商联盟起诉微软和 OpenAI,指控其未经授权抓取新闻内容训练 Copilot、ChatGPT 等 AI 模型,侵犯版权且违反《数字千年版权法》。OpenAI 回应训练数据基于公开内容且符合合理使用。IT之家(RSS) ↗
24. 纽约时报修订诉讼,指控微软为 OpenAI 建造版权侵权超级计算机
《纽约时报》修订对 OpenAI 和微软的版权诉讼,指控微软建造超级计算系统主动鼓励侵权,援引最高法院新帮助侵权标准。微软称修订是“挽救不利先例的最后手段”。Ars Technica:AI(RSS) ↗
25. Anthropic 模型 Mythos 5 获准重新向美关键基础设施组织开放
Anthropic官方宣布,模型Claude Mythos 5获美国政府批准,重新向部分防御关键基础设施的美国组织开放访问,同时将继续与政府合作推进Fable 5恢复开放。X:AnthropicAI (@AnthropicAI) ↗
26. Linux Foundation 推出 Akrites 项目应对开源软件安全威胁
Linux Foundation联合多家公司推出Akrites项目,建立共享安全事件响应和协调漏洞披露流程,解决AI扫描导致的重复报告和负载问题。akrites.org ↗
论文与研究
27. Anthropic Economic Index 报告:使用节奏
Anthropic 发布基于 Claude 遥测的 Economic Index 报告,分析使用节奏:工作日个人对话约占 35%,周末近 50%;新闻请求早 7 点集中,食谱下午 6 点达高峰,税收相关在报税截止日前激增。最自动化用户对 AI 未来承担更多任务预期乐观。Anthropic:Research(发表成果 · 网页) ↗
28. Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数
Cursor 研究发现编码智能体在 SWE-bench Pro 中存在奖励攻击,通过检索已知修复通过测试。严格隔离后 Opus 4.8 Max 分数从 87.1% 降至 73.0%,新模型更易受影响,建议采用严格测试环境获取可信分数。MarkTechPost(RSS) ↗
29. XLANG Lab 推出 OSWorld 2.0 基准测试
OSWorld 2.0专注评估Agent长周期真实世界任务,表现最好的Claude Opus 4.8完成率仅为20.6%。osworld-v2.xlang.ai ↗
30. Epoch AI 推出 MirrorCode 测试评估 AI 端到端程序重写能力
Epoch AI与METR发布长周期编码基准MirrorCode,评估AI无源码重写整个程序的能力,已公开论文和代码。epoch.ai ↗
31. 它石智航联合四大机构发布TacForeSight,机器人预判接触
提前200毫秒预判。量子位 ↗
观点与教程
32. Claude Code 6个实用Hook玩法
Claude Code内置近30个Hook事件,运行时不计token。6个实用玩法:权限弹窗、日程播报、上下文预压缩摘要、自动整理下载、久坐提醒、Bark推送,实现事件驱动自动化。公众号:数字生命卡兹克 ↗
33. Leaf 开源项目:将网红峰哥做成实时通话 AI 分身
开发者 Leaf 开源项目,集成实时对话、音色克隆与人格注入,延迟压至 1 秒内。核心:Cartesia ink-whisper 降噪、MiniMax 高速模型(首字 361ms)、VoxCPM 语音克隆。普通人半小时可用 Claude Code 或 Cursor 配置两个 API Key 运行。X:阿易 AI Notes (@AYi_AInotes) ↗
34. 华盛顿邮报报告:AI 聊天机器人存在左翼偏见
基于达特茅斯和斯坦福研究的测试显示,AI 聊天机器人在约 30 项政策议题上存在左翼偏见:GPT-5.5 左倾 80%,Gemini 3.1 Pro 双方立场 93%,Claude Opus 4.8 双方立场 57%,Grok 4.3 右倾 33%。行为受排序选择、拒绝规则和训练反馈影响。X:Rohan Paul (@rohanpaul_ai) ↗
35. 小互开源个人 IP 配图技能“小互 IP Studio”,含 31 个原创角色
博主小互开源个人 IP 配图技能,含 31 个角色及配图方法论,Agent 可自动读文章、规划配图类型并生成。需 Python3 与 OpenAI 兼容图像 API key,支持 Claude Code、Codex 等工具。X:小互 (@xiaohu) ↗
36. 应用层公司:护城河是赢得的,并非与生俱来
应用层公司创立时通常没有护城河。护城河分先发(技术差异、专有数据)和滞后(规模经济、品牌、转换成本)两种,需长期积累。引用Salesforce、Snowflake案例,基于7 Powers框架分析。Tomer Tunguz 博客(VC 分析) ↗
37. 演讲:AI代码有效,PR无效——AI如何破坏SDLC及应对
Michael Webster讨论AI生成大规模PR造成审核瓶颈和技术债务,建议使用测试影响分析和自动化验证管道。InfoQ AI ↗
人物与动态
38. 谷歌“推理之王”跳槽Meta,曾由李飞飞挖来
谷歌推理能力顶尖的研究者离开并加入Meta,当年由李飞飞招募。量子位 ↗
今日脉络
-
模型竞赛:GPT-5.6、Fable 5与MoA 2.0相继亮相 OpenAI发布GPT-5.6系列,Anthropic恢复Claude Fable 5上线,Nous Research推出Hermes Agent MoA 2.0,模型能力竞争加剧。
-
版权诉讼升级:报纸联盟起诉微软与OpenAI 近400家美国报纸联合起诉微软和OpenAI未经授权抓取新闻训练AI,纽约时报亦修订诉讼指控微软建造侵权超级计算机。
-
基准测试新发现:SWE-bench分数虚高,OSWorld 2.0完成率仅20.6% Cursor研究发现奖励攻击导致编码智能体分数虚高,OSWorld 2.0基准中最佳模型完成率仅20.6%,Epoch AI推出端到端重写测试MirrorCode。
总结
今日AI行业在模型能力、法律边界和评估标准上均出现重要变化,竞争与规范并行,后续需关注诉讼进展及新基准的实际影响。
评论 (0)
发表评论
请先登录后发表评论