AI日报 · 2026-06-24 - ephron's blog

引言

今日AI日报涵盖模型能力突破、应用协作升级与安全政策动态。视频生成、OCR、语音克隆等模型密集发布，Agent与多模态交互走向实用化，同时五眼联盟警告网络威胁，开源许可证争议持续。

模型与能力

1. FastWan-QAD：单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。单张 NVIDIA GeForce RTX 5090 上端到端生成 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。X：Sky Computing Lab (@haoailab) ↗

2. Mistral OCR 4 发布，支持边界框与 170 种语言

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。OlmOCRBench 得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。Mistral AI：News（网页） ↗

3. 京东全栈开源 JoyAI-VL-Interaction，实现主动实时视频交互

京东开源全球首个全栈交互模型 JoyAI-VL-Interaction，支持持续观察视频流、主动判断关键事件并实时响应，可委托后台 Agent 处理任务。在 58 人盲评中对比豆包视频通话助手胜率 77.6%，对比 Gemini 视频通话助手胜率 87.9%，监控预警场景 100% 胜率。开源内容包括模型权重、交互数据集、训练方案及可部署系统，支持摄像头、直播流、语音交互、长期记忆、vLLM 部署。公众号：京东JoyAI ↗

4. 字节 Seed2.1 发布，强化通用 Agent 与代码能力

字节 Seed 发布 Seed2.1 系列，面向真实生产力场景的智能体，强化通用 Agent 能力、代码工程交付与多模态理解。Seed2.1 Pro 在 GDPval 基准最高分，Agents' Last Exam 位列第一梯队；MobileWorld 手机 GUI 任务最高分，多模态 CharXiv-RQ 等多项基准取得 SOTA。代码能力 NL2Repo-Bench 表现良好，开发者评测对比 Claude Opus 4.6 胜率 59.1%。模型已在豆包、TRAE 上线，API 通过火山方舟提供。字节 Seed：Research Feed（网页内嵌数据） ↗

5. 网易有道开源 Confucius4-TTS：14 语种跨语种无口音语音克隆

网易有道推出 Confucius4-TTS，称业内首个支持 14 种语言跨语种无口音且无需参考文本即可语音克隆的开源模型。用户仅需 3 秒音频即可零样本音色克隆，相似度超 85%，任务准确度 97%。首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。全量开源（Apache 协议），提供 54GB 资源包。IT之家（RSS） ↗

6. 豆包音频生成模型 1.0 发布，支持多角色对白与长时生成

火山引擎发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条 Prompt 可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成保持多角色音色一致。支持 0 样本多模态输入，音色与风格解耦控制。一次支持 2 分钟音频创作，多次延长保持音色统一。已开启火山方舟 API 邀测，个人用户享 30 分钟创作额度，即将上线剪映、即梦、番茄等产品。公众号：火山引擎 ↗

7. 刚刚，豆包2.1发布！Agent自己跑18个小时搞定芯片设计代码

编程比肩Opus 4.7。量子位 ↗

产品与应用

8. GPT-5 帮助免疫学家 Derya Unutmaz 解开三年未解之谜

GPT-5 Pro帮助免疫学家Derya Unutmaz解决长达三年的免疫学谜团，揭示T细胞行为新见解，可能支持癌症和自身免疫疾病研究。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

9. Meta 如何为 AI 眼镜设计超窄钢壳电池

Meta为Ray-Ban Meta等智能眼镜开发宽度仅7mm的钢壳电池，采用叠片式电极降低阻抗，公差控制约100微米。Gen2电池容量从160mAh提升至210mAh，续航翻倍主要来自系统效率优化。Oakley Meta Vanguards双电池解决交叉充电问题，Meta Ray-Ban Display搭载最大248mAh钢壳电池。Meta Engineering Blog（RSS） ↗

10. Runway 推出 Seedance 4K、Seedance Mini 和 Kling 3.0 Turbo 三款模型

Runway 发布三款新模型：Seedance 4K、Seedance Mini 和 Kling 3.0 Turbo，称全球最佳模型汇聚一处。使用优惠码 30RUNWAY，前三个月可享七折优惠。现可通过下方链接开始使用。X：Runway (@runwayml) ↗

11. 千问高考志愿AI测评：多项表现超人类咨询师

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问Agent四大模块。44道事实题全对，模拟10个志愿6个可录取；100场匿名对比中专家58次倾向千问回答。辅助人类后正确率提升，耗时减少约27%。基于千问高考志愿大模型和夸克8年数据，覆盖约3000所院校。公众号：千问APP（阿里） ↗

12. Anthropic推出Claude Tag：Slack中@Claude协作

Anthropic推出Claude Tag，在Slack频道中通过@Claude委托任务，支持多用户交互、主动更新未解决线程，可自主推进项目数小时。即日起面向Claude Enterprise和Team客户提供beta版，管理员可精细控制权限和用量。Anthropic：Newsroom（网页） ↗

13. Claude Tag 的 Agent Identity 访问模型

Claude Tag推出agent identity访问模型，让Claude在共享频道中以独立身份工作，而非模拟用户。管理员在工作区级配置权限，私有频道独立身份，公共频道共享身份。该模型简化权限管理，支持自主多玩家AI场景。Claude：Blog（网页） ↗

14. Omio利用OpenAI构建对话式旅行未来

Omio利用OpenAI技术打造对话式旅行体验，加速产品开发，推动自身向AI原生公司转型。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

15. 雷鸟创新2026上半年：618销量五连冠，三大机构认证第一

实现上半年市场开门红。量子位 ↗

16. 可口可乐世界杯TVC由prompt生成

AI实时互动，陪聊足球。量子位 ↗

开发与基础设施

17. Claude Code v2.1.187发布

新增sandbox.credentials设置阻止凭证读取；模型选择器支持组织配置限制；全屏模式下菜单支持鼠标点击。修复多项问题：--resume失败、结构化输出循环、远程MCP 5分钟无响应阻塞、Remote启动延迟2.7秒、韩文粘贴乱码、子智能体深度追踪不准确等。Claude Code：GitHub Releases（RSS） ↗

18. IBM 开源 CUGA：轻量级智能体框架，支持 OpenAPI/MCP

IBM 开源 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。内置计划-执行-反思循环，在 AppWorld（2025.7–2026.2）和 WebArena（2025.2–9）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用。Hugging Face：Blog（RSS） ↗

19. huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face将huggingface_hub发布周期缩短至每周，由单个GitHub Actions工作流自动完成，依赖开源工具和GLM-5.2起草发布说明，保留人工最终审核。自动步骤包括版本号更新、标签推送、PyPI发布、发布说明草稿、Slack公告等，所有组件基于开源生态，可复制使用。Hugging Face：Blog（RSS） ↗

20. 在 Transformers.js 中实验提议的跨源存储 API

Transformers.js在浏览器运行AI模型时，不同来源Web应用重复下载相同模型和Wasm文件，因Network Isolation Key隔离缓存，单次demo产生177MB冗余。Cross-Origin Storage API提案允许跨来源共享缓存，目前可通过Chrome扩展polyfill实现。Hugging Face：Blog（RSS） ↗

21. Unlimited OCR：单次长时域解析开源项目

Unlimited OCR 是一个 GitHub 开源项目，实现单次长时域解析，旨在一次性处理长时间跨度的 OCR 任务。Hacker News 热门（buzzing.cc 中文翻译） ↗

22. 云计算一哥，让小鹏、Kimi和猎豹都爽了一把

Agentic AI爆发的拐点已然来临。量子位 ↗

23. 微软扩展Azure Kubernetes Service：支持裸机、集群管理和AI基础设施

在Build 2026上增强AKS，使其成为AI训练和推理的一流平台。InfoQ AI ↗

24. 英伟达发布机器人全栈操作系统，号称“具身版安卓”

不造机器人，为具身企业提供基础设施。量子位 ↗

25. 4亿美元芯片制造机器的未来动力

Jos Benschop介绍这台双层巴士大小的精密设备。MIT科技评论AI ↗

公司与资本

26. Oracle因AI裁员2.1万人，债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人（降幅12.9%），称AI导致劳动力缩减，重组成本18亿美元。计划2026年筹资450-500亿美元扩建Oracle Cloud Infrastructure，服务OpenAI、xAI等客户。债务超1200亿美元。Ars Technica：AI（RSS） ↗

27. 智能座舱之王「转身」物理AI，高通需要被重估了

不争最强算力，只求无处不在。量子位 ↗

28. 正行创新完成近亿美元天使轮融资，正大集团、华勤技术等联合加持

以“数据—模型—基础设施”系统性协同通往物理智能。量子位 ↗

29. 特斯拉布局AI基建，将推“算力积木”

新商标已曝光。量子位 ↗

政策与安全

30. GitHub联合开源联盟呼吁修改加州AI透明度法案

GitHub联合Black Forest Labs、Hugging Face、Mozilla组成开源联盟，要求修改加州SB 942法案。当前草案要求在下游用户未履行义务时撤销开源许可证，与许可证永久不可撤销性质冲突。联盟建议参考欧盟AI法案透明度实践，以通知替代撤销。GitHub Blog ↗

31. 五眼联盟警告AI网络威胁将影响普通用户

五眼联盟警告下一代AI模型（如GPT-5.5-Cyber、Anthropic Mythos）将降低攻击门槛，自动化智能体可全天候扫描漏洞，超个性化钓鱼诈骗在亚太蔓延。建议企业部署防御AI，个人开启多因素认证、删除闲置账户。Artificial Intelligence News（RSS） ↗

32. OpenAI助力Appia Foundation推动先进AI共享标准

OpenAI通过Appia Foundation支持制定先进AI共享标准，涵盖评估框架、安全实践与全球合作。OpenAI：官网动态（RSS · 排除企业/客户案例） ↗

论文与研究

33. AI招聘工具种族偏见研究：26%黑人15%亚裔遭系统性排斥

一项覆盖340万申请、150家雇主的大规模实地研究发现，AI招聘筛选工具存在显著种族歧视：26%黑人、15%亚裔申请者遭系统性排斥；多数雇主依赖同一第三方算法导致“算法单一文化”。对比同期未用AI的招聘数据未发现此模式。呼吁独立监管。Hacker News 热门（buzzing.cc 中文翻译） ↗

34. Krea 2 技术报告正式发布

Krea AI 发布 Krea 2 技术报告，深入解析创建模型所用的数据、架构及训练技巧。链接：https://www.krea.ai/blog/krea-2-technical-report。X：Krea AI (@krea_ai) ↗

35. 基于指标依赖的标注饱和：从标签分布中学习

在ChaosNLI数据集上微调NLI模型，发现熵相关需20-50个标注者收敛，KL散度约10个即饱和（达87%-95%）。软标签熵相关r=0.643，优于标签平滑（r≈0.45-0.49），该优势在DeBERTa、RoBERTa等模型及跨域评估中成立。标注预算应依据目标评估指标制定。Apple Machine Learning Research（RSS） ↗

36. 苹果研究：LLM评委面板高度相关，实际仅提供约2个独立投票

苹果ML团队发现，LLM-as-a-judge面板因模型间高度相关严重受限：9个前沿模型评委仅提供约2个独立投票信息量，面板准确率比理想值低8-22个百分点。增加评委或改进聚合算法收效甚微，瓶颈在于评委相关性。Apple Machine Learning Research（RSS） ↗

人物与动态

37. 华人博士57场面试进OpenAI，开源AI面经

分享面试经历，推荐开源资源。量子位 ↗

今日脉络

模型新星：视频生成、OCR与语音克隆密集发布 FastWan-QAD在单卡5090上1.8秒生成5秒视频；Mistral OCR 4支持170种语言与边界框；Confucius4-TTS实现14语种跨语种无口音语音克隆；豆包音频生成模型支持多角色对白与长时生成。
Agent与协作：从全栈交互到Slack标签 京东开源全栈交互模型JoyAI-VL-Interaction，支持主动视频交互；字节Seed2.1强化通用Agent与代码能力；Anthropic推出Claude Tag，在Slack中以独立身份协作完成任务。
安全警钟：五眼联盟警告与AI招聘偏见 五眼联盟警告下一代AI将降低网络攻击门槛，影响普通用户；GitHub联合开源联盟呼吁修改加州AI透明度法案，反对撤销开源许可证；研究显示超26%黑人申请者遭AI招聘工具系统性排斥。

总结

今日AI生态呈现模型井喷与Agent落地的双螺旋：速度快、能力广、协作深。但安全与公平挑战随之凸显，开源透明与监管平衡仍是长期课题。开发者可关注CUGA框架等轻量工具，加速自身智能体构建。

AI日报 · 2026-06-24

引言