引言
今日AI日报涵盖模型能力突破、应用协作升级与安全政策动态。视频生成、OCR、语音克隆等模型密集发布,Agent与多模态交互走向实用化,同时五眼联盟警告网络威胁,开源许可证争议持续。
模型与能力
1. FastWan-QAD:单卡5090上1.8秒生成5秒视频
Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。单张 NVIDIA GeForce RTX 5090 上端到端生成 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。X:Sky Computing Lab (@haoailab) ↗
2. Mistral OCR 4 发布,支持边界框与 170 种语言
Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器自托管部署。OlmOCRBench 得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。Mistral AI:News(网页) ↗
3. 京东全栈开源 JoyAI-VL-Interaction,实现主动实时视频交互
京东开源全球首个全栈交互模型 JoyAI-VL-Interaction,支持持续观察视频流、主动判断关键事件并实时响应,可委托后台 Agent 处理任务。在 58 人盲评中对比豆包视频通话助手胜率 77.6%,对比 Gemini 视频通话助手胜率 87.9%,监控预警场景 100% 胜率。开源内容包括模型权重、交互数据集、训练方案及可部署系统,支持摄像头、直播流、语音交互、长期记忆、vLLM 部署。公众号:京东JoyAI ↗
4. 字节 Seed2.1 发布,强化通用 Agent 与代码能力
字节 Seed 发布 Seed2.1 系列,面向真实生产力场景的智能体,强化通用 Agent 能力、代码工程交付与多模态理解。Seed2.1 Pro 在 GDPval 基准最高分,Agents' Last Exam 位列第一梯队;MobileWorld 手机 GUI 任务最高分,多模态 CharXiv-RQ 等多项基准取得 SOTA。代码能力 NL2Repo-Bench 表现良好,开发者评测对比 Claude Opus 4.6 胜率 59.1%。模型已在豆包、TRAE 上线,API 通过火山方舟提供。字节 Seed:Research Feed(网页内嵌数据) ↗
5. 网易有道开源 Confucius4-TTS:14 语种跨语种无口音语音克隆
网易有道推出 Confucius4-TTS,称业内首个支持 14 种语言跨语种无口音且无需参考文本即可语音克隆的开源模型。用户仅需 3 秒音频即可零样本音色克隆,相似度超 85%,任务准确度 97%。首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。全量开源(Apache 协议),提供 54GB 资源包。IT之家(RSS) ↗
6. 豆包音频生成模型 1.0 发布,支持多角色对白与长时生成
火山引擎发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条 Prompt 可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成保持多角色音色一致。支持 0 样本多模态输入,音色与风格解耦控制。一次支持 2 分钟音频创作,多次延长保持音色统一。已开启火山方舟 API 邀测,个人用户享 30 分钟创作额度,即将上线剪映、即梦、番茄等产品。公众号:火山引擎 ↗
7. 刚刚,豆包2.1发布!Agent自己跑18个小时搞定芯片设计代码
编程比肩Opus 4.7。量子位 ↗
产品与应用
8. GPT-5 帮助免疫学家 Derya Unutmaz 解开三年未解之谜
GPT-5 Pro帮助免疫学家Derya Unutmaz解决长达三年的免疫学谜团,揭示T细胞行为新见解,可能支持癌症和自身免疫疾病研究。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗
9. Meta 如何为 AI 眼镜设计超窄钢壳电池
Meta为Ray-Ban Meta等智能眼镜开发宽度仅7mm的钢壳电池,采用叠片式电极降低阻抗,公差控制约100微米。Gen2电池容量从160mAh提升至210mAh,续航翻倍主要来自系统效率优化。Oakley Meta Vanguards双电池解决交叉充电问题,Meta Ray-Ban Display搭载最大248mAh钢壳电池。Meta Engineering Blog(RSS) ↗
10. Runway 推出 Seedance 4K、Seedance Mini 和 Kling 3.0 Turbo 三款模型
Runway 发布三款新模型:Seedance 4K、Seedance Mini 和 Kling 3.0 Turbo,称全球最佳模型汇聚一处。使用优惠码 30RUNWAY,前三个月可享七折优惠。现可通过下方链接开始使用。X:Runway (@runwayml) ↗
11. 千问高考志愿AI测评:多项表现超人类咨询师
友松实验室发布国内首个高考志愿AI能力测评报告,测试千问Agent四大模块。44道事实题全对,模拟10个志愿6个可录取;100场匿名对比中专家58次倾向千问回答。辅助人类后正确率提升,耗时减少约27%。基于千问高考志愿大模型和夸克8年数据,覆盖约3000所院校。公众号:千问APP(阿里) ↗
12. Anthropic推出Claude Tag:Slack中@Claude协作
Anthropic推出Claude Tag,在Slack频道中通过@Claude委托任务,支持多用户交互、主动更新未解决线程,可自主推进项目数小时。即日起面向Claude Enterprise和Team客户提供beta版,管理员可精细控制权限和用量。Anthropic:Newsroom(网页) ↗
13. Claude Tag 的 Agent Identity 访问模型
Claude Tag推出agent identity访问模型,让Claude在共享频道中以独立身份工作,而非模拟用户。管理员在工作区级配置权限,私有频道独立身份,公共频道共享身份。该模型简化权限管理,支持自主多玩家AI场景。Claude:Blog(网页) ↗
14. Omio利用OpenAI构建对话式旅行未来
Omio利用OpenAI技术打造对话式旅行体验,加速产品开发,推动自身向AI原生公司转型。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗
15. 雷鸟创新2026上半年:618销量五连冠,三大机构认证第一
实现上半年市场开门红。量子位 ↗
16. 可口可乐世界杯TVC由prompt生成
AI实时互动,陪聊足球。量子位 ↗
开发与基础设施
17. Claude Code v2.1.187发布
新增sandbox.credentials设置阻止凭证读取;模型选择器支持组织配置限制;全屏模式下菜单支持鼠标点击。修复多项问题:--resume失败、结构化输出循环、远程MCP 5分钟无响应阻塞、Remote启动延迟2.7秒、韩文粘贴乱码、子智能体深度追踪不准确等。Claude Code:GitHub Releases(RSS) ↗
18. IBM 开源 CUGA:轻量级智能体框架,支持 OpenAPI/MCP
IBM 开源 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。内置计划-执行-反思循环,在 AppWorld(2025.7–2026.2)和 WebArena(2025.2–9)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用。Hugging Face:Blog(RSS) ↗
19. huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
Hugging Face将huggingface_hub发布周期缩短至每周,由单个GitHub Actions工作流自动完成,依赖开源工具和GLM-5.2起草发布说明,保留人工最终审核。自动步骤包括版本号更新、标签推送、PyPI发布、发布说明草稿、Slack公告等,所有组件基于开源生态,可复制使用。Hugging Face:Blog(RSS) ↗
20. 在 Transformers.js 中实验提议的跨源存储 API
Transformers.js在浏览器运行AI模型时,不同来源Web应用重复下载相同模型和Wasm文件,因Network Isolation Key隔离缓存,单次demo产生177MB冗余。Cross-Origin Storage API提案允许跨来源共享缓存,目前可通过Chrome扩展polyfill实现。Hugging Face:Blog(RSS) ↗
21. Unlimited OCR:单次长时域解析开源项目
Unlimited OCR 是一个 GitHub 开源项目,实现单次长时域解析,旨在一次性处理长时间跨度的 OCR 任务。Hacker News 热门(buzzing.cc 中文翻译) ↗
22. 云计算一哥,让小鹏、Kimi和猎豹都爽了一把
Agentic AI爆发的拐点已然来临。量子位 ↗
23. 微软扩展Azure Kubernetes Service:支持裸机、集群管理和AI基础设施
在Build 2026上增强AKS,使其成为AI训练和推理的一流平台。InfoQ AI ↗
24. 英伟达发布机器人全栈操作系统,号称“具身版安卓”
不造机器人,为具身企业提供基础设施。量子位 ↗
25. 4亿美元芯片制造机器的未来动力
Jos Benschop介绍这台双层巴士大小的精密设备。MIT科技评论AI ↗
公司与资本
26. Oracle因AI裁员2.1万人,债务驱动云基础设施投资
Oracle在截至5月31日的财年裁员21000人(降幅12.9%),称AI导致劳动力缩减,重组成本18亿美元。计划2026年筹资450-500亿美元扩建Oracle Cloud Infrastructure,服务OpenAI、xAI等客户。债务超1200亿美元。Ars Technica:AI(RSS) ↗
27. 智能座舱之王「转身」物理AI,高通需要被重估了
不争最强算力,只求无处不在。量子位 ↗
28. 正行创新完成近亿美元天使轮融资,正大集团、华勤技术等联合加持
以“数据—模型—基础设施”系统性协同通往物理智能。量子位 ↗
29. 特斯拉布局AI基建,将推“算力积木”
新商标已曝光。量子位 ↗
政策与安全
30. GitHub联合开源联盟呼吁修改加州AI透明度法案
GitHub联合Black Forest Labs、Hugging Face、Mozilla组成开源联盟,要求修改加州SB 942法案。当前草案要求在下游用户未履行义务时撤销开源许可证,与许可证永久不可撤销性质冲突。联盟建议参考欧盟AI法案透明度实践,以通知替代撤销。GitHub Blog ↗
31. 五眼联盟警告AI网络威胁将影响普通用户
五眼联盟警告下一代AI模型(如GPT-5.5-Cyber、Anthropic Mythos)将降低攻击门槛,自动化智能体可全天候扫描漏洞,超个性化钓鱼诈骗在亚太蔓延。建议企业部署防御AI,个人开启多因素认证、删除闲置账户。Artificial Intelligence News(RSS) ↗
32. OpenAI助力Appia Foundation推动先进AI共享标准
OpenAI通过Appia Foundation支持制定先进AI共享标准,涵盖评估框架、安全实践与全球合作。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗
论文与研究
33. AI招聘工具种族偏见研究:26%黑人15%亚裔遭系统性排斥
一项覆盖340万申请、150家雇主的大规模实地研究发现,AI招聘筛选工具存在显著种族歧视:26%黑人、15%亚裔申请者遭系统性排斥;多数雇主依赖同一第三方算法导致“算法单一文化”。对比同期未用AI的招聘数据未发现此模式。呼吁独立监管。Hacker News 热门(buzzing.cc 中文翻译) ↗
34. Krea 2 技术报告正式发布
Krea AI 发布 Krea 2 技术报告,深入解析创建模型所用的数据、架构及训练技巧。链接:https://www.krea.ai/blog/krea-2-technical-report。X:Krea AI (@krea_ai) ↗
35. 基于指标依赖的标注饱和:从标签分布中学习
在ChaosNLI数据集上微调NLI模型,发现熵相关需20-50个标注者收敛,KL散度约10个即饱和(达87%-95%)。软标签熵相关r=0.643,优于标签平滑(r≈0.45-0.49),该优势在DeBERTa、RoBERTa等模型及跨域评估中成立。标注预算应依据目标评估指标制定。Apple Machine Learning Research(RSS) ↗
36. 苹果研究:LLM评委面板高度相关,实际仅提供约2个独立投票
苹果ML团队发现,LLM-as-a-judge面板因模型间高度相关严重受限:9个前沿模型评委仅提供约2个独立投票信息量,面板准确率比理想值低8-22个百分点。增加评委或改进聚合算法收效甚微,瓶颈在于评委相关性。Apple Machine Learning Research(RSS) ↗
人物与动态
37. 华人博士57场面试进OpenAI,开源AI面经
分享面试经历,推荐开源资源。量子位 ↗
今日脉络
-
模型新星:视频生成、OCR与语音克隆密集发布 FastWan-QAD在单卡5090上1.8秒生成5秒视频;Mistral OCR 4支持170种语言与边界框;Confucius4-TTS实现14语种跨语种无口音语音克隆;豆包音频生成模型支持多角色对白与长时生成。
-
Agent与协作:从全栈交互到Slack标签 京东开源全栈交互模型JoyAI-VL-Interaction,支持主动视频交互;字节Seed2.1强化通用Agent与代码能力;Anthropic推出Claude Tag,在Slack中以独立身份协作完成任务。
-
安全警钟:五眼联盟警告与AI招聘偏见 五眼联盟警告下一代AI将降低网络攻击门槛,影响普通用户;GitHub联合开源联盟呼吁修改加州AI透明度法案,反对撤销开源许可证;研究显示超26%黑人申请者遭AI招聘工具系统性排斥。
总结
今日AI生态呈现模型井喷与Agent落地的双螺旋:速度快、能力广、协作深。但安全与公平挑战随之凸显,开源透明与监管平衡仍是长期课题。开发者可关注CUGA框架等轻量工具,加速自身智能体构建。
评论 (0)
发表评论
请先登录后发表评论