导览
今天最明显的信号是AI工具在加速“实体化”:OpenAI的实时翻译模型开始在智能眼镜上测试,小米也开源了能给视频配音效的模型——AI正在从聊天窗口渗入我们真实的物理交互中。
模型发布/更新
1. OpenAI推出实时翻译模型,支持70+语言输入
OpenAI发布gpt-realtime-translate实时翻译功能,支持超过70种语言输入,可转换为13种输出语言。该模型接收语音输入并直接输出目标语言语音,正于智能眼镜上测试运行。X:@gdb ↗
2. 阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率
阶跃星辰发布开源模型Step 3.7 Flash,主打智能体工作流效率。该MoE架构模型拥有198B参数(约11B活跃),支持256K上下文。在ClawEval-1.1和SimpleVQA Search评测中排名第一,具备多模态理解能力。X:@StepFun_ai ↗
3. 小米开源可控视频音效生成模型 ControlFoley
小米大模型应用团队发布开源可控视频音效生成模型ControlFoley。该模型支持文本引导、文本控制及参考音频控制三类视频配音任务,在多个基准测试中达到开源SOTA表现。代码、权重及在线Demo已开放。IT之家 ↗
产品与工具
4. Qwen-VLA:从理解世界到在其中行动
Qwen Studio提供全面功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具利用及Artifacts。qwen.ai:Blog ↗
5. Codex可自主管理对话线程与并行任务
Codex现已能自主管理自身界面中的对话线程,包括创建、搜索、整理、固定重要线程,并可为并行任务启动工作树。X:@gdb ↗
6. Gemini Omni可将草图变为现实
Gemini Omni模型能将简单草图转化为新现实。用户可在Gemini应用中上传绘画视频并输入提示词,例如“当我画完圆时,它变成了____”。X:@GeminiApp ↗
7. Codex现已支持Windows端计算机使用功能
Codex的计算机使用功能现已在Windows系统上线。用户可通过ChatGPT移动应用,在Windows电脑上远程启动、审查和引导任务,实现跨地点持续工作。X:@OpenAI ↗
8. Guardrails:保护你的智能体、数据与成本
Guardrails是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体、数据并控制成本。OpenRouter ↗
9. Runway API持续扩展模型与端点支持
Runway API持续新增模型与端点,包括Seedance 2.0、GPT Image 2等,方便用户将生成式AI能力集成到自身应用、产品与平台中。X:@runwayml ↗
10. OpenRouter支持模型生成文件补丁
OpenRouter现已支持“apply_patch”服务器工具。模型可通过Responses API使用V4A diffs提出文件编辑建议(创建、更新或删除文件),OpenRouter会在服务器端验证diff语法。X:@OpenRouter ↗
11. ChatGPT对话目录功能现已上线
ChatGPT为包含5条以上回复的长对话上线了目录功能,方便用户导航和回顾长篇对话。X:@ChatGPTapp ↗
12. Gemini 本月更新:全新界面与智能体助手
本月Gemini更新包括全新设计的界面,以及Gemini Spark提供的全天候智能体辅助功能。X:@GeminiApp ↗
13. claude-design-card:中文内容创作视觉卡片生成Skill
claude-design-card是一款为中文创作者设计的Skill,可将文字、URL或文章自动转化为公众号首图、小红书图文卡等视觉物料,支持28种布局和10种主题,替代手动设计流程。该工具已开源。X:@hongming731 ↗
14. 5亿Tokens白送!全球首个商用AI主机发布,终于能放开烧Token了
全球首款商用AI主机发布,提供5亿Tokens免费使用额度,旨在让用户能够更自由地使用AI。量子位 ↗
15. 下限零基础,上限肝大作!腾讯这个AI游戏创作平台,太野了
腾讯发布一个AI游戏创作平台,旨在降低游戏创作门槛,让零基础用户也能参与,并可能催生高质量作品。量子位 ↗
16. 创意设计版WorkBuddy来了!腾讯发布智能体创意工作室Miora
腾讯发布智能体创意工作室Miora,其定位如同创意设计版的WorkBuddy,旨在让用户一个人也能拥有整个创意工作室。量子位 ↗
开发与工程
17. 亲测为实:难以置信的推理速度
Kog团队在标准数据中心GPU上实现极高的单用户推理速度,在8× AMD MI300X GPUs上达3,000 tokens/s,在8× NVIDIA H200上达2,100 tokens/s,较常规速度提升10-30倍。X:@rohanpaul_ai ↗
18. Claude Code——文档中未提及的所有可配置选项
一篇关于Claude Code可配置选项的文章,但提供的正文仅含图片和链接,未给出任何具体信息。buildingbetter.tech ↗
19. Meta如何为PB级可靠性重建数据摄取平台
Meta工程团队概述了如何迁移一个每日传输数PB MySQL社交图数据的数据摄取平台,以提升可靠性和运维效率。InfoQ AI ↗
20. AI辅助迁移工具助力团队从ingress-nginx快速迁移至Higress
云原生计算基金会介绍了一种AI辅助迁移方法,帮助工程师在约30分钟内将60个ingress-nginx资源迁移至Higress。InfoQ AI ↗
21. GitHub通过每日审计和MCP工具剪枝将Agent工作流Token消耗降低最多62%
GitHub报告称,通过修剪未使用的MCP工具、将部分MCP调用替换为gh CLI,并运行每日“审计器”和“优化器”智能体,其代理CI工作流中的Token成本降低了最高62%。InfoQ AI ↗
行业与公司
22. 中央网信办等四部门:提升全民人工智能素养,加快人才培育、深化普及应用
中央网信办等四部门印发文件,部署提升全民数字素养与技能工作,明确要求“提升全民人工智能素养”,包括强化AI赋能教育、加快人才培养、深化普及应用。IT之家 ↗
23. 波士顿儿童医院利用AI解锁新诊断
波士顿儿童医院通过部署OpenAI技术改善护理并减轻运营负担,已成功帮助诊断超过40种罕见病病例。OpenAI:官网动态 ↗
24. 滑铁卢大学未来实验室展示AI原型
滑铁卢大学未来实验室的学生开发了AI原型,旨在重塑教育和工作未来,其中包括用于教育场景的手语辅导工具。blog.google:Blog ↗
25. Cursor 团队发布《开发者习惯报告》
报告显示AI正改变开发工作形态:开发者周均代码产出从3.6K行增至8.6K行;AI智能体单次会话工具调用数增约30%,处理更复杂任务;被接受的AI代码60分钟后留存率从76%升至81%。X:@shao__meng ↗
26. 特斯拉 FSD 安全性宣称遭质疑
特斯拉宣称其FSD安全性最高可达人类10倍,但路透社调查发现此数据存在缺陷。11位研究人员指出其统计方法有问题,如与更广泛的联邦事故数据进行不恰当比较。FSD目前仍需驾驶员主动监督。IT之家 ↗
27. 4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉
比亚迪发布自研4nm制程AI芯片,宣称在算力上超越特斯拉,并承诺在智驾出事时负责。量子位 ↗
28. 光帆科技与腾讯出行服务达成战略合作 开启新一轮预售
光帆科技与腾讯出行服务达成战略合作,并开启新一轮产品预售。量子位 ↗
29. PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮
PPIO入选非凡产研发布的“2026 Global AI 100”榜单,凭借其AI实力在出海浪潮中处于领先地位。量子位 ↗
30. 面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」
面壁智能举办“开源周”活动,展示了其在端侧AI领域的系统性技术成果,认为端侧AI是一个系统性工程。量子位 ↗
论文与研究
31. GPIC:大规模视觉生成基准数据集发布
一个面向大规模生成模型新时代的视觉生成基准数据集GPIC已发布。X:@drfeifei ↗
32. 英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」
英伟达与清华大学团队提出Gamma-World模型,旨在将世界模型从单智能体仿真推向多智能体交互仿真阶段。量子位 ↗
人物与花絮
33. Cognition的Scott Wu表示:AI编程智能体不应取代人类
Cognition公司创始人Scott Wu表示,其开发的首个AI编程智能体Devin并非旨在取代人类程序员。TechCrunch ↗
34. 帮Gemini拿下IMO金牌的关键先生,差点成了职业钢琴家
大模型圈里可能最会弹钢琴的助力者,帮助Gemini在国际数学奥林匹克竞赛中获得金牌。量子位 ↗
观点与教程
35. Adam’s Law:用高频词写Prompt效果更好
FaceMind团队通过多语言实验发现,在语义不变前提下,使用预训练语料中出现频率更高的词汇撰写提示词或进行微调,能显著提升大语言模型表现,此发现被总结为Adam’s Law。X:@berryxia ↗
36. 当公司过于"AI上瘾"时会发生什么?
Box创始人指出,不了解工作实质的人常决定用AI替代员工,他称之为“AI psychosis”。ClickUp近期因部署AI智能体裁员22%,2026年科技行业裁员规模已接近2025年全年水平。TechCrunch ↗
37. 演讲:为AI落地构建评估:从原则到实践
Mallika Rao基于在Twitter、Walmart和Netflix的经验,探讨了生产AI系统中评估债务的隐藏风险,并解释了传统指标为何不适用于现代架构。InfoQ AI ↗
38. 教宗良十四世的《奇妙人道》如何为个人应对AI挑战提供模板
教宗良十四世关于人工智能的新通谕中,“技术从来不是中立的”这一陈述值得技术专家和政策制定者认真关注。MIT科技评论AI ↗
总结
强信号
-
OpenAI实时翻译模型落地智能眼镜 它支持70多种语言输入并直接输出语音,这已经不是实验室功能,而是在探索如何无缝嵌入日常生活场景。
-
Codex变得更自主了 它现在能自己管理对话线程、为并行任务启动工作树,这意味着AI编程助手正从执行单次指令转向管理更复杂的工作流。
-
OpenRouter推出Guardrails安全工具包 随着AI应用扩大,如何控制成本、防御提示词注入和防止数据泄露成了新痛点,这套工具直接瞄准了企业部署的核心顾虑。
中信号
-
四部门发文要求提升全民AI素养 这明确了自上而下的推动力度,AI普及和人才培育被写入了正式的政策议程。
-
小米开源可控视频音效生成模型ControlFoley 它能通过文本、控制或参考音频给视频配音,为开源社区提供了又一实用的多媒体生成工具。
待验证
-
特斯拉FSD宣称安全性最高可达人类10倍,但被路透社和研究人员指出统计方法有问题 具体安全数据仍需更多独立验证,目前其系统仍需人类驾驶员监督。
-
“Adam’s Law”提出用高频词写Prompt效果更好 这听起来是实用的调参技巧,但结论来自单一团队的多语言实验,其普适性有待更广泛验证。
评论 (0)
发表评论
请先登录后发表评论