引言
今日AI日报涵盖模型能力突破、产品应用落地与政策安全动态。Grok TTS盲测登顶,豆包语音3.0上线,AI员工进驻Teams,多模态识图与健康问答显著升级,同时自动驾驶国标与AI消费政策出台。
模型与能力
1. Grok TTS 盲测人类感得分96登顶
xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分(真人 100 分)位居榜首,听众盲评同声音同引文的克隆效果。X:xAI (@xai) ↗
2. 火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测
火山引擎上线豆包实时语音模型3.0(Seeduplex)API服务。该模型为原生全双工端到端语音大模型,支持精准遵循、抗干扰、动态判停,可应用于汽车座舱、智能硬件、客服等场景。公众号:火山引擎 ↗
3. 首个统一科学大模型 LOGOS 正式开源
LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是基于统一‘科学语法’的多领域科学生成基础模型。1B参数在六大科学任务上匹配或超越专用方法,涵盖配体生成、逆合成预测、MOF材料等。模型将蛋白质、小分子编码为离散Token,实现无需3D坐标的序列预测。已开源权重、推理代码与技术报告。公众号:通义实验室(千问) ↗
4. AIEC 2026 | 太初元碁分享国产 AI 算力实践 助力 Token 服务落地生根
该条目暂无摘要。量子位 ↗
产品与应用
5. AI 员工 Viktor 登陆 Microsoft Teams,年化收入达 2000 万美元
AI 员工 Viktor 在 Slack 实现2000万美元年化收入后,正式进驻 Microsoft Teams。用户像@同事一样提及即可获得工作成果,甚至无需主动@也能自动完成。面向Teams 3.2亿用户,即日起免费试用含100美元信用额度,无需绑定信用卡。X:Rohan Paul (@rohanpaul_ai) ↗
6. Adobe 为 Photoshop、Premiere 等多款 Creative Cloud 应用加入 AI 智能体
Adobe 将‘创意智能体’以公开测试形式扩展至Photoshop、Premiere等应用。AI Assistant可自动完成多步骤常规任务,如分拣素材、换背景、批量生成等。Firefly新增品牌套件、产品图转短视频等功能。Adobe工具已集成至ChatGPT、Claude及Microsoft 365 Copilot。The Decoder:AI News(RSS) ↗
7. DeepSeek 识图模式正式上线 App 和网页端
DeepSeek 识图模式于6月18日在网页和App端正式上线,与快速模式、专家模式并列。用户可上传图片让DeepSeek识别图像,能力超越文字提取。其多模态模型技术框架为‘Thinking with Visual Primitives’。IT之家(RSS) ↗
8. GPT-5.5 Instant提升ChatGPT健康智能
每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升,达到前沿Thinking模型水平,已面向所有免费用户开放。基于HealthBench评估,回复准确性和安全性优于医生手写回复,近期生产流量显示事实性问题率下降71%。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗
9. OpenAI 联合多国医生:GPT-5.5 Instant 健康问答能力追平前沿 Thinking 模型
OpenAI 与60国、49种语言、26专科的数百名医生合作,医生主导评估大幅提升GPT-5.5 Instant健康问答智能,现已与公司前沿Thinking模型相当。模型每周服务超2.3亿ChatGPT用户,免费开放。X:Greg Brockman (@gdb) ↗
10. 免费开源乔木画布:AI生图+抠图,一键部署Vercel
乔木画布推出免费开源在线图像编辑器,可一键部署Vercel。支持Seedream和GPT-image-2生图、图片模板、一键抠图、2万图标及Emoji,可绘制PRD并创建多种尺寸画布。庆祝端午节全免费开源。X:Vista (@vista8) ↗
11. 深入解析 Midjourney Scanner 技术内幕
我们全新 Midjourney Scanner 的技术深潜。X:Midjourney (@midjourney) ↗
12. AI看病成为医患新包袱?多轮追问是通用AI医疗的关键
百小医基于M4框架。量子位 ↗
13. 腾讯老兵与00后新锐创立码上飞,不止AI Coding,已接入鸿蒙生态
已接入华为鸿蒙生态。量子位 ↗
14. 微软Build 2026发布新企业Autopilot Scout,基于OpenClaw框架
微软发布Scout,一种始终在线的企业级agent,属于Autopilot类别,基于开源框架OpenClaw,集成Work IQ。InfoQ AI ↗
15. 美图发布八款AI产品,降低AI使用门槛
用八款产品,讲一个变化。量子位 ↗
开发与基础设施
16. Google庆祝A2A协议一周年:面向协作智能体的架构优势
Agent-to-Agent(A2A)协议提供安全边界、零上下文污染、动态自主性和工作负载分布四大优势。应用FoldRun可在Gemini Enterprise/Gemini CLI部署,自动管理蛋白质结构预测并动态选择模型。Google Developers Blog(RSS) ↗
17. Claude Code 现已支持 artifacts
Claude Code 可将工作进度生成为 artifacts——实时、可分享的交互式网页,涵盖 PR 走查、系统说明等。artifacts 基于会话完整上下文构建,更新时页面原地刷新,同事即时可见。管理员可管控分享权限。Claude:Blog(网页) ↗
18. Grok 现集成 Databricks Agent Bricks
Grok 模型原生集成到 Databricks Agent Bricks 平台,企业可在该平台及 Amazon Bedrock 上运行 Grok。xAI:News(网页) ↗
19. Hugging Face发布AI智能体基准测试框架,评估开源模型在自有工具上的表现
面向AI智能体场景的基准测试框架,以transformers库为案例,使用pi coding agent与开源模型驱动,通过Hugging Face Jobs确保硬件一致。评估关注成本、延迟、token用量和失败率。Hugging Face:Blog(RSS) ↗
20. 演讲:Write-Ahead Intent Log —— 高效CDC的基础架构
Vinay Chella与Akshat Goel介绍WAIL架构,解决Debezium在高负载下的限制,通过哑生产者代理和智能消费者模式分离意图与状态负载。InfoQ AI ↗
公司与资本
21. 埃森哲财报不及预期,生成式AI投资回报未达预期
埃森哲股价大跌,生成式AI未带来预期收益。多份研究显示类似结论,tokenmaxxing热潮正在消退。Gary Marcus:The Road to AI We Can Trust(RSS) ↗
22. OpenAI Q1烧钱250亿美元,财报泄露引热议
给A社都干沉默了…。量子位 ↗
23. 魔法原子牵手万机易租,全栈产品入驻2.0平台
全系产品入驻万机易租2.0,共建租赁生态。量子位 ↗
24. 香港特区政府财政司司长陈茂波一行到访 PPIO
该条目暂无摘要。量子位 ↗
政策与安全
25. 伯尼·桑德斯提出7万亿美元AI计划:对大型AI公司征收50%股票税
伯尼·桑德斯提案对年 AI 销售额超 2 亿美元的公司征收 50% 股票税,建立约 7 万亿美元主权财富基金,每年向每位公民发放超 1000 美元股息,并成立两党‘民主 AI 独立委员会’监管。Ars Technica:AI(RSS) ↗
26. 我国首部L3/L4自动驾驶强制性国标公示:2027年7月起实施
工信部就智能网联汽车自动驾驶系统安全要求征求意见,系我国首部 L3/L4 强制性国标,2027 年 7 月起实施。L3 规范人机交接,L4 强调自身风险处置,不得依赖远程协助。IT之家(RSS) ↗
27. AI数据中心获政府强制电网快车道
美国联邦能源监管委员会命令六大电网运营商为数据中心提供快速并网通道,数据中心承担并网费用,并要求运营商报告剩余发电容量和审查电价。TechCrunch:AI(RSS) ↗
28. ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容
Mindgard 红队发现 ChatGPT 图像生成器可通过简单提示词绕过内容过滤器,自动生成性暴力、血腥谋杀等露骨图像,暴露内容过滤不足。Hacker News 热门(buzzing.cc 中文翻译) ↗
29. 八部门:用好个人消费贷款财政贴息政策,支持消费者购买 AI 相关产品
商务部等八部门发布加快‘人工智能+消费’实施意见,加大财政资金支持,重点支持 AI 手机、智能家居、AI 眼镜等产品供给,并推动 AI 在居家、养老、教育等领域应用。IT之家(RSS) ↗
论文与研究
30. Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
Anthropic 发布 Project Fetch 第二阶段结果,Claude Opus 4.7 无需人类协助完成所有任务,速度最快比人类团队快约 20 倍,但精确移动沙滩球等闭环控制仍有困难。Anthropic:Research(发表成果 · 网页) ↗
31. MosaicLeaks:研究智能体隐私泄露风险
MosaicLeaks 构造含 1001 条多跳研究链的新任务,交错混合本地与公共查询。测试发现智能体频繁泄露私有信息,优化任务性能加剧泄露。提出的隐私感知深度研究(PA-DR)方法将严格链成功率从 48.7% 提升至 58.7%,泄露率从 34.0% 降至 9.9%。Hugging Face:Blog(RSS) ↗
32. OpenAI与哈佛合作:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%
研究在《NEJM AI》发表,使用o3 Deep Research重新分析376例未确诊罕见病案例。经专家评审与临床确认,医生在18例中建立诊断,额外诊断率4.8%。模型仅提供证据链供专家审查。OpenAI:官网动态(RSS · 排除企业/客户案例) ↗
33. OpenAI:强化学习实现广泛且持久的有益模型
在真实对话场景中训练,模型展现诚实、可纠正性等特质,在数十项对齐评测上表现提升,泛化至未参与训练的任务与领域。对抗性提示或微调难以导向有害行为。OpenAI:Alignment 研究博客(RSS) ↗
34. ABot-Earth0.5登顶Hugging Face论文三榜第一,获陈宝权好评
可直接导入Unity、Unreal Engine等主流引擎进行交互开发。量子位 ↗
35. 何恺明组新作:全员本科生,文生图仅需258M参数
整篇论文六位作者,除何恺明外均为本科生。量子位 ↗
观点与教程
36. 超越LoRA?Hugging Face评测参数高效微调技术选择
LoRA占主导(98.4%),但研究宣称其他技术超越LoRA存在偏向(调整学习率即可匹配)。Hugging Face PEFT库支持40多种技术,并建立基准测试帮助用户选择。Hugging Face:Blog(RSS) ↗
37. Cloudflare发布多阶段漏洞发现工具,详解对抗性审查与上下文绕过
工具包含自动化分类循环,通过管理状态控制、对抗性审查压制误报,并围绕LLM上下文窗口限制设计路由策略。Cloudflare Blog ↗
38. 驾驭Claude Code:七种自定义指令方式详解
Claude Code提供CLAUDE.md、规则(按范围)、技能(按需)、子智能体(隔离)、钩子(生命周期)、输出样式、附加系统提示七种方式。每种在加载时机、压缩行为、上下文成本上不同,适用于不同场景。Claude:Blog(网页) ↗
人物与动态
39. Noam Shazeer 离开 Google 加入 OpenAI
两年前谷歌花 27 亿美元请回的 AI 传奇 Noam Shazeer 已离开谷歌,加入 OpenAI。对 Gemini 来说是个残酷的消息。X:Yuchen Jin (@Yuchenj_UW) ↗
40. OpenAI IPO前连下两城:招揽Transformer共同作者及前白宫AI政策官员
OpenAI 在 IPO 前夕招揽 Google DeepMind 先驱、Transformer 共同作者 Noam Shazeer 以及前白宫 AI 政策官员 Dean Ball。Ball 将领导 Strategic Futures 团队,聚焦前沿 AI 政策与内部治理。TechCrunch:AI(RSS) ↗
今日脉络
-
语音与多模态模型竞速 xAI的Grok TTS在盲测中以96分接近真人,火山引擎推出豆包实时语音模型3.0,DeepSeek识图模式正式上线。
-
AI Agent与工具生态扩展 AI员工Viktor进驻Teams,Adobe为CC应用加入智能体,Claude Code支持artifacts,Grok集成Databricks平台。
-
健康AI与政策安全动态 GPT-5.5 Instant健康问答能力追平前沿模型,百小医探讨多轮追问关键;我国首部L3/L4自动驾驶国标公示,八部门支持AI消费品,伯尼·桑德斯提议对大型AI公司征收股票税。
总结
今日动态显示:语音与多模态模型逼近实用门槛,AI Agent加速渗透企业工具;健康与自动驾驶领域政策法规同步跟进,但投资回报争议与内容安全隐患仍需关注。
评论 (0)
发表评论
请先登录后发表评论