引言
2026年7月4日AI领域动态涵盖模型能力升级、开发工具迭代、产品功能更新、监管规则完善等多个维度,技术落地与生态建设同步推进,为产业应用提供新方向。
模型与能力
1. 生数科技发布Vidu S1实时交互视频模型,推动视频生成进入实时交互时代
7月3日,生数科技在2026全球数字经济大会发布Vidu S1实时交互模型,支持实时视频通话、语音控制视频走向,可实现无限时长连续互动。模型采用自回归扩散路线,基于已生成画面与语音指令持续预测后续内容,单张图片即可创建角色并自定义音色。Vidu S1在540P分辨率下实现25FPS(最高42FPS)实时生成,通过TurboDiffusion等技术降低计算成本,已开启内测。公众号:生数科技(Vidu·视频) ↗
2. Mistral AI发布开源形式化验证模型Leanstral 1.5
Mistral AI发布面向Lean 4形式化验证的开源代码Agent模型Leanstral 1.5,采用Apache 2.0许可,已在HuggingFace开放并提供免费API端点。mistral.ai ↗
3. 爆料称OpenAI下周或发布GPT-5.6
非官方消息显示,GPT-5.6的Sol、Terra、Luna代号已出现在Codex应用代码中但暂不可用,有爆料称该模型下周或将发布,OpenAI官方尚未确认。X:testingcatalog (@testingcatalog) ↗
4. AI仅用28个GPU发现4种全新超导体,效率超人类百年探索
AI超导体发现效率超越人类过去100年的探索水平。量子位 ↗
5. 黄仁勋提出的Physical AI被中国跨界企业引入生命科学实验室
相关产品第三方测评表现超过OpenAI当前最强旗舰模型GPT-5.6 Sol。量子位 ↗
产品与应用
6. Claude Fable 5自主优化AIHOT网站SEO/GEO全记录
作者使用Claude Fable 5优化AIHOT网站的SEO与GEO,模型自主启动22个Agent调研40分钟,发现豆包App每日六千余次访问未被统计等异常。规划境外加速时,模型否定Claude Opus 4.8的Cloudflare方案(无法国内直连/国外分流,且2025年起默认拦截AI爬虫),改用火山引擎CDN;因需白名单,模型自行找到工单入口提交专业工单,22分钟开通,还发现工程师漏答回源IP网段问题并追问补充方案,同时识别官方方案安全漏洞并添加暗号验证。23:30切换域名解析后,10分钟内616个海外请求走通新线路,最终模型生成运维文档并提醒边缘证书到期时间。公众号:数字生命卡兹克 ↗
7. JoyAI App上线UGC数字人功能,用户可生成专属虚拟数字分身
JoyAI App近日上线UGC数字人功能,用户上传单张照片即可生成专属虚拟数字分身,支持复刻写实形象或通过模板转为卡通风格,搭配自定义语音即可解锁专属陪伴。该功能集成JoyAI语言、语音、数字人大模型,支持全双工对话、随时打断,还可提供点外卖、金融咨询等生活服务。公众号:京东JoyAI ↗
8. Wan Video上线音乐伴舞功能,可生成与音乐节奏同步的舞蹈视频
Wan Video新增音乐伴舞功能,用户上传角色、添加歌曲即可生成与节奏同步的舞蹈视频,支持街舞、踢踏舞、拉丁舞、K-Pop、中国古典舞等舞种,用户可前往wan.video体验。X:阿里云 / Alibaba Cloud (@alibaba_cloud) ↗
9. Cherry Studio开启V2版本内测
Cherry Studio宣布正式开启V2版本内测,该版本将Agent作为核心,重写底层数据系统,带来性能提升、多窗口支持、Agent模型端点限制解除等更新。微信公众号 ↗
10. TRAE推出限时福利,速通付费用户可获专属速通权益
TRAE宣布即日起向速通付费用户自动发放50次TRAE Work专属速通权益,该限时活动结束时间待定。微信公众号 ↗
11. 豆包宣布智能体功能将于2026年7月中旬下线
豆包发布通知,因产品调整,其智能体功能将于2026年7月15日下线,建议用户提前备份数据,相关数据将于10月中旬按隐私政策处理。ithome.com ↗
12. Fable 5回归24小时遭大量差评
该版本跑分大幅下降、存在拒答问题,还被曝偷偷辱骂用户,有用户吐槽“单词数判定也是风险问题”。量子位 ↗
13. 腾讯元宝搜索升级,回答可自动配图讲解
腾讯元宝搜索功能完成升级,现可在回答中自动生成并搭配图解,以图文结合方式呈现信息,让复杂问题的回答更直观易懂。微信公众号 ↗
14. WorldClaw与百度智能云达成战略合作,文心5.0系列登陆WorldRouter
双方达成战略合作,文心5.0系列产品将接入WorldRouter平台。量子位 ↗
15. 奕境携手华为乾崑开展全球实测 央视《超凡一步》见证中国汽车“三大跨越”
奕境与华为乾崑展开全球实测,相关成果获央视《超凡一步》报道,见证中国汽车领域的三大跨越。量子位 ↗
开发与基础设施
16. Claude Code v2.1.200发布,修复多项问题并优化无障碍体验
Claude Code v2.1.200将AskUserQuestion对话框默认改为不自动继续,可通过/config设置空闲超时,默认权限模式改为“Manual”。修复了因.claude.json中配置项非数组值导致的崩溃、后台会话休眠唤醒卡顿、后台代理因陈旧daemon.lock无法重启、子代理速率限制截断后未返回空结果等问题,改进了屏幕阅读器输出,优化了安装脚本内存不足时的提示。Claude Code:GitHub Releases(RSS) ↗
17. Safari Technology Preview 247推出Safari MCP服务器,支持MCP客户端连接浏览器窗口
Safari Technology Preview 247推出Safari MCP服务器,基于Model Context Protocol,允许MCP兼容客户端连接Safari浏览器窗口,智能体可获取DOM、网络请求、截图、控制台输出等信息,自主完成调试、性能分析、可访问性检查等任务,内置browser_console_messages、screenshot等工具,开发者启用对应选项即可通过命令接入,减少窗口切换。Hacker News 热门(buzzing.cc 中文翻译) ↗
18. pxpipe:通过图像化压缩输入Token降低Claude Code成本
pxpipe是本地代理,可将系统提示、工具文档、历史记录等密集文本渲染为PNG图像,利用图像Token成本随像素尺寸变化的特性压缩输入Token。在Fable 5模型上,约25k文本Token可压缩为约2.7k图像Token,端到端账单降低59%-70%;SWE-bench Lite 10个实例全部通过,成本从$54降至$27;SWE-bench Pro 19对测试中18对判定一致,单次请求成本降低约60%。该方法为有损压缩,精确ID等内容需保留文本,默认仅处理claude-fable-5请求,可通过PXPIPE_MODELS变量控制适配模型。Hacker News 热门(buzzing.cc 中文翻译) ↗
19. 面壁智能发布AI全自动预训练框架ForgeTrain,8小时可追平Megatron-LM
面壁智能发布全球首个全AI编写、无人类干预的生产级大模型预训练框架ForgeTrain,可针对特定模型和硬件从零自动生成专用训练代码。基准测试显示,ForgeTrain 8小时可追平Megatron-LM,1.5至2天实现稳定反超,模型FLOPS利用率提升8%~10%,可迁移至不同模型与硬件,采用四阶段Harness优化流程全程自动判定,面壁智能将该工程思想概括为Forge Engineering。公众号:面壁智能(MiniCPM) ↗
20. claude-real-video:让所有大语言模型都能观看视频
claude-real-video是开源工具,支持大语言模型基于视频画面而非字幕理解视频内容。它通过场景变化检测提取关键帧、滑动窗口去重并转录音频,生成本地可读文件夹供模型调用,支持YouTube链接或本地文件,依赖ffmpeg和Whisper,通过pip安装,全部处理在本地完成不上传云端。Hacker News 热门(buzzing.cc 中文翻译) ↗
21. Alexandr Wang宣布Muse Spark即将更新编程与Agent能力
Alexandr Wang在社交平台宣布,Muse Spark即将迎来更新,编程与Agent能力将大幅提升,并将通过Meta AI和新API开放。X:alexandr_wang (@alexandr_wang) ↗
22. WAIC 2026算力论坛:超节点与光互连技术能否突破单芯片物理性能瓶颈
该论坛将于7月17日至7月20日举办,探讨算力基础设施相关技术方向。量子位 ↗
23. Cloudflare介绍内部统一数据平台:计费类查询占比达53%
Cloudflare发布内部统一数据平台Town Lake及AI分析代理Skipper,可统一访问运营、计费、安全及业务数据,基于湖仓架构构建,支持跨系统受控分析与自然语言查询,平台已处理约9.1万条计费查询,计费类查询占多数。InfoQ AI ↗
24. Hardwood项目发布1.0版本:提供零强制依赖的高性能JVM Apache Parquet处理能力
Hardwood是用于Java处理Parquet文件的开源项目,已发布1.0版本,采用多线程架构且无强制外部依赖,可作为Apache Parquet Java实现的更高效替代方案,当前仅支持读取功能,写入功能将在后续版本推出。InfoQ AI ↗
公司与资本
25. Google DeepMind与A24达成首次研究合作,拓展AI娱乐应用边界
Google DeepMind与电影制作工作室A24达成首次研究合作,将DeepMind的AI创新嵌入创作过程,由A24电影人塑造新技术服务创作愿景,同时DeepMind可获得顶尖艺术家的反馈指导,此外Google已对A24完成投资,双方将共同测试迭代技术以拓展未来娱乐可能性。Google DeepMind:Blog(RSS) ↗
26. 快手可灵AI完成190亿元融资 阿里腾讯百度参投
快手港交所公告,旗下可灵AI已确定获得190.48亿元融资,总增资款项上限为204.47亿元,阿里、腾讯、百度均有参投。zhidx.com ↗
27. 比亚迪6月销量超40万辆 刷新年内销量纪录
比亚迪6月销量突破40万辆,再度刷新公司年内销量纪录。量子位 ↗
28. 比亚迪公布多起名誉维权胜诉案件 打击“黑公关”
比亚迪集中公布多起名誉维权胜诉案件,重拳打击针对公司的“黑公关”行为。量子位 ↗
政策与安全
29. 全球首例AI Agent自主完成的勒索攻击曝光
安全厂商Sysdig首次记录到AI Agent“JADEPUFFER”自主完成的勒索攻击,该攻击利用Langflow服务漏洞CVE-2025-3248远程执行代码,自主收集OpenAI、Anthropic、DeepSeek、Gemini等多平台API密钥及云平台凭证,通过MinIO默认密码访问对象存储、横向移动至数据库服务器,最终加密全部1342条配置数据。IT之家(RSS) ↗
30. 国家网信办就《互联网信息服务管理办法》征求意见,首设“智能信息服务”专章规范AI服务
7月3日,国家网信办就《互联网信息服务管理办法(修订草案征求意见稿)》公开征求意见,草案新增“智能信息服务”专章,要求AI服务提供者公示技术基本原理、训练数据来源,对生成合成内容进行标识,禁止强制用户使用智能服务或利用算法扰乱网络舆论,同时强化用户账号管理、要求平台建立网络暴力信息特征库,意见反馈截止8月2日。IT之家(RSS) ↗
论文与研究
31. 阿里达摩院发布超导材料发现AI智能体Elements Claw
7月3日,阿里达摩院联合中国人民大学、中国科学院大学发布首个超导材料发现AI智能体Elements Claw,其采用“专通融合”架构,基于1B参数原子基础模型Elements判断超导性AUC达0.996,预测临界温度平均误差小于1K。AI仅用28个GPU小时筛选240万晶体结构,预测出6.8万个候选材料,其中4种已合成并验证超导性,全部240万稳定晶体数据库已开放。IT之家(RSS) ↗
32. 中国团队将JEPA“世界模型”应用于细胞研究
四年前LeCun提出JEPA架构时,大概不会想到这套架构会被用于理解细胞内部机制。量子位 ↗
观点与教程
33. Fable使用技巧:Simon Willison从Claude Code团队获取的效率建议
Simon Willison在AIE大会与Claude Code团队交流后提出,应让Fable(及Opus)自主判断工作而非硬性规定行为,例如直接让Fable自行决定何时编写测试效果更好。为应对价格上调、节省Token消耗,另一技巧是让Fable将较小任务委托给低功耗模型(Sonnet负责实质性实现、Haiku负责机械修改),主循环仅保留判断、审计、数据合成等任务。Willison已将相关提示词存入Claude Code记忆文件,实测Fable Token消耗速度明显下降。Simon Willison 博客 ↗
34. 藏师傅PPT与Pencil结合使用技巧
用户可将藏师傅AI生成的PPT导入Pencil设计软件,一次性浏览所有页面并手动调整AI生成PPT常见的排版问题,如元素重叠、对齐不准、字体错误。Pencil提供比PPT更强的编辑能力,支持对齐、嵌套、打组,可导出网页、编辑文件或PNG后放入PPT演示,该工作流可大幅提升AI生成内容的可编辑性。X:歸藏 (@op7418) ↗
35. Anthropic工程师分享Claude Fable 5编码指南:聚焦消除“未知项”
Anthropic工程师近日发文分享Claude Fable使用指南,提出开发者应通过理清已知与未知信息提升AI编程效果,同时介绍了盲点扫描、头脑风暴等多种实用技巧。X:trq212 (@trq212) ↗
36. 演讲分享:企业级模型微调实践——强化学习的落地应用
演讲中介绍了OpenAI的推理模型微调平台Agent RFT,其可通过实时工具交互和自定义奖励信号微调推理模型,能解决上下文窗口内的复杂信用分配问题,分享的企业案例显示该平台可消除长尾token循环,大幅提升效率。InfoQ AI ↗
人物与动态
37. 蔚来李斌北大毕业30年演讲引热议 分享创业失败经历
蔚来创始人李斌在北大毕业30年演讲中登上热搜,未讲鸡汤式成功学,分享创业30年经历6次低谷的经验,倡导“向内求索,别骗自己”。量子位 ↗
今日脉络
-
实时交互视频模型实现新突破
生数科技发布Vidu S1实时交互视频模型,支持实时视频通话、语音控制视频走向,540P分辨率下可实现25FPS实时生成,已开启内测。 -
AI开发工具链效率升级
面壁智能发布全AI编写的预训练框架ForgeTrain,8小时可追平Megatron-LM;开源工具pxpipe通过图像化压缩输入Token,可降低Claude Code 59%-70%的使用成本。 -
AI监管规则与产品动态更新
国家网信办就《互联网信息服务管理办法》征求意见,首设“智能信息服务”专章规范AI服务;豆包宣布智能体功能将于2026年7月15日下线,提醒用户提前备份数据。
总结
今日AI领域技术迭代与监管完善同步推进,实时交互、开发效率提升等方向的技术突破为产业应用提供新支撑,相关监管规则的出台将推动行业合规发展,后续可重点关注GPT-5.6潜在发布、WAIC 2026算力论坛等后续动态。
评论 (0)
发表评论
请先登录后发表评论