AI 产品日报 | 2026-05-08
🔬 422产品实验室 · AI新产品日报 · 每日精选
今日洞察
今天的信号指向一个关键词:「小型化的极致智能」。Zyphra用760M活跃参数的ZAYA1-8B在数学推理上超越GPT-5-High,用的还是AMD芯片——这不仅是「小模型挑战大模型」的又一个案例,更是「推理能力可以被压缩」的实证。DFlash用扩散模型做投机解码,将推理加速变成了一个模型压缩问题。Sakana的7B RL Conductor学会了编排GPT-5和Claude Sonnet 4——「小模型指挥大模型」正在成为一个可复制的技术路线。与此同时,Anthropic在Code with Claude大会上发布的「Dreaming」能力和金融行业Agent工具包,标志着大厂开始为「Agent垂直化」铺设基础设施——这对创业者既是信号(验证了方向),也是压力(大厂下场了)。今天最值得深思的趋势是:AI的价值正在从「谁的模型最大」转向「谁的编排最聪明」。
1. ZAYA1-8B — 760M活跃参数超越GPT-5-High的推理模型(新模型发布)
融资信息:Palo Alto初创公司Zyphra(成立于2021年),Apache 2.0开源
做什么的:MoE++架构的推理语言模型,总参数8.4B但仅760M活跃参数——在AIME ’25数学基准上达91.9%,HMMT ’25达89.6%,超越Claude 4.5 Sonnet(79.2%)和GPT-5-High(88.3%)。全程使用AMD Instinct MI300 GPU训练。
为什么值得关注:
– 用AMD芯片训练出前沿级模型:这是首个完全在AMD GPU上训练的具有竞争力的推理模型,打破了NVIDIA在AI训练上的事实垄断。如果AMD生态成熟,推理成本可能大幅下降
– MoE++三大创新:压缩卷积注意力(CCA,KV缓存降8x)、MLP路由器(用PID控制器稳定训练)、学习型残差缩放——这三项改进可能成为下一代MoE架构的标准配置
– Markovian RSA推理范式:不做无限长的思维链,而是生成多条并行推理轨迹,只取「尾部」汇总再推理——让700M参数的模型可以「无限思考」而不撑爆上下文窗口
– 「推理预训练」而非后训练:在预训练阶段就融入推理能力(Answer-Preserving Trimming),而不是训练完了再贴推理头——这个思路可能改变未来模型训练的范式
类比参考:推理界的「M1芯片」——ARM架构但性能打Intel,低功耗但性能不妥协
🔗 Zyphra官网 | Hugging Face | 技术报告
2. DFlash — 用扩散模型做投机解码,推理加速的新范式(⭐ 3,503,日增671)
融资信息:开源项目(z-lab研究团队出品),已获vLLM和SGLang官方集成
做什么的:Block Diffusion for Flash Speculative Decoding——用一个轻量级扩散模型替代传统小模型做投机解码的draft model,已支持Gemma-4、Qwen3.5、Kimi-K2.5等15+主流模型,集成进vLLM、SGLang、MLX三大推理框架。
为什么值得关注:
– 扩散模型≠只有图像:DFlash把扩散模型的思想引入LLM推理加速——批量并行生成draft token,质量远高于传统自回归小模型。这是一个思维范式的突破
– 15+模型即插即用:从Qwen3.5-4B到GPT-OSS-120B,覆盖了几乎所有主流开源模型。用户只需一行--speculative-config就能启用
– vLLM官方支持:vLLM v0.20.1+已原生集成DFlash,这意味着它正在从研究项目变成生产级工具
– MLX支持Apple Silicon:M5 Pro上实测可用,意味着Mac用户也能享受投机解码加速
– 创业者启示:推理加速是一个巨大的商业赛道——不是做模型,而是让别人的模型跑得更快更便宜。DFlash证明了扩散模型可以成为投机解码的新路线
类比参考:LLM推理界的「涡轮增压」——不换发动机,但让同样的引擎输出更大马力
3. Anthropic Financial Services — 金融行业的10个垂直Agent模板(⭐ 11,717,日增1,343)
融资信息:Anthropic官方出品,开源
做什么的:覆盖投行、股票研究、私募、财富管理、基金运营的10个端到端Agent——Pitch Agent( comps → LBO → 品牌化路演PPT)、Market Researcher、GL Reconciler、KYC Screener等。同时作为Claude Cowork插件和Managed Agents API模板使用。
为什么值得关注:
– 「垂直Agent工具包」的产品模式:Anthropic没有做通用Agent,而是针对金融行业做了10个专业Agent,每个都绑定了行业特定的数据连接器(Daloopa、Morningstar、S&P Global、FactSet、Moody’s)——这是「平台做基础设施,垂直领域做深度」的典型打法
– 同一个系统提示词,两种运行方式:Cowork插件(人在环)和Managed Agent(无头运行)共用一套prompt和skill——这种「同一源码、两种部署」的设计值得所有做Agent产品的创业者学习
– LSEG和S&P Global的Partner Plugin:大型数据提供商已经在为Claude生态做专属插件,这意味着Agent生态的商业化路径正在形成
– 创业者启示:Anthropic在做的事情,每个垂直行业都值得重做一遍——法律、医疗、教育、房地产。「大模型厂商的垂直Agent模板」是一个信号:做行业Agent的窗口期在缩短
类比参考:AI Agent版的「Salesforce Financial Services Cloud」——平台出行业模板,合作伙伴出数据连接器
🔗 GitHub
4. Sakana RL Conductor / Fugu — 7B模型学会编排GPT-5和Claude(新产品+研究)
融资信息:Sakana AI(日本AI独角兽),已推出商业产品Fugu(Fugu Mini + Fugu Ultra)
做什么的:用强化学习训练一个7B参数的Qwen2.5-7B,让它自动编排GPT-5、Claude Sonnet 4、Gemini 2.5 Pro等7个模型——自动分配任务、设计通信拓扑、决定谁做什么。在AIME ’25达93.3%,GPQA-Diamond达87.5%,同时token消耗仅为传统MoA方案的1/6。
为什么值得关注:
– 「小模型指挥大模型」成为可复制路线:7B参数的Conductor学会了「Gemini 2.5 Pro做规划,Claude做审核,GPT-5写最终代码」的组合策略——这种路由策略不是人设计的,而是RL学出来的
– 从刚性流水线到自适应编排:传统LangChain/Multi-Agent框架是硬编码的,RL Conductor根据问题难度自动调整——简单问题1步解决,复杂问题自动构建4-Agent协作流程
– 已经商业化:Fugu Mini(低延迟)和Fugu Ultra(高性能)通过OpenAI兼容API提供,瞄准金融、国防等「通用模型还不够」的行业
– 创业者启示:「LLM编排器」可能成为独立品类——不是做模型,不是做Agent,而是做「AI的调度员」。当模型越来越多、越来越碎片化,智能路由和编排就是刚需
类比参考:AI模型界的「Kubernetes Scheduler」,或者「用7B模型做CTO,指挥GPT-5们写代码」
5. PageIndex — 拒绝向量数据库的「推理式RAG」(新项目)
融资信息:VectifyAI出品,开源+云服务+企业私有化部署
做什么的:用AlphaGo式的树搜索替代向量相似度检索——先为文档生成层级式「目录树」索引,再用LLM推理在树上搜索,实现「无需向量数据库、无需分块」的RAG。在FinanceBench上达98.7%准确率。
为什么值得关注:
– 「相似≠相关」的洞察很锋利:传统向量RAG用余弦相似度找最像的片段,但最像的不一定是最相关的。PageIndex用推理代替相似度——LLM像人翻书一样「先看目录,再翻章节」
– 零分块、零向量数据库:不需要Chunking,不需要Pinecone/Milvus——文档按自然章节组织,推理式检索。架构简单了很多
– FinanceBench 98.7%:在金融文档分析这个高价值场景上大幅超越向量RAG方案——SEC财报、招股书等长文档场景
– 创业者启示:RAG 2.0可能不是「更好的向量检索」,而是「不用向量检索」。当模型推理能力足够强时,让模型自己决定看什么比让算法猜测更有效
类比参考:AlphaGo式的文档检索——不是「找到最像的」,而是「推理出最相关的」
6. 9Router — 让AI编码工具永远不断线的免费路由器(⭐ 4,545,日增149)
融资信息:开源项目(decolua团队),npm包
做什么的:通用AI编码代理路由器——把Claude Code、Cursor、Copilot、Codex、OpenClaw等所有编码工具连接到40+AI提供商和100+模型,自动三级降级(订阅→低价→免费),RTK压缩节省20-40% token。
为什么值得关注:
– RTK Token压缩是实际痛点:git diff、grep、ls等工具输出经常吃掉30-50%的prompt预算。9Router的RTK自动检测并压缩工具输出,实测47K→28K token(节省40%),且不影响回答质量
– 「Caveman Mode」省65%输出token:注入极简指令让LLM回复更精炼——粗暴但有效
– 真正的「编码永不断线」:多账号轮询+自动降级+OAuth自动刷新,让开发者永远有模型可用
– 创业者启示:当AI编码工具越来越碎片化(Claude Code vs Cursor vs Copilot vs Codex),「统一路由层」成为刚需。这与昨天的Manifest(模型路由器)方向一致,但9Router更偏编码场景+免费策略
类比参考:AI编码工具的「Cloudflare + CDN」——加速、省钱、高可用
7. Vercel Open Agents — Vercel的开源云端Agent模板(⭐ 5,047,日增131)
融资信息:Vercel Labs出品,开源
做什么的:在Vercel上构建和运行后台编码Agent的开源模板——三层架构(Web UI → Agent工作流 → 沙箱VM),Agent运行在Vercel Workflow上,沙箱独立hibernate/resume,支持GitHub集成自动提PR。
为什么值得关注:
– 「Agent ≠ 在浏览器里跑」:Open Agents的关键设计是Agent不在沙箱内运行——Agent在外部通过工具操作沙箱。这样Agent执行不绑定单次请求生命周期,沙箱可以独立休眠和恢复
– Durable Workflow架构:每个Agent turn可以跨多个持久化步骤,断线重连后自动恢复到之前的流——这对长时间运行的编码Agent是刚需
– 一键部署:Fork + Vercel Import + Neon自动配库,开发者5分钟内可以跑起来自己的编码Agent
– 创业者启示:「Agent托管平台」正在成形——Vercel做前端Agent托管,各云厂商也会跟进。如果你在做需要长时间运行的Agent产品,这种Workflow+沙箱的架构值得参考
类比参考:Agent版的「Vercel Next.js模板」——不是框架,是可直接fork并修改的生产级起点
8. OpenReel Video — 开源CapCut替代品,浏览器里跑的专业视频编辑器(⭐ 1,699,日增233)
融资信息:开源项目(MIT协议),个人开发者Augustinus出品
做什么的:完全在浏览器端运行的专业视频编辑器——多轨时间线、关键帧动画、调色(LUT支持)、音频效果、字幕、屏幕录制、AI超分,基于WebGPU和WebCodecs实现4K编辑+ProRes导出。零上传、零安装、零水印。
为什么值得关注:
– 130K+行代码的浏览器应用:前端66K行+核心引擎59K行,这不是demo,是一个接近达芬奇Resolve功能深度的浏览器应用——证明了WebGPU/WebCodecs已经达到了专业级
– 「你的视频永远不离开你的设备」:隐私优先的视频编辑——所有处理在本地GPU完成,对内容创作者来说是真正的卖点
– AI辅助开发:作者Augustinus用Claude AI辅助管理Issue、写代码、做Code Review——这是一个「一个人+AI」开发的超大型项目
– 创业者启示:「浏览器端的本地优先应用」是一个被低估的方向——视频编辑、3D建模、CAD等专业工具正在被WebGPU重新定义。无需安装、数据不离开设备、跨平台,这三个优势在隐私意识增强的时代越来越重要
类比参考:视频编辑界的「Figma」——专业工具搬进浏览器,或者「开源版CapCut但100%本地运行」
📊 今日趋势总结
| 趋势 | 信号 |
|---|---|
| 🧠 小模型的极致推理 | ZAYA1-8B用760M活跃参数超越GPT-5-High,「推理密度」成为新竞争维度 |
| 🎼 小模型指挥大模型 | Sakana 7B Conductor学会编排GPT-5/Claude/Gemini,「AI调度员」成为新品类 |
| 🏭 推理加速的范式创新 | DFlash用扩散模型做投机解码,推理加速不再是「小模型draft」而是「扩散draft」 |
| 🏦 大厂铺设垂直Agent基础设施 | Anthropic金融Agent工具包+Dreaming能力,「平台做底座+行业做深度」模式启动 |
| 🔍 RAG 2.0:推理取代向量 | PageIndex用树搜索推理替代向量相似度,FinanceBench 98.7% |
| 🌐 浏览器端专业工具爆发 | OpenReel Video在浏览器里实现达芬奇级功能,WebGPU改写专业软件规则 |
📌 422产品实验室出品 | 每日精选AI新产品、融资、创新模式
关注我们,获取面向创业者的AI产品情报


































