AI 产品日报 | 2026-05-08

🔬 422产品实验室 · AI新产品日报 · 每日精选

今日洞察

今天的信号指向一个关键词：「小型化的极致智能」。Zyphra用760M活跃参数的ZAYA1-8B在数学推理上超越GPT-5-High，用的还是AMD芯片——这不仅是「小模型挑战大模型」的又一个案例，更是「推理能力可以被压缩」的实证。DFlash用扩散模型做投机解码，将推理加速变成了一个模型压缩问题。Sakana的7B RL Conductor学会了编排GPT-5和Claude Sonnet 4——「小模型指挥大模型」正在成为一个可复制的技术路线。与此同时，Anthropic在Code with Claude大会上发布的「Dreaming」能力和金融行业Agent工具包，标志着大厂开始为「Agent垂直化」铺设基础设施——这对创业者既是信号（验证了方向），也是压力（大厂下场了）。今天最值得深思的趋势是：AI的价值正在从「谁的模型最大」转向「谁的编排最聪明」。

1. ZAYA1-8B — 760M活跃参数超越GPT-5-High的推理模型（新模型发布）

融资信息：Palo Alto初创公司Zyphra（成立于2021年），Apache 2.0开源

做什么的：MoE++架构的推理语言模型，总参数8.4B但仅760M活跃参数——在AIME ’25数学基准上达91.9%，HMMT ’25达89.6%，超越Claude 4.5 Sonnet（79.2%）和GPT-5-High（88.3%）。全程使用AMD Instinct MI300 GPU训练。

为什么值得关注：
– 用AMD芯片训练出前沿级模型：这是首个完全在AMD GPU上训练的具有竞争力的推理模型，打破了NVIDIA在AI训练上的事实垄断。如果AMD生态成熟，推理成本可能大幅下降
– MoE++三大创新：压缩卷积注意力（CCA，KV缓存降8x）、MLP路由器（用PID控制器稳定训练）、学习型残差缩放——这三项改进可能成为下一代MoE架构的标准配置
– Markovian RSA推理范式：不做无限长的思维链，而是生成多条并行推理轨迹，只取「尾部」汇总再推理——让700M参数的模型可以「无限思考」而不撑爆上下文窗口
– 「推理预训练」而非后训练：在预训练阶段就融入推理能力（Answer-Preserving Trimming），而不是训练完了再贴推理头——这个思路可能改变未来模型训练的范式

类比参考：推理界的「M1芯片」——ARM架构但性能打Intel，低功耗但性能不妥协

🔗 Zyphra官网 | Hugging Face | 技术报告

2. DFlash — 用扩散模型做投机解码，推理加速的新范式（⭐ 3,503，日增671）

融资信息：开源项目（z-lab研究团队出品），已获vLLM和SGLang官方集成

做什么的：Block Diffusion for Flash Speculative Decoding——用一个轻量级扩散模型替代传统小模型做投机解码的draft model，已支持Gemma-4、Qwen3.5、Kimi-K2.5等15+主流模型，集成进vLLM、SGLang、MLX三大推理框架。

为什么值得关注：
– 扩散模型≠只有图像：DFlash把扩散模型的思想引入LLM推理加速——批量并行生成draft token，质量远高于传统自回归小模型。这是一个思维范式的突破
– 15+模型即插即用：从Qwen3.5-4B到GPT-OSS-120B，覆盖了几乎所有主流开源模型。用户只需一行--speculative-config就能启用
– vLLM官方支持：vLLM v0.20.1+已原生集成DFlash，这意味着它正在从研究项目变成生产级工具
– MLX支持Apple Silicon：M5 Pro上实测可用，意味着Mac用户也能享受投机解码加速
– 创业者启示：推理加速是一个巨大的商业赛道——不是做模型，而是让别人的模型跑得更快更便宜。DFlash证明了扩散模型可以成为投机解码的新路线

类比参考：LLM推理界的「涡轮增压」——不换发动机，但让同样的引擎输出更大马力

🔗 GitHub | 论文 | Blog

3. Anthropic Financial Services — 金融行业的10个垂直Agent模板（⭐ 11,717，日增1,343）

融资信息：Anthropic官方出品，开源

做什么的：覆盖投行、股票研究、私募、财富管理、基金运营的10个端到端Agent——Pitch Agent（ comps → LBO → 品牌化路演PPT）、Market Researcher、GL Reconciler、KYC Screener等。同时作为Claude Cowork插件和Managed Agents API模板使用。

为什么值得关注：
– 「垂直Agent工具包」的产品模式：Anthropic没有做通用Agent，而是针对金融行业做了10个专业Agent，每个都绑定了行业特定的数据连接器（Daloopa、Morningstar、S&P Global、FactSet、Moody’s）——这是「平台做基础设施，垂直领域做深度」的典型打法
– 同一个系统提示词，两种运行方式：Cowork插件（人在环）和Managed Agent（无头运行）共用一套prompt和skill——这种「同一源码、两种部署」的设计值得所有做Agent产品的创业者学习
– LSEG和S&P Global的Partner Plugin：大型数据提供商已经在为Claude生态做专属插件，这意味着Agent生态的商业化路径正在形成
– 创业者启示：Anthropic在做的事情，每个垂直行业都值得重做一遍——法律、医疗、教育、房地产。「大模型厂商的垂直Agent模板」是一个信号：做行业Agent的窗口期在缩短

类比参考：AI Agent版的「Salesforce Financial Services Cloud」——平台出行业模板，合作伙伴出数据连接器

🔗 GitHub

4. Sakana RL Conductor / Fugu — 7B模型学会编排GPT-5和Claude（新产品+研究）

融资信息：Sakana AI（日本AI独角兽），已推出商业产品Fugu（Fugu Mini + Fugu Ultra）

做什么的：用强化学习训练一个7B参数的Qwen2.5-7B，让它自动编排GPT-5、Claude Sonnet 4、Gemini 2.5 Pro等7个模型——自动分配任务、设计通信拓扑、决定谁做什么。在AIME ’25达93.3%，GPQA-Diamond达87.5%，同时token消耗仅为传统MoA方案的1/6。

为什么值得关注：
– 「小模型指挥大模型」成为可复制路线：7B参数的Conductor学会了「Gemini 2.5 Pro做规划，Claude做审核，GPT-5写最终代码」的组合策略——这种路由策略不是人设计的，而是RL学出来的
– 从刚性流水线到自适应编排：传统LangChain/Multi-Agent框架是硬编码的，RL Conductor根据问题难度自动调整——简单问题1步解决，复杂问题自动构建4-Agent协作流程
– 已经商业化：Fugu Mini（低延迟）和Fugu Ultra（高性能）通过OpenAI兼容API提供，瞄准金融、国防等「通用模型还不够」的行业
– 创业者启示：「LLM编排器」可能成为独立品类——不是做模型，不是做Agent，而是做「AI的调度员」。当模型越来越多、越来越碎片化，智能路由和编排就是刚需

类比参考：AI模型界的「Kubernetes Scheduler」，或者「用7B模型做CTO，指挥GPT-5们写代码」

🔗 论文 | Fugu Beta

5. PageIndex — 拒绝向量数据库的「推理式RAG」（新项目）

融资信息：VectifyAI出品，开源+云服务+企业私有化部署

做什么的：用AlphaGo式的树搜索替代向量相似度检索——先为文档生成层级式「目录树」索引，再用LLM推理在树上搜索，实现「无需向量数据库、无需分块」的RAG。在FinanceBench上达98.7%准确率。

为什么值得关注：
– 「相似≠相关」的洞察很锋利：传统向量RAG用余弦相似度找最像的片段，但最像的不一定是最相关的。PageIndex用推理代替相似度——LLM像人翻书一样「先看目录，再翻章节」
– 零分块、零向量数据库：不需要Chunking，不需要Pinecone/Milvus——文档按自然章节组织，推理式检索。架构简单了很多
– FinanceBench 98.7%：在金融文档分析这个高价值场景上大幅超越向量RAG方案——SEC财报、招股书等长文档场景
– 创业者启示：RAG 2.0可能不是「更好的向量检索」，而是「不用向量检索」。当模型推理能力足够强时，让模型自己决定看什么比让算法猜测更有效

类比参考：AlphaGo式的文档检索——不是「找到最像的」，而是「推理出最相关的」

🔗 GitHub | 官网 | Chat平台

6. 9Router — 让AI编码工具永远不断线的免费路由器（⭐ 4,545，日增149）

融资信息：开源项目（decolua团队），npm包

做什么的：通用AI编码代理路由器——把Claude Code、Cursor、Copilot、Codex、OpenClaw等所有编码工具连接到40+AI提供商和100+模型，自动三级降级（订阅→低价→免费），RTK压缩节省20-40% token。

为什么值得关注：
– RTK Token压缩是实际痛点：git diff、grep、ls等工具输出经常吃掉30-50%的prompt预算。9Router的RTK自动检测并压缩工具输出，实测47K→28K token（节省40%），且不影响回答质量
– 「Caveman Mode」省65%输出token：注入极简指令让LLM回复更精炼——粗暴但有效
– 真正的「编码永不断线」：多账号轮询+自动降级+OAuth自动刷新，让开发者永远有模型可用
– 创业者启示：当AI编码工具越来越碎片化（Claude Code vs Cursor vs Copilot vs Codex），「统一路由层」成为刚需。这与昨天的Manifest（模型路由器）方向一致，但9Router更偏编码场景+免费策略

类比参考：AI编码工具的「Cloudflare + CDN」——加速、省钱、高可用

🔗 GitHub | 官网

7. Vercel Open Agents — Vercel的开源云端Agent模板（⭐ 5,047，日增131）

融资信息：Vercel Labs出品，开源

做什么的：在Vercel上构建和运行后台编码Agent的开源模板——三层架构（Web UI → Agent工作流 → 沙箱VM），Agent运行在Vercel Workflow上，沙箱独立hibernate/resume，支持GitHub集成自动提PR。

为什么值得关注：
– 「Agent ≠ 在浏览器里跑」：Open Agents的关键设计是Agent不在沙箱内运行——Agent在外部通过工具操作沙箱。这样Agent执行不绑定单次请求生命周期，沙箱可以独立休眠和恢复
– Durable Workflow架构：每个Agent turn可以跨多个持久化步骤，断线重连后自动恢复到之前的流——这对长时间运行的编码Agent是刚需
– 一键部署：Fork + Vercel Import + Neon自动配库，开发者5分钟内可以跑起来自己的编码Agent
– 创业者启示：「Agent托管平台」正在成形——Vercel做前端Agent托管，各云厂商也会跟进。如果你在做需要长时间运行的Agent产品，这种Workflow+沙箱的架构值得参考

类比参考：Agent版的「Vercel Next.js模板」——不是框架，是可直接fork并修改的生产级起点

🔗 GitHub | 在线Demo

8. OpenReel Video — 开源CapCut替代品，浏览器里跑的专业视频编辑器（⭐ 1,699，日增233）

融资信息：开源项目（MIT协议），个人开发者Augustinus出品

做什么的：完全在浏览器端运行的专业视频编辑器——多轨时间线、关键帧动画、调色（LUT支持）、音频效果、字幕、屏幕录制、AI超分，基于WebGPU和WebCodecs实现4K编辑+ProRes导出。零上传、零安装、零水印。

为什么值得关注：
– 130K+行代码的浏览器应用：前端66K行+核心引擎59K行，这不是demo，是一个接近达芬奇Resolve功能深度的浏览器应用——证明了WebGPU/WebCodecs已经达到了专业级
– 「你的视频永远不离开你的设备」：隐私优先的视频编辑——所有处理在本地GPU完成，对内容创作者来说是真正的卖点
– AI辅助开发：作者Augustinus用Claude AI辅助管理Issue、写代码、做Code Review——这是一个「一个人+AI」开发的超大型项目
– 创业者启示：「浏览器端的本地优先应用」是一个被低估的方向——视频编辑、3D建模、CAD等专业工具正在被WebGPU重新定义。无需安装、数据不离开设备、跨平台，这三个优势在隐私意识增强的时代越来越重要

类比参考：视频编辑界的「Figma」——专业工具搬进浏览器，或者「开源版CapCut但100%本地运行」

🔗 GitHub | 在线使用

📊 今日趋势总结

趋势	信号
🧠 小模型的极致推理	ZAYA1-8B用760M活跃参数超越GPT-5-High，「推理密度」成为新竞争维度
🎼 小模型指挥大模型	Sakana 7B Conductor学会编排GPT-5/Claude/Gemini，「AI调度员」成为新品类
🏭 推理加速的范式创新	DFlash用扩散模型做投机解码，推理加速不再是「小模型draft」而是「扩散draft」
🏦 大厂铺设垂直Agent基础设施	Anthropic金融Agent工具包+Dreaming能力，「平台做底座+行业做深度」模式启动
🔍 RAG 2.0：推理取代向量	PageIndex用树搜索推理替代向量相似度，FinanceBench 98.7%
🌐 浏览器端专业工具爆发	OpenReel Video在浏览器里实现达芬奇级功能，WebGPU改写专业软件规则