
从 Token 角度,测算 AI 算力需求
本报告旨在提供一个推理算力需求从用户渗透到 Token 调用、再到硬件支出的分析框架,我们通过对 Google 与微软(OpenAI)未来 Token 调用量、算力总需求和未来硬件支出节奏的测算,得出结论:推理算力需求增长速度快于单位算力成...

本报告旨在提供一个推理算力需求从用户渗透到 Token 调用、再到硬件支出的分析框架,我们通过对 Google 与微软(OpenAI)未来 Token 调用量、算力总需求和未来硬件支出节奏的测算,得出结论:推理算力需求增长速度快于单位算力成...

2025 年,生成式 AI 像极了蒸汽机时代的铁轨——喧嚣、加速,方向却依旧扑朔。张最新收入榜单——全球 100 个 AI 产品与中国 100 个 AI 产品给出了清晰坐标。 1.缺口 全球AI产品榜单全年订阅收入 131 亿美元。中国AI...

由于价值错位和成本压力,传统的定价方式正在失效。软件公司对全新颠覆性定价模式的需求比以往任何时候都更高涨。 最近,国外科技作者 Kyle Poyar 收集了超过 240 家软件公司的数据,这些公司的年经常性收入(ARR)在 100 万至 2...

喜马拉雅资本创始人:李录 谢谢姜国华老师,也谢谢常劲老师,以及所有让这门课程得以实现的老师、同行和参加这门课程的同学!今年姜老师来美国访问时,我们聊到,这门课开设十年来,在学界和业界都产生了一定影响,今年申请线上听课的人数已经超过了1000...

作者郎瀚威,现居美国硅谷Palo Alto 2024年是人工智能(AI)领域取得突破性进展的一年。随着技术的不断进化,AI不仅进一步渗透到生产力工具、教育、娱乐等垂直赛道,还推动了全球商业生态和用户行为的深刻变革。本报告基于Similarw...

德勤近期发布报告《 How AI agents are reshaping the future of the work》,重点阐述了Generative AI的扩展功能、应用场景和对企业影响。报告关键要点: 如何利用GenAI重新设计业务...

摘要 生成性人工智能(Generative AI)作为一种突破性技术,正以前所未有的速度和规模影响全球经济和社会结构。自ChatGPT推出以来,人们对生成性AI的潜力和风险展开了广泛讨论。本报告通过调查超过25,000人,探讨了人们对生成性...
🔬 422产品实验室 · AI新产品日报 · 每日精选
今天最重要的信号是「AI Agent正在从软件界面渗透进每一个已存在的工作流」。同一天内三条线索交汇:Viktor把AI Coworker嵌入Slack/Teams,10周做到$15M ARR——这是2026年ToB SaaS最快增速之一;Unframe用预构建模块化组件让企业「一天上线定制AI应用」,12个月拿下$100M合同额;Contrario不替代猎头而是「武装」猎头,6个月$6M ARR。
与此同时,「AI对抗AI」的安全赛道正式进入资本加速期:Ocean以$28M从隐身出来,用Agent对抗AI钓鱼攻击——创始人曾是少年黑客和以色列铁穹系统研究员。Stilta以「Cursor for Patent Lawyers」拿到a16z和YC的$10.5M——不是AI替代律师,而是AI让律师的每个动作都自带上下文。
对创业者来说,今天的核心判断是:最高ROI的AI产品不是「创造新场景」,而是「嵌入现有工作流,让已有动作变快10倍」。Viktor没有做新App,而是住在Slack里;Contrario没有替代猎头,而是给猎头装上AI外骨骼。找到用户已经每天在做的事,把AI嵌进去——这是2026年最被验证的go-to-market策略。
融资信息:$75M Series A,Accel领投,Bek Ventures、Kaya VC、Inovo VC等跟投。波兰华沙+慕尼黑,波兰历史上最大A轮。创始人Fryderyk Wiatrowski,团队来自Meta
做什么的:AI Coworker——直接运行在Slack和Microsoft Teams(即将支持)里,连接3000+企业工具,不只是回答问题,而是「做工作」:拉报表、管理广告活动、建Dashboard、研究客户线索、写代码。理念是「Not a tool. A hire.」(不是工具,是员工)。已有13,000+ workspace安装。
为什么值得关注: - 10周$15M ARR——SaaS创业史上最快增速之一:从0到$15M年化收入只用了10周。这个数字比大多数SaaS公司3年的增长都快。信号是:用户不需要「又一个AI App」,他们需要AI住进他们已经在用的工具里 - 13,000+ workspace——「嵌入vs独立」的路线之争有了答案:Viktor没有做独立App,而是选择住在Slack里。CEO说得很清楚:「Slack beats web apps for AI coworkers by redefining 'fast'」。用户不需要切换窗口,在已有对话流里直接@Viktor就能做事 - 3000+工具集成——Agent的「手」越多越有用:能连Salesforce、HubSpot、Jira、GitHub、Notion等3000+工具。这意味着Viktor不是聊天机器人,而是真正能操作你公司系统的AI员工 - $75M A轮——Accel押注「AI原生SaaS」的定价:波兰创始团队拿到该国历史最大A轮。Accel的判断是:AI Coworker不是功能增强,而是新的企业软件品类 - 创业者启示:「住在用户已经在用的界面里」是AI Agent最被低估的分发策略。不需要教育用户打开新App,只需要在他们每天停留的Slack/Teams/微信里出现。Viktor证明了「嵌入」比「独立」的获客成本低一个数量级
类比参考:Slack版的「Devin」——Devin在浏览器里做开发者的事,Viktor在Slack里做运营/销售/市场的事。或者「企业版的Siri,但真的能做事」

融资信息:$300M融资,估值约$40亿。Radical Ventures领投,Nvidia、Sequoia参投。以色列团队。同时发布DOS 2.0平台
做什么的:实时世界模型(Real-time World Models)+ AI优化基础设施。核心产品包括:DOS平台(AI推理优化中间件,让模型在任意芯片上高效运行)和实时世界模型(让AI系统实时理解和预测物理世界,为机器人和自动驾驶服务)。目标是为「Physical AI」提供底层基础设施。
为什么值得关注: - $300M + $40亿估值——「物理AI基础设施」被重注:当大多数AI投资还在LLM应用层时,Decart拿到了2026年最大单笔之一去建「AI理解物理世界」的基础设施。Nvidia亲自参投,说明芯片巨头认为这是计算需求的下一个增长引擎 - 「世界模型」vs「语言模型」——AI的下一个范式:语言模型理解文字,世界模型理解物理空间。如果LLM是AI学会了「读」,世界模型就是AI学会了「看和感知」。这对机器人、自动驾驶、工业自动化是质变 - DOS 2.0——让模型在任何芯片上跑得更快:不只做模型,还做模型的「编译器」。DOS平台让AI推理在任意芯片(Nvidia/AMD/Amazon Trainium)上高效运行。这是「AI时代的操作系统」 - 实时是关键差异:不是离线生成,而是实时推理和预测。这对自动驾驶(毫秒级反应)、机器人(实时避障)等场景是刚需 - 创业者启示:「AI基础设施层」正在从「模型训练」向「推理优化」和「世界模型」两个方向分化。推理优化是让现有模型跑得更快更便宜,世界模型是让AI理解物理世界。两者都是百亿级市场
类比参考:AI版的「英伟达CUDA + 虚幻引擎」——CUDA让GPU计算标准化,DOS让AI推理标准化;虚幻引擎模拟虚拟世界,Decart的World Model模拟物理世界。或者「Physical AI的基础设施三件套:编译器+运行时+世界引擎」

融资信息:$50M Series B,Highland Europe领投。累计融资$100M。创始人Shay Levi,以色列公司。12个月内Total Contract Value突破$100M,400%净收入留存率(NRR)
做什么的:企业AI交付平台——通过预构建的模块化组件(pre-built modular components),让企业快速定制和部署AI应用。不需要从零开发,而是像搭乐高一样组合已有模块,一天内上线定制化AI解决方案。解决的是企业「想用AI但不知道从哪里开始、也不想等6个月开发」的痛点。
为什么值得关注: - 12个月$100M TCV——企业AI赛道最快的商业化记录之一:大多数AI初创公司第一年在找PMF,Unframe第一年已经在签百万级合同。400% NRR说明客户不仅续约,还在大幅加购 - 「乐高式AI应用」解决了企业的两个核心恐惧:企业怕什么?一是开发周期长(Unframe说一天上线),二是锁定在某个模型上(Unframe是模型无关的)。这两个恐惧的解法就是「预构建模块+即插即用」 - 400% NRR——客户在疯狂扩展使用场景:净收入留存率400%意味着现有客户每年的支出是前一年的4倍。这说明Unframe不是做一单生意,而是成为企业的「AI操作系统」,每个新场景都是加购机会 - 模型无关——在模型战争中最安全的位置:不绑定GPT或Claude,企业可以随时切换底层模型。在模型快速迭代的2026年,这个灵活性是刚需 - 创业者启示:「AI应用的模块化交付」是一个正在形成的独立品类。当每个企业都想用AI但不想从零开发时,提供一个「AI应用模板商店+快速定制能力」的平台就能吃到这个爆发需求。Unframe做的是「AI版的Shopify」——Shopify让开网店变简单,Unframe让上AI变简单
类比参考:AI版的「Shopify + Zapier」——Shopify让开店变简单,Unframe让AI应用上线变简单;Zapier串联SaaS,Unframe串联AI能力。或者「企业AI的CMS(内容管理系统)」

融资信息:$28M总融资($20M Series A + 早期资金)。Lightspeed Venture Partners领投,Picture Capital参投。纽约,创始人Shay Shwartz
做什么的:Agentic Email Security Platform——用AI Agent对抗AI生成的钓鱼邮件。当攻击者用AI批量生成个性化钓鱼邮件时,传统规则匹配的邮件安全方案已经不够用。Ocean部署AI Agent实时分析每封邮件的意图、上下文和行为模式,检测AI生成的钓鱼攻击。
为什么值得关注: - 「AI攻击AI」——安全赛道的新范式:当攻击者开始用AI生成钓鱼邮件(个性化、语法完美、上下文精准),传统基于规则和签名匹配的安全方案彻底失效。Ocean的逻辑是:只有AI才能打败AI - 创始人的「黑客→铁穹→创业者」路径:Shay Shwartz少年时是黑客,被抓后在以色列国防军研发铁穹(Iron Dome)反导系统的网络安全部门工作。从攻击者视角到防御者视角到产品化——这个路径本身就是竞争力 - Agentic安全——不只是检测,是自主响应:Ocean的Agent不只是发现可疑邮件,还能自主采取行动——隔离、分析、溯源、生成防御策略。这是从「告警工具」到「自主防御系统」的升级 - 邮件是最大的攻击面:91%的网络攻击始于钓鱼邮件。AI让钓鱼攻击的成本降低了100倍——以前需要人工写的个性化邮件现在可以批量生成。需求是刚性的、增长的 - 创业者启示:「AI生成的攻击需要AI驱动的防御」——这是一个供需同步爆发的市场。当AI降低了攻击成本,防御也必须升级。同样的逻辑适用于:AI生成假视频→AI检测假视频,AI生成假评论→AI识别假评论
类比参考:邮件安全版的「CrowdStrike」——CrowdStrike用AI保护终端,Ocean用AI保护邮箱。或者「铁穹系统的企业邮件版——导弹是钓鱼邮件,拦截弹是AI Agent」

🔗 官网 | TechCrunch报道
融资信息:$10.5M Seed轮。a16z领投,YC参投,OpenAI、Lovable、Legora等战略投资人跟投。斯德哥尔摩,YC 2025批次
做什么的:专利诉讼和检索的AI Agent平台——自称为「Cursor for Patent Practitioners」。AI Agent能深度分析prior art(现有技术文献)、生成专利申请、辅助专利诉讼。核心是「source-backed, auditable analysis at scale」——每个AI分析都有可追溯的来源引用,这在法律领域是刚需。
为什么值得关注: - a16z + YC + OpenAI三方联合——法律AI赛道获顶级资本共识:三个AI领域最重要的玩家同时出现在一轮Seed里,说明「AI+法律」不再是小众赛道。特别是OpenAI作为投资方出现,暗示Stilta可能深度集成GPT能力 - 「Cursor for X」的品类验证:Stilta的成功进一步验证了「把Cursor的模式复制到垂直领域」是一个可复制的创业方法论。Cursor让开发者AI-native地写代码,Stilta让专利律师AI-native地做检索和申请 - 可审计性(Auditability)是法律AI的生死线:律师不能引用AI的幻觉。Stilta的每个分析都附带源文件引用,这在法律领域不是nice-to-have而是must-have。这个设计选择决定了产品能不能真正被律师使用 - 专利诉讼是法律的「高利润区」:一个专利诉讼案子动辄数百万美元律师费。Stilta切入的是法律领域最赚钱的细分市场 - 创业者启示:「Cursor for X」是一个已被验证的创业公式。找到专业知识密集、信息检索量大、错误成本高的垂直领域,把Cursor的「AI-native编辑+Agent辅助」模式复制过去。下一个可能是:Cursor for Compliance、Cursor for Tax、Cursor for Audit
类比参考:法律版的「Cursor」——Cursor让开发者AI写代码,Stilta让专利律师AI做检索。或者「Harvey AI的专利专用版,但更像IDE而非聊天框」

🔗 官网 | TechCrunch报道 | YC
融资信息:$43M融资,Steel Atlas领投。产品SmartMast™。美国公司
做什么的:海事AI感知网络——在商用船只上安装SmartMast传感器硬件(摄像头+信号监测),把全球商船变成分布式感知节点,实时构建全球海洋的「共享态势感知」。目标是成为海洋的实时情报层——让每一艘船都能「看到」周围的海域发生了什么。
为什么值得关注: - 「把现有船变成传感器」vs「发射卫星」——1000倍成本优势:传统海洋监控靠卫星和巡逻机,成本极高。Quartermaster的思路是:全球有数百万艘商船在海上跑,给它们装上便宜传感器就能实现全球覆盖。据说比传统方案便宜1000倍 - 「蜂群思维」是AI+IoT的终极形态:不是一艘船的AI,而是所有船共享感知数据的集体智能。每艘船既是数据生产者也是消费者——上传自己看到的,下载别人看到的。这是去中心化AI的物理实现 - 海事是AI最未被渗透的万亿级市场:全球90%的贸易走海运,但海洋的实时感知能力接近零。走私、海盗、非法捕捞、海上事故——这些问题在AI之前几乎没有技术方案 - 硬件+软件+网络的整合壁垒:不是纯软件公司,需要造传感器、装到船上、建数据网络、做AI分析。这个整合壁垒比纯SaaS高得多,但护城河也深得多 - 创业者启示:「给现有物理资产加装AI感知能力」是一个被低估的品类。Quartermaster的思路可以复制到:给卡车装AI感知(公路蜂群)、给农场装AI感知(农业蜂群)、给建筑工地装AI感知(工地蜂群)。关键是找到「已有大量分布资产但缺乏智能」的场景
类比参考:海洋版的「Waze + Starlink」——Waze让每辆车变成交通传感器,Quartermaster让每艘船变成海洋传感器;Starlink建天基网络,Quartermaster建海基网络。或者「海洋的Nest摄像头网络」

🔗 官网 | TechCrunch报道
融资信息:$2.3M Pre-seed/Seed。YC校友。斯坦福辍学生Arya和Adi创办。旧金山
做什么的:AI驱动的招聘平台——核心模式是「AI Agent + 人类猎头」协同。Contrario不是替代猎头,而是给猎头装上AI外骨骼:AI做候选人筛选、简历分析、面试排期、跟进提醒,猎头做关系维护和最终判断。已向平台猎头支付超过$100万佣金。
为什么值得关注: - 6个月$6M ARR + 支付$100万+佣金——单位经济模型被验证:不是VC烧钱换增长,而是平台已经产生了真实的佣金流动。$100万+支付给猎头说明这个模式不是「AI取代人」而是「AI赋能人」 - 「AI武装人」vs「AI替代人」——哪个商业模式更好?:Contrario选择了后者。结果:猎头变成了超级猎头(效率10x),候选人得到更好的匹配,企业更快招到人。三赢 - 人才池已有2000+常春藤申请者:从高端人才切入,确保平台上有「买方想买的人」。这是双边市场的经典启动策略 - Stanford辍学生——又一个「辍学创业」故事:YC的基因在Contrario身上很明显——快速上线、用数据说话、不过度设计 - 创业者启示:「AI增强而非替代」可能是被低估的商业模式。大多数人想到AI + 某行业时,第一反应是「用AI替代这个行业的从业者」。但Contrario证明了:让从业者变强10倍,比替代他们,商业化路径更短、信任壁垒更低、客户转化更容易
类比参考:招聘版的「Copilot」——GitHub Copilot没有替代程序员而是让他们变快,Contrario没有替代猎头而是让他们变强。或者「猎头行业的外骨骼」

🔗 官网 | VentureBeat报道
| 趋势 | 信号 |
|---|---|
| 🏢 AI嵌入已有工作流 | Viktor 10周$15M ARR——住在Slack里比做独立App获客快10倍 |
| 🏗️ Physical AI基础设施崛起 | Decart $300M建世界模型——从语言AI到物理AI的范式切换 |
| 🛡️ AI对抗AI安全赛道 | Ocean $28M——AI钓鱼攻击催生AI防御Agent |
| 📐 AI应用模块化交付 | Unframe 12个月$100M TCV——企业AI的「乐高化」 |
| ⚖️ 垂直专业AI工具爆发 | Stilta $10.5M——「Cursor for X」创业公式持续验证 |
| 🤝 AI增强而非替代 | Contrario $6M ARR半年——「给从业者装外骨骼」比「替代从业者」ROI更高 |
| 🌊 物理世界AI化 | Quartermaster $43M——给全球商船装AI传感器,海洋变成可感知的网络 |
📌 422产品实验室出品 | 每日精选AI新产品、融资、创新模式
关注我们,获取面向创业者的AI产品情报
🔬 422产品实验室 · AI新产品日报 · 每日精选
今天最值得关注的信号是「AI自我进化」从概念变成了资本追逐的具体赛道。同一天内三个维度的事件交汇:Recursive Superintelligence以$650M和$46.5亿估值出隐身,要做「自我改进的AI」;Adaption推出AutoScientist,让模型自动化微调自己,$50M Seed;GenericAgent以11.3K Star展示了从3300行种子代码长出完整技能树的自进化Agent。三条路,同一个方向——AI正在学会训练AI。
与此同时,「AI Agent的个人化」出现了爆品级验证:OpenHuman两周内8000+ Star、5000+日活用户,以本地优先+10亿token记忆+118+集成证明了用户愿意「拥有」而非「订阅」AI。Poppy以「主动感知」切入数字生活管理,Charms.ai则把AI角色变成可交易的链上资产。
对创业者来说,今天的核心判断是:AI产业的下一个分层是「谁训练AI」和「谁被AI训练」。 Recursive和Adaption在做「让AI训练AI」的基础设施,GenericAgent在证明「Agent可以自己长能力」。这三条路线汇聚的终点是同一个:AI产品的迭代速度将脱离人类工程师的瓶颈。
融资信息:开源项目(MIT),tinyhumansai出品,Rust+TypeScript构建。Product Hunt #3,GitHub Trending全球#1
做什么的:个人AI超级智能桌面应用——本地优先、隐私第一、10亿token持久记忆。整合118+ AI provider和工具集成,用本地LLM处理低级任务保护隐私,TokenJuice压缩技术管理记忆。一个界面覆盖对话、语音、编码、知识库、任务管理。Rust内核保证性能和内存安全。
为什么值得关注: - 两周8000+ Star、5000+日活——「拥有你的AI」是真实需求:这个增长速度在AI Agent赛道极为罕见。用户不需要终端、不需要写prompt、不需要反复配置。安装→连接服务→开始使用。这说明AI Agent的「最后一公里」不是技术问题,是体验问题 - 10亿token记忆树(Memory Trees)——不是向量数据库,是认知架构:OpenHuman的记忆不是简单的RAG检索,而是树状结构,Agent能理解信息之间的层级和关联。这意味着它真正「记住」你的工作上下文,而不是每次从零开始 - 118+集成,30+ AI Provider——不做模型做Harness:OpenHuman不训练模型,它做的是「所有模型的统一入口」。用户可以在一个界面里调用Claude、GPT、Gemini等任何模型,同时保持统一的记忆和身份。这是「模型无关的AI操作系统」思路 - Rust内核——性能是Agent体验的隐形门槛:AI Agent需要实时响应,Electron应用的延迟在密集交互时非常明显。Rust保证了低内存占用和快速启动 - 创业者启示:「AI Agent的操作系统层」是一个正在形成的品类。模型会越来越多、越来越便宜,但用户需要一个统一的入口来管理所有模型交互的上下文。OpenHuman做的是AI时代的「浏览器」——模型是网页,它是Chrome
类比参考:AI Agent版的「Raycast + Obsidian」——一个快速启动器把所有AI能力统一入口,同时有Obsidian级别的本地知识管理。或者「Ollama的GUI版,但带10亿token记忆」

🔗 GitHub | Product Hunt
融资信息:开源项目,lsdefine出品,Python构建
做什么的:自进化AI Agent——从3.3K行种子代码开始,通过「技能树」机制自动生长出完整的系统控制能力。Agent执行任务时自动发现新技能、编写技能代码、将技能挂载到技能树上供后续复用。最终实现6倍更少的token消耗完成同等任务。
为什么值得关注: - 11.3K Star + 1.3K Fork——「Agent自己写自己的工具」引发了开发者共振:GenericAgent的核心创新不是任何单一能力,而是「自生长」机制。Agent遇到不会的事情,不是报错,而是自动写一个技能来解决,然后永久记住 - 3.3K行种子→完整系统控制:启动时Agent只有一个极简的种子代码库。但随着使用,它逐步生长出文件操作、网络请求、代码生成、数据分析等完整能力。这不是预装的,是「长出来」的 - 6倍Token节省的经济学意义:通过技能树复用已学技能,避免每次都从零推理。在Agent的运营成本中,token消耗是最大变量。6倍节省意味着同样的预算可以做6倍的事情 - 技能树是Agent的「肌肉记忆」:人类学骑自行车一次就永久记住,不需要每次重新学。GenericAgent的技能树就是这个「肌肉记忆」的工程实现 - 创业者启示:「Agent的自生长能力」可能是区分好Agent和伟大Agent的关键。大多数Agent框架给Agent一套固定工具,GenericAgent让Agent自己造工具。这个思路可以延伸到任何垂直领域——代码Agent自生长代码模板、销售Agent自生长话术、研究Agent自生长分析方法
类比参考:Agent版的「干细胞」——从最基础的单元出发,根据环境需求自动分化出各种专门能力。或者「AI Agent的乐高积木,但积木会自己造新的积木」

🔗 GitHub
融资信息:$50M Seed轮融资。创始人Sara Hooker是Cohere前VP Research,以论文《The Hardware Lottery》闻名。Adaption Labs总部旧金山
做什么的:AI模型的自动化训练平台——AutoScientist让模型自己设计训练实验、选择数据、优化超参数,完成「模型训练模型」的闭环。核心是「数据-模型协同优化」:不是先准备数据再训练模型,而是让模型和数据一起迭代优化。声称在不同模型上将胜率翻倍。
为什么值得关注: - $50M Seed——投资人对「AI训练AI」的押注规模空前:Seed轮就拿到5000万美元,说明投资人认为「让模型训练自己」不是一个辅助功能,而是一个基础品类 - 全球不到1000人知道如何塑造前沿模型——Adaption要让这个数字变成100万:创始人Hooker的核心洞察是,模型定制化能力被锁死在少数大实验室里。AutoScientist的目标是让任何开发者都能做模型微调,而且比人工做得更好 - 「数据-模型协同优化」是技术突破:传统方式是先准备数据集再训练,AutoScientist让两者同时优化——模型告诉数据什么重要,数据告诉模型该学什么 - 胜率翻倍的商业含义:如果微调效率真的能翻倍,意味着企业在定制模型上的ROI直接翻倍。这对AI落地是结构性利好 - 创业者启示:「AI训练基础设施」正在从「GPU+标注数据」转向「自动化训练Pipeline」。当AutoScientist这样的工具让微调变得自动化和普惠化,竞争焦点会从「谁的模型更好」转向「谁的微调pipeline更高效」
类比参考:AI训练版的「DevOps」——软件工程从手动部署进化到CI/CD,模型训练正从手动微调进化到AutoScientist这样的自动化Pipeline。或者「模型训练的自动驾驶」

🔗 官网 | TechCrunch报道
融资信息:$650M融资,估值$46.5亿。GV(Google Ventures)和Greycroft领投,Nvidia参投。总部伦敦
做什么的:构建自我改进的AI系统——核心架构是「开放式进化」:AI系统自动发现自己的弱点,设计改进方案,自动执行改进,然后重新评估。创始人引用Stanisław Lem的「信息屏障」理论,认为递归自我改进是通向超级智能的最快路径。
为什么值得关注: - $650M + $46.5亿估值——2026年最大单笔AI融资之一:GV亲自下场写博客背书,Nvidia参投。投资人押注的不是产品而是范式:如果「AI改进AI」真的能work,这是一个赢家通吃的市场 - 伦敦→硅谷的AI版「逆向殖民」:Recursive总部在伦敦,但拿了硅谷最顶级VC的钱。说明在AI前沿领域,地理位置正在让位于人才密度 - GV的博客标题就是信号:「Why Self-Improving AI is the Next Frontier」:当Google的VC部门公开说「自我改进AI是下一个前沿」时,这不是投资分析,这是行业方向标 - 从概念到资本——「自我改进」不再是科幻:三年前「自我改进AI」还是学术论文的讨论话题。今天它拿到了6.5亿美元的真金白银。从概念验证到资本验证的速度令人震惊 - 创业者启示:「AI自我改进」赛道的窗口正在打开。Recursive做的是最激进的全栈自我改进,但同一赛道的细分机会巨大:自我改进的代码Agent、自我改进的营销Agent、自我改进的客服Agent……每个垂直领域都需要一个「能自己变好的AI」
类比参考:AI版的「compiler compiling itself」——编程语言发展史上的关键里程碑是编译器能编译自己。Recursive想做的是AI版的这个里程碑

融资信息:$30M Series A,Menlo Ventures和Anthropic合作的Anthology Fund领投,True Ventures、GV、Gwyneth Paltrow的Kinship Ventures参投。创始人Misbah和Farah Uraizee姐妹来自Meta
做什么的:AI Agent驱动的社交营销操作系统——用Agent自动化品牌在社交媒体上的内容创作、发布排期、社区互动、竞品监控。已有e.l.f. Beauty、Babylist、Figma、Graza等品牌客户。核心是「Nectar Agent」:品牌调教一个AI Agent,它理解品牌语气后自主执行日常营销工作。
为什么值得关注: - Anthropic的Anthology Fund领投——这是Claude生态扩展的信号:Anthropic专门和Menlo成立了Anthology Fund来投AI应用层公司。Nectar Social拿到这笔钱,意味着它将深度集成Claude的能力。对创业者来说,「Anthropic生态」正在形成 - e.l.f. Beauty + Figma——从快消到SaaS,AI营销Agent的通用性被验证:能在完全不同的行业(美妆快消 vs 设计工具)都获得客户,说明「品牌AI Agent」这个品类是跨行业的 - 创始人来自Meta——社交媒体的「内行做AI」:Farah在Meta负责Facebook Groups扩张到10亿+用户,她理解社交媒体的底层逻辑。这是典型的「领域专家+AI」创业 - $30M Series A + 姐妹创业——资本对「AI Native垂直SaaS」的定价:2023年成立,3年做到Series A。速度说明AI营销的ROI已经被市场验证 - 创业者启示:「AI Agent替代外包/代运营」是一个巨大的品类。品牌在社交媒体上的日常运营目前靠人力或代运营公司。Nectar Social的Agent可以24/7工作、理解品牌调性、自动优化。同样的模式可以复制到:AI PR Agent、AI BD Agent、AI HR Agent
类比参考:营销版的「Devin」——Devin替代初级程序员,Nectar Agent替代初级社交媒体运营。或者「HubSpot的AI Agent版」

🔗 官网 | TechCrunch报道
融资信息:$800K Pre-seed。Lovable战略投资,a16z Scout Fund、Sequoia Scout Fund、Nordic Makers参投。丹麦哥本哈根+斯德哥尔摩
做什么的:用自然语言描述硬件想法→AI生成原型代码→直接制造硬件原型。把「Vibe Coding」(用AI对话式编程)的理念从软件扩展到硬件。用户用自然语言描述想要的硬件设备,AI生成原理图和BOM(物料清单),甚至能连接制造服务直接打样。
为什么值得关注: - Lovable亲自投资——从「AI做App」到「AI做硬件」的版图扩张:Lovable是AI生成App的头部平台(类似Bolt/v0的竞品),它投资Atech意味着「Vibe Coding」正在从软件向硬件蔓延。这不是投资,是战略布局 - a16z + Sequoia双Scout Fund——硅谷顶级VC的「硬件民主化」共识:两家顶级VC的Scout Fund同时出现在一个小小的Pre-seed轮里,说明「AI+硬件」的早期项目已经被雷达锁定 - 自然语言→硬件原型——制造业的「Co-Pilot时刻」:硬件开发一直是最难民主化的领域,需要EE知识、PCB设计、供应链管理。Atech的AI把这些专业知识压缩到对话里 - 北欧+AI+硬件的「铁三角」:丹麦和瑞典有深厚的硬件制造传统(蓝牙、Skype、Spotify都是北欧出品)。Atech可能成为北欧AI硬件创业的标杆 - 创业者启示:「Vibe Coding」正在成为一个跨领域范式。从软件(Cursor/Lovable)→网站(v0/Bolt)→3D(image-blaster)→硬件(Atech),每个创作领域都会有一个「用自然语言+AI就能做」的工具。下一个可能是:Vibe Design(用AI做工业设计)、Vibe Music(用AI作曲编曲)
类比参考:硬件版的「Lovable/v0」——Lovable让你用对话做App,Atech让你用对话做硬件。或者「PCB版的Cursor」

🔗 官网 | TechCrunch报道
融资信息:$1.5M Pre-seed。Lattice Fund、Coinbase Ventures(Base Ecosystem Fund)、JME Ventures参投,World Foundation资助
做什么的:AI角色的创建、交互、所有权和交易平台——用户创建AI角色(有记忆、有推理能力、有「灵魂」),这些角色在链上有独立的数字资产身份。角色可以与用户互动、积累粉丝、产生交易价值。整个经济体围绕AI角色运转。
为什么值得关注: - Coinbase Ventures + Lattice Fund——crypto原生资本在押注「AI角色的资产化」:这不是一个AI产品拿到了crypto投资,而是crypto原生投资者认为「AI角色」是下一个资产类别 - 「AI角色不是功能,是资产」——范式转换:大多数AI聊天产品(Character.AI等)把角色当功能。Charms把角色当资产——可以拥有、交易、增值。这是从「SaaS」到「资产平台」的商业模式转换 - World Foundation资助——「AI+人格权」的制度创新:World Foundation(Worldcoin背后的组织)资助Charms,暗示着AI角色可能涉及人格权和身份验证的新范式 - 创作者经济的AI版:YouTube让视频创作者赚钱,Patreon让文字创作者赚钱,Charms想让AI角色创作者赚钱。如果AI角色的粉丝经济能成立,这是一个全新赛道 - 创业者启示:「AI角色的经济系统」是一个被严重低估的方向。当AI角色有记忆、有个性、能持续进化时,它们就不再是「产品功能」而是「数字生命」。围绕这些数字生命的经济系统——创造、运营、交易、IP——每一条都是一个市场
类比参考:AI角色版的「NBA Top Shot + Character.AI」——角色的互动能力和记忆让它比静态NFT有更强的粘性。或者「有灵魂的Tamagotchi + 可交易的经济体」

融资信息:$27M Seed轮。Samsung Venture Investment、Hyundai、LG、SK等韩国最大制造商联合投资。首尔+圣何塞双总部
做什么的:为机器人基础模型(RFM)构建数据基础设施——做机器人的「数据代工厂」。类似于TSMC为芯片公司制造芯片,Config为机器人公司提供训练数据:数据采集、标注、增强、质量控制的全流程服务。专注于双臂操作(bimanipulation)场景。
为什么值得关注: - $27M Seed + 韩国四大财阀联合投资——「机器人数据」被重注:Samsung、Hyundai、LG、SK同时出现在一轮融资里,这在韩国科技投资史上极为罕见。说明韩国制造业巨头对「机器人训练数据」的战略共识已经形成 - 「机器人领域的TSMC」——数据层是价值链的战略位置:AI模型需要数据,但机器人数据(尤其是操作数据)比文本数据难获取100倍。Config做的是最难但最有价值的事 - 双臂操作——最困难的机器人场景:双臂协调操作是人类日常最自然的事,但对机器人来说是最难的。Config选择从最难的地方切入,说明团队有明确的技术路线 - 首尔+圣何塞——连接亚洲制造能力和硅谷AI技术:这个地理位置选择本身就是产品策略:在韩国获取制造场景数据,在硅谷获取AI人才 - 创业者启示:「具身智能的数据基础设施」是AI领域最后一个蓝海。大语言模型的数据已经被互联网文本解决,但机器人的训练数据还处于「手动采集」阶段。谁解决了机器人数据问题,谁就控制了具身智能的供应链
类比参考:机器人版的「Scale AI」——Scale AI解决了自动驾驶的数据标注问题,Config要解决机器人的数据采集和标注。或者「具身智能的TSMC」

🔗 官网 | TechCrunch报道
融资信息:Second Nature Computing出品,刚上线。TechCrunch 5月13日专题报道
做什么的:主动式AI个人助手——连接你的日历、邮件、消息、位置等服务,在后台持续感知你的生活节奏,然后主动推送提醒、建议和任务。不是你问它答,而是它「注意到」你需要什么然后主动告诉你。
为什么值得关注: - 「Proactive」vs「Reactive」——AI助手的核心分水岭:大多数AI助手(包括ChatGPT)是被动响应的——你问它答。Poppy是主动的——它「注意到你下周要出差但还没订酒店」然后提醒你。从Reactive到Proactive,是AI助手体验的质变 - 连接碎片化数字生活——「数字化身」的雏形:Poppy能看到你的日历+邮件+消息+位置,这意味着它构建了一个你的「数字镜像」。基于这个镜像做出的推荐比任何单一数据源都准确 - 「Poppy pays attention so you don't have to」——精准的产品定位:在信息过载时代,一个「替你注意」的AI比一个「替你搜索」的AI更有价值 - Widget优先的交互设计:不需要打开App看,手机Widget就能看到关键信息。降低交互成本是AI助手被日常使用的关键 - 创业者启示:「主动式AI」正在取代「对话式AI」成为个人助手的产品范式。用户不想和AI聊天,想让AI帮他们做事。Poppy的Proactive模式——持续感知、主动推送、减少决策——可能是AI个人助手的正确形态
类比参考:AI版的「Google Now(2013)」——Google Now曾尝试做主动推送但受限于技术能力,Poppy用2026年的AI重新实现这个愿景。或者「你手机里的贴心秘书」

🔗 官网 | TechCrunch报道
📅 2026-05-17 | 🔬 422产品实验室 以上内容基于公开信息整理,不构成投资建议。
🔬 422产品实验室 · AI新产品日报 · 每日精选
今天最值得关注的信号是「本地优先(Local-first)AI」正在从理念走向产品化。Osaurus以5.3K Star和11.4万下载量证明了「推理是你唯一需要的云端能力,其他一切都可以属于你」——原生Swift、Mac本地运行Agent、记忆和工具全在本机。HermesPet把AI塞进MacBook的刘海里,零依赖开箱即用。两者共同指向一个趋势:AI的「拥有权」正在成为用户核心诉求。
与此同时,Agent生态的「包管理器」赛道正式开跑。Sx以HN 32赞切入「团队的AI技能私有npm」——把最优秀的开发者摸索出的AI使用模式打包、版本化、按角色分发。image-blaster以2048 Star展示了Claude Skills的产品化威力:一张图片→3D环境+音效+网格,5分钟完成。ExploitBench为Agent安全建立了量化基准——不是问「Agent是否安全」,而是测「Agent能爬到利用链的第几级」。
对创业者来说,今天的核心判断是:AI的下一波竞争不是谁的模型更大,而是谁能让用户「拥有」AI——本地推理、私有记忆、可控身份、团队级技能管理,每一条都是一个正在形成的独立品类。
融资信息:Osaurus, Inc.出品,MIT开源,TechCrunch 5月15日专题报道。联合创始人Terence Pae此前做过AI桌面伴侣Dinoki
做什么的:macOS原生AI Agent运行器——在Apple Silicon上通过MLX原生速度运行本地模型,同时可选接入云端模型。提供持久化记忆、沙箱代码执行、Agent身份管理、技能导入。所有数据(记忆、历史、密钥)全部留在本机,不上传任何内容除非用户主动选择。
为什么值得关注: - 5.3K Star + 11.4万下载——「拥有你的AI」是真实需求:TechCrunch专题报道中,创始人Pae的起点是用户质问「为什么我买了你的App还要付token费?」。这个痛点驱动了Osaurus的核心理念:推理是唯一需要云端的环节,其他一切(记忆、工具、身份)都归用户所有 - 原生Swift,非Electron——产品品质决定用户留存:在AI桌面工具几乎全是Electron的时代,Osaurus选择了纯Swift原生开发。这意味着更低的内存占用、更快的启动速度、更原生的macOS体验。产品语言本身就是竞争力 - MLX + 云端模型自由切换:本地跑MLX(Apple Silicon原生优化),需要更强推理时无缝切换到云端。用户不绑定任何provider,推理自由 - Agent不仅是聊天,还能执行代码:沙箱执行环境让Agent可以真正做事——运行代码、管理文件、执行任务。这是从「AI助手」到「AI Agent」的关键跃迁 - 创业者启示:「AI的拥有权」是一个正在爆发的消费者需求。当用户发现他们的AI记忆、对话历史、偏好都锁在某个SaaS里时,迁移成本会驱动他们寻找本地优先的替代品。同样的逻辑适用于:本地优先的AI笔记、本地优先的AI编程助手、本地优先的AI邮件
类比参考:AI Agent版的「Obsidian vs Notion」——Obsidian把文件留在你本机,Notion把数据锁在云端。或者「Ollama的Agent版,但带完整GUI和技能系统」

🔗 官网 | GitHub | TechCrunch报道
融资信息:开源项目,neilsonnn出品,Claude Code Skills架构
做什么的:从单张图片自动生成完整3D场景——包括3D模型(.glb/.obj)、高斯溅射静态环境(.spz)、环境循环音效和物体物理音效(.mp3)。串联World Labs的Marble模型、Hunyuan 3D、ElevenLabs SFX等多个生成模型,通过Claude Code Skills编排整个工作流。5分钟从图片到可导入Unity/Unreal/Godot的完整3D场景。
为什么值得关注: - 2048 Star——Claude Skills生态的标杆案例:image-blaster不是传统软件,而是一组Claude Code Skills的编排。它证明了「Agent Skills」不只是代码片段,而是一个完整的产品形态——把多个SaaS API串联成一条自动化工作流 - 从2D到3D的「一键转化」:输入一张童年卧室照片→输出一个可探索的3D环境+独立3D物体模型+环境音效。这不是概念验证,而是可嵌入Unity/Unreal的生产级资产 - 多模型协作的工程范式:Marble做环境、Hunyuan做3D模型、ElevenLabs做音效、Claude做编排。每个模型做最擅长的事,Agent负责编排。这是「多模型Agent工作流」的最佳实践 - 可调参数暴露了设计意图:面数(40K-1.5M)、PBR材质、多边形类型——开发者可以精细控制输出,不是黑盒 - 创业者启示:「把多模型API编排成一条工作流」本身就是产品。image-blaster的核心价值不在于任何单一模型,而在于用Agent把5个模型串联成「图片→3D」的一键体验。同样的模式可以复制到:视频→PPT、草图→网站、录音→播客、文档→演示
类比参考:3D版的「AI工作流自动化」——Zapier串联SaaS,image-blaster串联生成模型。或者「Claude版的3D建模师,但一图搞定」

🔗 GitHub
融资信息:开源项目(Apache 2.0),Sleuth出品(YC校友公司),Go语言构建
做什么的:为AI编码助手设计的包管理器——团队中最优秀的开发者摸索出的Skills、MCP配置、Slash命令,通过Sx打包成可版本化、可分发的资产。新成员入职时自动继承整个团队的AI playbook。支持按org/team/repo/user/bot五个粒度控制谁能看到哪些技能。兼容Claude Code、Cursor、Copilot、Gemini、Kiro等所有主流AI客户端。
为什么值得关注:
- 「团队AI能力的NPM」——一个全新品类:当AI编码助手的技能(CLAUDE.md、.cursor/rules)还靠人工复制时,Sx做的是把这些碎片化知识变成可管理的包。这和npm之于Node.js、pip之于Python是同一个生态位
- 五层权限粒度说明这不是玩具:org全员→团队→仓库→路径→个人→Bot——每一层都有独立的安装策略。这说明Sleuth在认真思考企业级场景
- sx install --dry-run 是关键设计:在安装前就能看到「我会得到什么技能」,这是对可预测性的尊重。企业IT部门需要这种可控性
- 跨客户端兼容是护城河:不是只给Claude Code用,而是所有AI编码客户端通用。当团队里有人用Claude Code、有人用Cursor、有人用Copilot时,Sx是唯一能把AI知识统一的工具
- 创业者启示:「AI知识的版本管理和分发」是一个被严重低估的基础设施需求。当每个团队都在CLAUDE.md里积累prompt工程经验时,这些知识的共享、版本化、权限控制就是刚需。这和Docker Hub之于容器镜像、npm之于JS包是同一个逻辑
类比参考:AI技能版的「npm + Artifactory」——不只是包管理器,还是私有仓库。或者「团队的AI playbook自动化平台」

融资信息:开源项目,agentic-in出品,Python构建,有配套论文
做什么的:基于「Personal Model」理念的自我进化AI Agent——不像传统AI每次对话从头开始,Elephant Agent维护四个持续更新的理解维度:Identity(你是谁)、World(你的世界)、Pulse(当前节奏)、Journey(你的经历)。通过「好奇式学习」主动提问填补理解空白,通过「背景学习」在空闲时整理记忆。多个Elephant组成一个Herd。
为什么值得关注: - 「记住更少,但理解更深」——这是对RAG堆砌的反思:当大多数Agent在追求更长的上下文窗口时,Elephant Agent的核心洞察是:不是记住所有对话,而是识别哪些记忆值得携带。四个Lens(Identity/World/Pulse/Journey)是一个精炼的记忆框架 - 「好奇式学习」让Agent主动提问:不是被动等待指令,而是在发现理解空白时问一个有用的问题。这让Agent从工具变成伙伴 - 可纠正的记忆是关键创新:用户可以在Dashboard里直接编辑Agent对自己的理解。Agent展示证据、接受纠正、允许沉默。这不是「AI记住了什么」,而是「用户允许AI知道什么」 - 有配套论文,学术严谨:有专门的论文页面说明方法论,不是纯工程项目的拍脑袋设计 - 创业者启示:「个人AI的记忆管理」是一个全新品类。当个人AI从工具变成伙伴时,它需要的不只是更大的数据库,而是一套关于「什么值得记住、什么应该遗忘、什么需要纠正」的哲学。Elephant Agent提供了这套框架
类比参考:AI版的「私人日记+管家」——不是搜索你的所有对话,而是像一个认识你多年的管家,知道你的习惯、记住重要的事、该忘的忘掉。或者「Personal CRM + 日记 + AI伙伴」

融资信息:开源项目(Apache 2.0),Secure Agentics出品,Go后端+Python SDK,支持自托管和云托管
做什么的:AI Agent的运行时安全监控和控制引擎——分析Agent的工具调用、行为日志和推理轨迹(reasoning traces),检测恶意、失准或越权行为,支持在飞行中拦截。两行代码接入LangChain/LangGraph。自托管版本在本地跑Gemma模型做分类,无需联网。
为什么值得关注: - 「分析推理轨迹」而非只看行为——比传统安全监控深一层:传统安全工具监控Agent「做了什么」(工具调用)。Adrian额外分析Agent「为什么这样做」(推理轨迹)。这意味着它能捕获「行为看起来正常但意图恶意」的攻击 - AARM-aligned——有行业标准支撑:遵循AARM(Agent Attestation and Runtime Monitoring)标准,不是自造轮子 - 审计模式 vs 阻断模式:可以先在审计模式下运行,只观察不干预;确认策略有效后再切到阻断模式。这对生产环境渐进式部署非常友好 - 自托管 + 本地Gemma模型 = 数据不外泄:企业不需要把Agent的安全日志发给第三方。本地Llama.cpp跑Gemma分类器,完全离线 - 创业者启示:「Agent的运行时安全」正在从可选项变成必选项**。当Agent开始执行交易、发送邮件、操作数据库时,企业需要的不只是部署前审查(如Scope MCP),更需要运行时的实时监控和拦截。Adrian做的是「Agent世界的杀毒软件+防火墙」
类比参考:Agent版的「CrowdStrike + Falco」——CrowdStrike监控终端异常,Adrian监控Agent异常。或者「AI Agent的WAF(Web应用防火墙)」

融资信息:开源项目(Apache 2.0),个人开发者basionwang出品,Swift 6 / SwiftUI原生
做什么的:常驻MacBook灵动岛(Dynamic Island)的AI桌面伴侣——按一下刘海呼出聊天、⌘⇧V语音输入、拖文件给AI「吃掉」、Claude模式下小像素精灵Clawd在桌面闲逛嗅你的文件。四引擎并行(DeepSeek/Claude/Codex/在线模型),最多8个对话同时运行。纯原生Swift,无Electron。
为什么值得关注: - 「AI住在你刘海里」——产品直觉惊人:在所有人做AI聊天框时,HermesPet把AI放进了MacBook硬件上最被忽视的交互入口——灵动岛。这不是隐喻,是字面意思:左耳显示精灵头像,右耳显示任务状态,错误时变琥珀色 - Clawd桌面精灵不只是卖萌:空闲3分钟后从灵动岛跳到桌面的像素小人,会自动嗅文件并给短评、会被拖到文件上分析、会把拖入的文件作为附件发送、会被鼠标吸引。这是一个「主动型AI」的物理隐喻 - 敏感文件本地黑名单:薪资、合同、密码、.env等关键词自动跳过——安全意识融入产品设计 - 零依赖开箱即用:不需要安装任何CLI工具,DMG双击安装→选服务商→粘API Key→开聊。如果检测到claude/codex CLI则自动解锁高级能力 - 创业者启示:「硬件入口+AI」的想象力才刚刚开始。灵动岛、Touch Bar、键盘灯带、侧边屏——每个硬件的「闲置像素」都可以是AI的入口。HermesPet证明了:不需要做AI硬件,只需要把现有硬件的未用空间变成AI界面
类比参考:AI版的「电子宠物(拓麻歌子)+ Clippy」——但不是在屏幕上弹窗,而是住在MacBook的刘海里。或者「macOS版Rabbit R1,但零额外硬件」

🔗 GitHub
融资信息:开源项目(MIT),独立研究团队出品,学术合作开放
做什么的:为AI Agent安全能力建立量化基准——不是问「Agent能否发现漏洞」,而是测量Agent在漏洞利用阶梯上能爬到哪一级:到达脆弱代码→触发Bug→构建exploit原语→任意代码执行。首个benchmark针对Chromium V8引擎的16个能力维度。支持所有主流模型API。
为什么值得关注: - 「利用是阶梯,不是开关」——安全评估的范式升级:传统安全benchmark只有「能/不能」两个答案。ExploitBench把利用过程拆成阶梯,测量Agent每一级的能力。这把「Agent安全」从定性讨论变成了定量科学 - 首个benchmark就选了V8——难度拉满:Chromium V8是地球上被最严格审计的软件之一。如果Agent能在V8上爬到利用链的高层,那在普通软件上就更不在话下 - 预构建Docker镜像,70GB/个——降低复现门槛:每个CVE环境打包成Docker镜像推到GHCR,研究者不需要自己构建。这是对学术友好的设计 - 明确禁止RL训练——保护benchmark不被污染。这是负责任的研究态度 - 创业者启示:「AI安全benchmark」是一个正在形成的独立品类。当企业采购AI Agent产品时,他们需要量化的安全评估。ExploitBench的模式可以复制到:Agent金融安全benchmark、Agent隐私泄露benchmark、Agent合规benchmark
类比参考:Agent安全版的「SWE-bench」——SWE-bench测编码能力,ExploitBench测安全利用能力。或者「AI Agent的 penetration testing 标准化」

融资信息:开源项目(Apache 2.0),Evokoa出品,Rust语言(基于pgrx),PostgreSQL 13-18支持
做什么的:PostgreSQL扩展,为现有数据表添加图搜索、遍历、最短路径和关系查询能力。表仍然是数据的唯一真相来源(source of truth),pgGraph在其上构建派生图索引,通过SQL中的graph schema函数查询。不需要迁移数据到图数据库。
为什么值得关注:
- 「不换数据库,只加能力」——极低迁移成本:大多数图数据库(Neo4j、Dgraph)要求你迁移数据。pgGraph直接在现有Postgres表上建图索引,SQL里加个graph.前缀就能做图查询。这对已有大量Postgres数据的公司来说是零摩擦接入
- Rust + pgrx = 高性能:用pgrx框架把Rust写进PostgreSQL扩展,性能接近C扩展。图遍历和最短路径在数据库层完成,不需要把数据拉到应用层
- AI Agent的「关系推理」需要图数据库:当Agent需要理解「这个用户认识谁」「这个项目依赖什么」「这个漏洞影响了哪些系统」时,关系查询是核心能力。pgGraph让Agent直接在SQL里做这些查询
- Early Alpha但有清晰的路线图:开源态度积极,Discord社区活跃,Product Hunt上有跟踪
- 创业者启示:「给现有数据库加AI友好的查询能力」是一个有明确买家的方向。每个用Postgres的公司都有「关系查询很痛苦」的问题。pgGraph不是要替代Neo4j,而是让8000万Postgres用户不需要迁移就能获得图查询能力
类比参考:图数据库版的「PostGIS」——PostGIS给Postgres加了地理空间能力,pgGraph加了图查询能力。或者「Postgres内的Neo4j,但零数据迁移」

🔬 以上为422产品实验室AI产品日报 · 2026年5月16日 · 每日精选,欢迎转发
🔬 422产品实验室 · AI新产品日报 · 每日精选
今天最值得关注的信号是「AI Agent基础设施正在从软件-only走向软硬结合、从开发工具走向全工作流覆盖」。Clawdmeter以869个Star证明开发者愿意为Claude Code做一个硬件仪表盘——Agent的物理存在感正在成为刚需。html-anything以855个Star把「AI Agent写HTML」从概念变成了75个可复用Skill模板的产品体系,覆盖9种内容形态。Raindrop Workshop让Agent不仅能调试自己,还能给自己写eval并自动修复——这是Agent自我改进循环的关键一步。
与此同时,「Agent信任与安全层」正在从概念走向协议级实现:Ratify Protocol用Ed25519+ML-DSA-65混合签名让Agent的身份验证在1ms内完成,量子安全。Scope MCP在Agent部署前就做合规审查,把25个监管框架映射到MCP工具的风险等级。Containarium为Agent造了一个MCP驱动的专属沙箱。
对创业者来说,今天的核心判断是:Agent生态正在从「让Agent能工作」向「让Agent安全、可控、可信任地工作」全面升级——身份验证、合规审查、代码质量、沙箱隔离,每一条都是一个正在形成的独立品类。
融资信息:开源项目(MIT),个人开发者HermannBjorgvin出品,C语言编写
做什么的:一个ESP32-S3 AMOLED屏幕的桌面小硬件,通过蓝牙连接你的Mac/Linux,实时显示Claude Code的用量百分比。包含像素风格的Clawd动画(使用率越高动画越忙碌)、会话和周使用率统计、BLE快捷键(Space触发语音模式、Shift+Tab切换模式)。
为什么值得关注: - 869个Star——开发者对「Agent的物理存在感」有强烈需求:一个纯硬件项目在GitHub上获得近千Star,说明Claude Code用户群体对「知道Agent在做什么、花了多少钱」的需求已经溢出了软件界面。这和当年开发者给CI系统配物理灯泡(如Builddone的CI灯)是同一个心理——Agent在替你工作时,你需要一个非屏幕的确认信号 - 不只是显示器,还是BLE HID控制器:两个侧边按钮直接发送Space和Shift+Tab到你的电脑,控制Claude Code的语音模式和模式切换。硬件不只是被动的信息展示,而是双向控制接口 - 从Claude OAuth Token直接读取用量:macOS版从Keychain读取Claude OAuth token,Linux版从配置文件读取,每60秒轮询一次使用率,推送到BLE显示 - 像素动画分级:使用率低时Clawd悠闲地站着,使用率高时开始忙碌——这是「信息可视化」的极简版本,无需数字就能感知状态 - 创业者启示:「Agent硬件配件」可能是一个被低估的市场。当Agent从软件工具变成工作伙伴时,用户会有物理层面的陪伴和监控需求。Clawdmeter做的不是仪表盘,是「Agent的桌面宠物」。类似的思路可以延伸到:Agent完成任务的桌面通知灯、Agent状态的手机Widget、Agent错误的震动提醒
类比参考:Claude Code版的「Tamagotchi电子宠物」——屏幕上有个像素小人在替你工作,忙的时候它也忙。或者「CI/CD的硬件通知灯(如Blink(1)),但用于AI Agent」

🔗 GitHub | Waveshare硬件
融资信息:开源项目(Apache 2.0),nexu-io团队出品(同团队还维护Open Design 40K★),TypeScript构建
做什么的:面向AI编码Agent的HTML内容创作工具——自动检测本地的8种编码Agent CLI(Claude Code、Cursor Agent、Codex、Gemini CLI、GitHub Copilot CLI、OpenCode、Qwen Coder、Aider),提供75个可组合的Skill模板,覆盖9种交付形态:杂志文章、Keynote演示、简历、海报、小红书卡片、推文卡片、Web原型、数据报告、视频分镜。一键导出到微信/X/知乎。
为什么值得关注: - 「Markdown是草稿,HTML是成品」——精准的产品哲学:在Agent时代,开发者不再手动编辑文档,所以输出格式应该是读者真正想要的HTML。html-anything不做Markdown编辑器,做的是「Agent直接产出可发布的HTML」 - 75个Skill × 9种Surface = 675种内容组合:从瑞士国际主义风格的演示文稿到 glitch 标题帧,从暖色羊皮纸文档到新闻海报——每个Skill都是一个完整的设计系统,不是简单的CSS模板。设计质量极高,有出版社品位 - 零API Key,复用你已有的CLI session:不需要额外配置,html-anything直接检测你本地已登录的编码Agent CLI并复用其session。这意味着它不是「又一个SaaS」,而是「你现有工具的增强层」 - 855个Star说明「AI内容创作工具」的需求非常真实:团队从Open Design(40K Star)的经验中提炼出「Agent-first」的内容创作工具,设计品质有保障 - 创业者启示:「Agent原生的内容创作工具」是一个正在爆发的品类。html-anything的核心洞察是:当AI Agent能直接写HTML时,内容创作的工作流从「人写Markdown → 工具渲染」变成了「人描述需求 → Agent直接产出设计精良的HTML」。同样的思路可以复制到:Agent直接做PPT、Agent直接做海报、Agent直接做视频
类比参考:内容创作版的「Cursor for HTML」——不是帮你写代码的IDE,而是帮你写可发布内容的Agent编辑器。或者「Canva的Agent版,但输出是开发者可控的HTML」

🔗 GitHub | Open Design
融资信息:开源项目(MIT),raindrop-ai出品,TypeScript/Bun构建
做什么的:AI Agent的本地调试工具——实时流式显示Agent的每个token、每次工具调用、每个决策节点。核心创新是「Self-healing eval loop」:Claude Code读取你的Agent执行trace,自动编写针对你代码库的eval测试,运行测试,看到失败,修复代码,重新运行——直到所有断言通过。
为什么值得关注:
- 「Agent调试自己」不是一个比喻,是产品功能:Raindrop Workshop的核心理念是:Agent出了问题,不应该由人类去读日志找原因,而是让另一个Agent(Claude Code)读取执行trace,自动定位问题、写eval、修复代码。这是Agent自我改进循环的工程实现
- Live streamed traces——每个token实时流式传输:不需要轮询或刷新,Agent的每次工具调用、每个span在发生时就流入Workshop UI。支持TypeScript、Python、Go、Rust四种语言,覆盖Vercel AI SDK、OpenAI Agents SDK、Anthropic SDK、LangChain、CrewAI等几乎所有主流Agent框架
- 生产trace的本地回放:/setup-agent-replay命令搭建一个HTTP端点,可以在本地回放生产环境的trace。这在调试线上Agent问题时非常实用
- 兼容所有主流编码Agent:Claude Code、Codex、Devin、Cursor、OpenCode——不只是Claude Code的专属工具
- 创业者启示:「Agent的可观测性+自动修复」是一个正在形成的基础设施品类。当Agent从Demo走向生产,需要的不只是「看到Agent在做什么」(可观测性),更需要「Agent出了问题能自动修复」(self-healing)。Raindrop Workshop把这两个能力合二为一
类比参考:Agent版的「Chrome DevTools + Sentry + 自动修复」——不只是看到报错,而是让另一个Agent自动修好报错。或者「AI Agent的飞行数据记录器+自动修复系统」

融资信息:开源项目(Apache 2.0),Identities AI, Inc.出品,已申请专利。SDK覆盖Go、TypeScript、Python、Rust、C/C++
做什么的:为AI Agent设计的密码学信任协议——当人类授权Agent或Agent之间交互时,Ratify生成签名的、可验证的授权证书,任何第三方可以在1ms内离线验证。采用Ed25519 + ML-DSA-65(NIST FIPS 204)混合签名,量子安全。无区块链、无Token、无中心化发行方。
为什么值得关注: - 「AI说它是被授权的」不够,需要密码学证明:当一个Agent加入会议、拨打客服电话、发送邮件、执行交易时,接收方无法验证三件事:谁授权了这个Agent?Agent被允许做什么?授权多久有效?Ratify用三个动词(Delegate→Present→Verify)解决了这个问题 - 量子安全不是噱头,是架构选择:每个签名都是Ed25519(当前安全)+ ML-DSA-65(后量子安全)混合签名,两者都必须验证通过。这意味着今天签发的证书在量子计算机出现后仍然安全 - 1ms离线验证,无中心化依赖:不需要在线的证书颁发机构或区块链——验证者只需要公钥就能验证。这对Agent-to-Agent的实时交互至关重要 - Agent-to-Agent递归授权:一个Agent可以把权限委托给另一个Agent,验证算法完全对称。这使得Agent生态的权限链可以像DNS一样层级化 - 创业者启示:「Agent的身份与授权验证」是Agent走向企业生产环境的关键基础设施。没有密码学级别的授权证明,企业不会让Agent执行金融交易、法律文书、客户通信等高敏感操作。Ratify做的不是又一个认证服务,而是Agent世界的「公钥基础设施」
类比参考:Agent版的「SSL/TLS证书」——但不是为网站签发身份证书,而是为Agent签发授权证书。或者「Agent世界的Kerberos,但无中心化KDC」

融资信息:开源项目(Apache 2.0),DeepElement Lab出品,TypeScript构建
做什么的:把Cursor级别的AI编辑体验直接嵌入JupyterLab——Cmd+K内联编辑、能读Cell/运行Cell/看输出的Agent、一键自动修复报错、Ghost Text补全、@cell/@file上下文感知的Chat。支持Anthropic/OpenAI/Google/Ollama等所有主流模型,同时提供JupyterLab扩展和原生桌面应用。
为什么值得关注: - 「Notebook + AI Agent」的真实需求远比想象中大:全球的数据科学家、ML研究员、量化分析师每天都在Jupyter Notebook里工作。他们的AI工作流是:写代码 → 出错 → 跳到ChatGPT复制错误 → 粘贴回来 → 再跑。Jupyter Studio把这个来回跳转的流程压缩为「一个Cmd+K」 - 真正的Agent,不是聊天框:多步骤的plan→execute→verify循环,配有cell级别工具(read_cell、edit_cell、insert_cell、run_cell、read_output)。Agent能看到你的Notebook全局状态,理解Cell之间的依赖关系 - 一键自动修复报错:Cell报错后点🐛按钮,Agent自动诊断并修复Cell。这是Notebook工作流中最频繁的「中断→修复→继续」循环的自动化 - 桌面应用 + 浏览器扩展双形态:既可以是JupyterLab扩展,也可以是独立的桌面应用。覆盖了所有使用场景 - 创业者启示:「在现有工具中嵌入AI Agent」比「做一个全新的AI工具」更容易获得用户。Jupyter Studio没有试图替代Jupyter,而是在JupyterLab里加了Agent层。这个思路可以复制到任何已有庞大用户基础但没有AI Agent化的工具——Excel Studio、Figma Studio、Sketch Studio
类比参考:Notebook版的「Cursor」——同样的Cmd+K编辑、Agent辅助、Ghost Text补全,但活在JupyterLab里而不是VS Code。或者「Jupyter版的GitHub Copilot,但有一个真正的Agent在替你工作」

🔗 GitHub
融资信息:开源项目(Apache 2.0),FootprintAI出品,Go语言构建,基于LXC容器
做什么的:为AI Agent设计的自托管沙箱平台——Agent通过MCP协议管理LXC容器的创建、SSH配置、端口暴露和应用部署。一句话:「你带Agent,我们提供沙箱」。支持Cursor、Claude Code、OpenCode等所有主流Agent。
为什么值得关注: - 「Agent-native」不是营销词汇,是架构选择:传统沙箱(Docker、Vagrant)为人类设计——人类输入命令,看输出,再输入下一个。Containarium为Agent设计——Agent通过MCP工具(create、ssh-config、expose-port、shell_exec)操作沙箱,不依赖TTY或Agent输入命令 - 两层MCP架构:外层MCP让Agent管理容器(创建、删除、端口映射),内层MCP让Agent在容器内操作(shell_exec、文件编辑)。Agent先用外层MCP造一个沙箱,再用内层MCP在里面干活 - 持久化 + 隔离 + 真实Linux:沙箱有systemd、真实网络、可以部署到公网。不是一次性的Lambda,而是Agent的「专属工作间」——状态在多次Agent运行间保持 - 5分钟自托管:一条curl命令在Ubuntu VM上安装Containarium + Incus + 所有依赖。不需要Kubernetes,不需要Docker Compose——一个VM就能跑 - 创业者启示:「Agent专用的开发环境」正在从「通用容器」分化为「Agent原生沙箱」。当Agent成为代码的主要生产者时,它们需要自己的workspace——隔离、可回滚、MCP可编程。Containarium做的是「Agent版的Vagrant + Heroku」
类比参考:Agent版的「Vagrant + Heroku」——Agent用MCP创建沙箱、部署应用、暴露到公网,全程不需要人类操作终端。或者「Ephemeral Environments的Agent原生版」

融资信息:开源项目(BSD-3-Clause),mentasystems出品,Go语言构建,零外部依赖
做什么的:专为LLM生成的Go代码设计的严格静态分析器——检测error静默丢弃、变量遮蔽、类型断言未检查、同类型参数混淆、非穷举switch等LLM最常犯的错误。Claude Code集成:Agent完成一轮编辑后自动运行,发现问题则block下一轮直到修复。
为什么值得关注:
- 「LLM写代码会犯人类不犯的错误」——这是一个精确的工具定位:LLM写Go代码时最常见的一类bug是 transfer("o-42", "u-7")——参数类型相同但语义不同,编译通过、测试通过、上线后才发现参数传反了。Gox要求在调用处加 /* paramName */ 注释来防止此类问题
- Claude Code Stop Hook集成:Agent每次完成一个turn后,自动检查修改过的Go文件,发现问题就返回decision:block,Claude必须在下一轮修复后才能继续。这不是事后检查,而是嵌入到Agent工作流中的实时守门员
- 10条规则,每条都针对LLM的典型缺陷:errcheck(静默丢弃error)、shadow(:=变量遮蔽)、namedargs(同类型参数注释)、exhaustive(非穷举enum switch)、noglobals(包级可变变量)……这些不是通用linter规则的重复,而是LLM写代码的「反模式目录」
- 零外部依赖,纯go/ast实现:不需要安装golangci-lint或其他linter全家桶——每条规则都从零实现,二进制自包含
- 创业者启示:「LLM生成代码的专用质量工具」是一个正在爆发的品类。ESLint、golangci-lint等传统linter检测的是「人类容易犯的错误」。LLM犯的错误模式不同——它们更擅长模仿语法但更容易混淆语义。每个语言都需要一个「LLM-aware linter」
类比参考:Go版的「React Doctor」——React Doctor检查AI写的React代码,Gox检查AI写的Go代码。或者「LLM-aware的golangci-lint」

🔗 GitHub
融资信息:开源项目,LangGuard AI出品,Claude插件
做什么的:为Agent工作流做「起飞前合规检查」——把每个MCP工具映射到风险等级、业务影响和25个监管框架(SOC 2、GDPR、HIPAA、PCI、SOX、EU AI Act等),在Agent部署前就发现合规风险。不是运行时监控,是部署前的预防性审查。
为什么值得关注: - 「运行时guardrails太晚了」——这是一个精准的判断:大多数Agent安全方案是在运行时检查Agent行为。但Scope MCP认为,运行时已经太晚——Agent已经部署了,数据已经流动了。合规审查应该发生在「Agent被批准上线」之前 - 25个监管框架的映射是核心壁垒:把MCP工具(如Salesforce访问、Stripe支付、GitHub代码推送、Slack消息发送、邮件发送)的风险等级映射到SOC 2、GDPR、HIPAA、PCI、SOX、EU AI Act等25个框架——这个知识库本身就是产品 - Claude原生的MCP插件:作为Claude的MCP Server运行,Agent在规划阶段就能看到每个工具的合规风险评估 - 从「Agent做了什么」到「Agent被允许做什么」:传统安全审计是事后分析日志。Scope MCP做的是事前定义——在Agent获得工具访问权限之前,就确定每个操作的合规边界 - 创业者启示:「AI合规即服务」是一个有明确买家(合规官、法务团队、CISO)的市场。当企业开始大规模部署Agent时,「Agent的每个操作是否符合所有适用法规」这个问题会变得越来越紧迫。Scope MCP把合规知识产品化,降低了Agent上线的合规门槛
类比参考:Agent版的「Snyk但扫的是合规风险而非依赖漏洞」——或者「CI/CD的合规检查门,但用于Agent工作流」

| 趋势 | 信号 |
|---|---|
| 🖥️ Agent生态走向硬件 | Clawdmeter 869★,ESP32桌面仪表盘——Agent的物理存在感成为刚需 |
| 📝 Agent原生内容创作工具爆发 | html-anything 855★,75个Skill覆盖9种内容形态——从「人写Markdown」到「Agent写HTML」 |
| 🔧 Agent自我改进循环工程化 | Raindrop Workshop让Agent写eval+自动修复——Agent调试Agent成为标准模式 |
| 🔐 Agent身份验证走向密码学协议 | Ratify Protocol量子安全、1ms验证——Agent授权从「口头约定」到「密码学证明」 |
| 📓 AI嵌入已有工具生态 | Jupyter Studio在JupyterLab内嵌入Cursor级Agent——「嵌入」比「替代」更容易获客 |
| 🏗️ Agent专用基础设施深化 | Containarium MCP驱动沙箱、Gox LLM-aware linter——每层都在Agent化 |
| ⚖️ Agent合规成为独立品类 | Scope MCP 25框架预检——合规审查从「事后审计」到「部署前检查」 |
📌 422产品实验室出品 | 每日精选AI新产品、融资、创新模式
关注我们,获取面向创业者的AI产品情报
🔬 422产品实验室 · AI新产品日报 · 每日精选
今天最强烈的信号是「AI模型极致压缩」正在从实验室走向生产。Needle以637个HN赞证明了:Gemini的Tool Calling能力可以被蒸馏进一个26M参数的「简单注意力网络」——不需要GPU,手机上就能以6000 tok/s的速度运行。这意味着Agent的「大脑」(推理)和「手」(工具调用)正在拆分成两个独立的、可独立部署的组件。
与此同时,Agent基础设施继续向「深度专业化」分化:Statewright用Rust状态机引擎让Agent「不能犯错」而非「尽量不犯错」;E2a为Agent建了一个带认证的邮件系统;Hopper把Agent引入了最古老的计算遗产——大型机COBOL系统;HookGuard则扫描Agent配置文件里的恶意指令。Gigacatalyst让SaaS用户(非技术人员)用自然语言就能给产品「加装」新功能。
对创业者来说,今天的核心判断是:Agent基础设施的「通用层」已经拥挤,但「极端专用层」才刚刚开始——给Agent造专用浏览器、专用邮件网关、专用状态机、专用安全扫描器,每一个都是一个独立的品类。
融资信息:开源项目(Apache 2.0),Cactus-Compute团队出品,16块TPU v6e训练27小时
做什么的:将Gemini 3.1的工具调用(Function Calling)能力蒸馏为26M参数的「简单注意力网络」(Simple Attention Network)——encoder 12层+decoder 8层,无FFN,支持本地微调。在生产环境中通过Cactus引擎运行,预填充6000 tok/s,解码1200 tok/s。
为什么值得关注:
- 637个HN赞——本周AI项目最高分之一。核心突破不在于模型大小,而在于架构创新:去掉FFN层,用Cross-Attention连接encoder-decoder,用ZCRMSNorm替代LayerNorm。这是一个「少即是多」的架构设计哲学
- 200B token预训练 + 2B token工具调用后训练 = 27小时 + 45分钟:训练成本极低。这说明「专用微型模型」的商业可行性——不需要数百万美元的训练成本,几个小时就能出一个生产级模型
- 击败FunctionGemma-270m、Qwen-0.6B等更大模型:在单次工具调用任务上,26M参数的Needle超越了270M甚至600M参数的模型。这证明了「领域蒸馏」比「通用缩放」更高效
- 本地微调一条命令:needle playground 打开Web UI,用Gemini自动生成训练数据,一键微调。开发者可以为特定API结构定制工具调用模型
- 创业者启示:「把大模型的一个特定能力蒸馏到极致」是一个商业模式。Needle证明了工具调用这个能力可以用26M参数独立解决,不需要依赖几百亿参数的通用模型。同样的思路可以复制到:意图识别(5M就够了?)、实体抽取(10M?)、情感分析(3M?)——每个被蒸馏出来的「微型专家」都可以独立部署和收费
类比参考:AI Agent的「运动皮层」——Agent的大脑(LLM推理)可以很大,但「动手调用工具」这个动作只需要26M参数的专用模块。或者「LLM版的RISC-V:极简指令集,极致效率」
🔗 GitHub | HuggingFace
融资信息:开源项目,核心引擎Apache 2.0,插件FSL 1.1,已申请临时专利
做什么的:为AI Agent构建可视化状态机引擎——用Rust编写的确定性状态机在每个阶段限制Agent可用的工具、迭代次数和合法转换。不是用prompt告诉Agent「应该做什么」,而是用代码强制Agent「只能做什么」。通过MCP插件与Claude Code集成。
为什么值得关注: - 「Agents are suggestions, states are laws」——这句话精准概括了产品哲学:传统方式是用越来越长的prompt约束Agent行为。Statewright的思路是:把约束从prompt层移到协议层。模型不能跳过测试阶段直接部署,因为状态机根本不提供这个转换路径 - 13B参数以上的模型+状态机 = 可靠的编码Agent:作者在SWE-bench上验证:用qwen-coder、gemma4等13-20B参数模型配合状态机,效果甚至优于不加约束的更大模型。关键洞察是「上下文窗口利用率比原始大小更重要」 - 可视化编辑器:不是写YAML/JSON定义状态机,而是通过statewright.ai的图形界面拖拽节点、定义转换和守卫条件。失败路径、重试循环、审批门——都能看见 - 对前沿模型同样有效:Haiku和Sonnet配合状态机后「punch above their weight」,Opus「solves more reliably with fewer tokens and death spirals」 - 创业者启示:「用确定性代码约束非确定性模型」是一个被低估的技术路线。大多数人试图让模型更可靠(更大的模型、更长的prompt),Statewright证明了另一个路径:让模型在更小的解空间里工作。这个思路可以延伸到任何需要Agent可靠执行的场景——金融交易、法律文书、医疗诊断
类比参考:AI Agent版的「流水线+质检门」——不是告诉工人「请认真点」,而是设计一个工人不可能跳过质检步骤的生产线。或者「自动驾驶的硬约束安全层,但用于Agent」
融资信息:Hypercubic公司出品,商业产品,已有零售/航空客户
做什么的:为z/OS大型机打造的AI Agent——通过MCP协议连接,Agent可以导航ISPF、提交JCL作业、监控JES队列、分析SMF和RACF数据。同时提供HyperDocs(自动文档生成)、HyperTwin(专家知识捕获)、HyperLoop(代码迁移正确性证明)三大产品。
为什么值得关注: - 「最古老的计算遗产」遇到了最新的AI技术:全球80%的顶级零售商仍在大型机上运行核心商品系统,60%的IT预算花在维护遗留基础设施上。掌握这些系统的工程师正在退休,知识在流失 - 不是「替代」而是「捕获」:Hopper不是要取代COBOL工程师,而是把他们的操作模式、故障排除经验、异常处理知识转化为Agent可执行的流程。HyperTwin观察高级工程师如何工作,然后把每次会话变成可查询的专家模型 - 从零售到航空到银行:POS系统集成、TPF预订系统、夜间批处理——每个行业都有大型机知识断层的痛点。Hypercubic已经服务了零售和航空领域的头部客户 - MCP原生:通过Model Context Protocol连接,这意味着任何支持MCP的Agent(Claude Code、Codex等)都可以直接操作大型机 - 创业者启示:「传统行业的知识断层」是一个有明确买家(CIO、CTO)的巨大市场。不仅仅是大型机——工业控制系统、PLC编程、老式ERP定制、嵌入式C代码……每个有「老专家要退休」痛点的地方,都是AI知识捕获产品的市场
类比参考:大型机版的「AI学徒制」——老工程师退休前,AI在旁边观察、记录、学习。或者「COBOL世界的Claude Code」
🔗 官网
融资信息:开源项目,adamjgmiller出品,Claude Code Skill
做什么的:多Agent协作的PR审查工具——多个Claude Code实例从不同角度(代码质量、安全、性能、架构)并行审查同一个PR,每个Agent有独立的上下文和审查重点,最终汇总为统一的Review意见。
为什么值得关注: - 84个HN赞说明「AI Code Review」是真实需求:AI写代码已经很成熟,但AI审查代码的注意力远不够。adamsreview把「Code Review」从一个人的任务变成多个AI专家的协作任务 - 多Agent并行而非单Agent串行:一个Agent看安全漏洞,另一个看性能瓶颈,第三个看代码风格。每个Agent有独立的prompt和评估标准,不会互相干扰 - Claude Code原生集成:作为Skill安装,不需要额外的UI或工具链。开发者已经用Claude Code写代码,同一个环境里加一个Review技能 - 创业者启示:「多Agent协作做单点任务」比「单Agent做多步骤任务」更容易做对。adamsreview的思路是让多个轻量Agent各自负责一个维度,而不是一个复杂Agent试图面面俱到。这个模式可以复制到:安全审计、合同审查、学术论文评审
类比参考:代码审查版的「陪审团制度」——不是一个人审查,而是多个AI「评审员」从各自专业角度投票
🔗 GitHub
融资信息:初创公司,已有5家企业客户、2000+日活用户、900+个已建应用
做什么的:为SaaS产品提供嵌入式AI构建层——连接你的API和数据模型后,非技术用户(销售、CS、运营经理)可以通过自然语言描述需求,AI自动生成并部署新功能/应用。每个生成的应用独立沙箱化,通过代理层控制权限。
为什么值得关注: - 「Lovable,但建在你的产品之上」——精准定位:不是做通用的AI应用构建器,而是做「SaaS平台的二次开发层」。让客户自助构建缺失功能,工程团队不需要从roadmap中分心 - 2000日活、900+应用、70% 30天留存——数据说话:已经有一家Series B公司用了这套系统。运维经理用自然语言构建了「零件缺货预警」(据说防止了约50万美元的紧急停机)、「发票OCR识别」、「餐厅紧急工单分级」等实际应用 - 三层验证 + 沙箱隔离:生成的代码经过静态检查、运行时分析、LLM-as-Judge三重验证。每个应用独立沙箱、独立版本控制,不影响主代码库 - 80%的使用是前端功能:说明核心需求不是「AI写后端逻辑」,而是「非技术用户定制前端展示和操作流程」。这降低了安全风险,也明确了产品边界 - 创业者启示:「让客户自助扩展你的产品」是一个可复制的SaaS策略。每个服务大客户的SaaS都面临「长尾定制需求」的问题——客户需要的不是产品本身的改变,而是在产品之上构建特定工作流。Gigacatalyst做的是把这个过程AI化
类比参考:SaaS版的「Salesforce App Builder,但由AI驱动」——或者「给你的SaaS产品加一个AI版的无代码开发平台」
融资信息:开源项目,Mnexa-AI出品,提供托管服务和自托管方案
做什么的:为AI Agent构建带身份认证的邮件网关——入站邮件经过SPF/DKIM验证后,添加HMAC签名的认证头,通过Webhook或WebSocket交付给Agent。出站邮件可选「人工审批门(HITL)」——Agent发出的邮件需要人类审批后才能真正发出。
为什么值得关注: - 「Agent需要收发邮件」这个需求比想象中更普遍:自动化工单处理、客户支持路由、报告分发、跨组织协作——邮件仍然是企业间通信的主要方式。但Agent发邮件的安全风险(发错人、泄露机密、钓鱼攻击)让企业犹豫 - SPF/DKIM入站验证 + HMAC签名的出站认证:每封邮件的来源都有密码学级别的验证。Agent可以确认「这封邮件确实来自声称的发送者」,而不是依赖邮件头(可伪造) - Human-in-the-Loop审批门:Agent想发邮件给客户?先在Dashboard里等人类审批。可以通过Dashboard、magic-link邮件或CLI审批。这个设计让「Agent发邮件」从「不可能」变成「可控」 - Webhook + WebSocket双模式:云端Agent用Webhook(需要公网URL),本地Agent用WebSocket(不需要公网暴露)。覆盖了所有部署场景 - 创业者启示:「Agent与企业通信协议的桥接层」是一个基础设施品类。邮件只是开始——同样的认证+审批模式可以延伸到:Agent发送Slack消息、Agent提交JIRA工单、Agent创建日历事件。核心问题是相同的:如何让Agent安全地与人类通信系统交互
类比参考:Agent版的「企业邮件网关(如Mimecast/Proofpoint)」——但不是过滤垃圾邮件,而是验证Agent身份和控制Agent通信权限。或者「AI Agent的Exchange Server」
融资信息:开源项目,torrix-ai出品,Docker一键部署
做什么的:自托管的LLM可观测性平台——追踪每一次LLM请求的token消耗、成本、延迟、完整prompt trace、推理token捕获和PII脱敏。支持OpenAI、Anthropic、Gemini、Groq、Mistral等20+提供商。只需Docker,不需要Postgres、Redis等外部依赖。
为什么值得关注: - 「自托管 + 零外部依赖」——精准击中LLM可观测性的痛点:现有方案(Langfuse、Helicone)要么是云服务(数据离开你的控制),要么需要搭建Postgres+Redis全家桶。Torrix一个Docker Compose就跑起来 - 20+ LLM提供商支持:OpenAI、Anthropic、Gemini、Groq、Mistral、Azure OpenAI、DeepSeek、Perplexity、Fireworks、Together AI、Cohere、HuggingFace、Replicate、Ollama——基本上你能想到的都支持。通过代理层或SDK接入 - PII脱敏内置:prompt trace中的个人身份信息自动脱敏。这对合规要求严格的企业(金融、医疗)是刚需 - 推理token捕获:追踪模型的「思考」过程——不仅看到输入输出,还能看到中间推理步骤。这对调试Agent行为至关重要 - 创业者启示:「LLM可观测性」是一个正在从开发者工具变成企业必需品的市场。当Agent从demo走向生产,「每次LLM调用花了多少钱、产生了什么结果、是否正确」就从可选的分析变成了必须的监控。自托管+零依赖的定位类似「Grafana for LLM」
类比参考:LLM版的「Grafana + Jaeger」——自托管、轻量级、专注可观测性。或者「Langfuse的开源简化版,但不依赖Postgres」
🔗 GitHub
融资信息:开源项目(AGPL-3.0),Go语言编写,Homebrew安装
做什么的:AI编码Agent配置文件的安全扫描器——检测CLAUDE.md、.cursor/rules、AGENTS.md、copilot-instructions.md等文件中的RCE钩子、不可见Unicode字符、凭据泄露、prompt注入等恶意内容。
为什么值得关注:
- 「你的Agent配置文件可能是恶意的」——这是一个全新的攻击面:当你clone一个开源项目,里面的CLAUDE.md可能包含隐藏的指令(不可见Unicode、双向文本覆盖),或者.settings.json中的hooks会在每次工具调用时泄露你的API Key。HookGuard扫描的就是这个盲区
- 检测范围精准:RCE hooks(postToolUse命令泄露数据)、不可见Unicode(RIGHT-TO-LEFT OVERRIDE等双向控制字符)、凭据泄露(环境变量+外部目标在同一行)、prompt注入(「忽略所有之前的指令」)
- Go单二进制 + Homebrew安装:brew install Fredbcx/tap/hookguard,一条命令。CI/CD pipeline中可以自动运行
- 支持所有主流Agent配置:Claude(CLAUDE.md、.claude/settings.json)、Cursor(.cursor/rules/.md)、GitHub Copilot(.github/copilot-instructions.md)、通用(AGENTS.md)
- 创业者启示:「AI Agent的安全攻击面」正在快速扩大*。当Agent可以执行代码、访问文件、调用API时,控制Agent行为的配置文件就成了攻击目标。HookGuard做的是「Agent配置文件的杀毒软件」——这个品类会随着Agent的普及而变得越来越重要。可以延伸到:Agent行为监控、Agent权限审计、Agent供应链安全
类比参考:AI Agent版的「杀毒软件」——但扫描的不是可执行文件,而是控制Agent行为的配置文件。或者「Agent世界的snyk,但扫的是prompt injection而非依赖漏洞」
🔗 GitHub
| 趋势 | 信号 |
|---|---|
| 🧬 模型能力蒸馏到极致 | Needle 26M参数蒸馏Gemini工具调用,637赞——Agent的「大脑」和「手」正在拆分 |
| 🔒 确定性约束替代prompt约束 | Statewright用Rust状态机让Agent「不能犯错」——代码级约束 > prompt级建议 |
| 🏭 Agent基础设施「极端专用化」 | E2a做Agent邮件、Hopper做Agent+大型机、HookGuard做Agent安全——通用层已拥挤 |
| 🏗️ SaaS的AI扩展层 | Gigacatalyst让非技术用户给SaaS「加装」功能——「AI版二次开发平台」 |
| 👁️ LLM可观测性轻量化 | Torrix自托管、零外部依赖——「Grafana for LLM」的轻量替代 |
| 🛡️ Agent安全成为独立品类 | HookGuard扫描恶意Agent配置——「Agent杀毒软件」品类出现 |
| 🏛️ 传统行业知识AI化 | Hopper把COBOL专家知识装进AI——「知识断层」是巨大市场 |
📌 422产品实验室出品 | 每日精选AI新产品、融资、创新模式
关注我们,获取面向创业者的AI产品情报
🔬 422产品实验室 · AI新产品日报 · 每日精选
今天最值得关注的信号是「Agent的可观测性与治理层」正在快速产品化。Metorial(YC F25)拿到59个HN赞——它做的是「Vercel for MCP」,为Agent构建统一的身份认证、权限管理和审计层。re_gent以121个HN赞切入「AI Agent的版本控制」,让你追溯每行代码是哪个prompt写的、一键回滚。React Doctor以8K+ Star定位在「AI写坏React的体检中心」。三个产品从不同角度解决同一个问题:Agent越自主,人类越需要知道它干了什么、能干什么、干砸了怎么回退。与此同时,OpenHuman用桌面吉祥物+记忆树探索「AI超级智能」的交互范式,AiToEarn以10K+ Star证明「AI内容营销」在国内创作者市场的巨大需求。对创业者来说,今天的核心判断是:Agent治理(身份、权限、审计、版本控制、质量检测)正在从「可选的安全层」变成「必选的基础设施层」——每一条都对应一个独立品类。
融资信息:Y Combinator F25(2025年冬季批次),开源
做什么的:为AI Agent构建统一的身份认证、权限管理和可观测性控制平面——1200+集成、OAuth/API Key/Service Account统一管理、RBAC/SAML SSO/IAM内置、每个Agent的每次操作都有审计日志。一个API连接所有SaaS和企业系统。
为什么值得关注: - 「Agent能访问什么、做了什么」不再靠口头约定:Metorial坐在Agent和外部系统之间,统一处理认证、权限和审计。哪个Agent用了谁的凭据、做了什么操作——全部可追溯。这让CISO终于能睡个好觉 - 1200+集成覆盖几乎所有主流SaaS:不是又一个MCP Server市场,而是身份和权限的抽象层——Agent只需一个连接URL,Metorial处理OAuth流、Token生命周期、权限范围。开发者写一个API,所有集成都能用 - MCP原生的安全架构:不是在现有工具上加壳,而是从MCP协议层面设计权限模型。每个MCP Server可以定义细粒度的访问策略,Agent的每个工具调用都经过权限检查 - 自托管+云托管双模式:Metorial Platform完全开源可自托管(类似Supabase vs Firebase的定位),企业数据不离开自己的网络 - 创业者启示:「Agent的安全与治理」是一个有明确买家(企业安全团队、CISO)的市场。当企业考虑在生产环境部署Agent时,最大的阻力不是Agent能力不够,而是「Agent出了问题谁负责」。Metorial做的就是消除这个阻力。类似企业在采用SaaS前需要SSO和审计一样,Agent也需要
类比参考:Agent版的「Okta + Vercel」——Okta管身份,Vercel管部署,Metorial管Agent的身份和权限。或者「MCP世界的零信任网关」
融资信息:开源项目(Apache 2.0),Go语言构建,2026年4月创建
做什么的:为AI编码Agent设计的版本控制系统——自动追踪Agent的每次工具调用(编辑、写入、Shell命令),记录哪个prompt导致了哪行代码的变更,支持blame和一键回滚。Claude Code兼容,Homebrew一键安装。
为什么值得关注:
- 「谁写了这行代码?哪个prompt?」——终于有了答案:rgt blame src/file.go:42 直接告诉你这行代码是Agent在处理哪个prompt时写的,当时的上下文是什么。这是Git blame的Agent版本
- 自动追踪,零侵入:不需要Agent主动commit——re_gent在底层自动捕获每次工具调用。你正常用Claude Code,re_gent在后台默默记录一切。rgt init一条命令即可
- 一键回滚Agent的错误操作:Agent把代码改坏了?rgt rewind回退到任意步骤。不再是「让Agent自己修」,而是人类有完整的撤销能力
- Go语言单二进制,Homebrew安装:brew tap regent-vcs/tap && brew install regent——零依赖,跨平台。工程品质很高
- 创业者启示:「Agent操作的版本控制」是一个被严重低估的基础设施需求。当Agent从「偶尔生成一段代码」变成「持续在代码库中工作」时,Git本身的commit粒度远远不够——你需要知道的是「哪次prompt导致了什么变更」。re_gent把prompt→action→code change的链条完整记录下来
类比参考:AI Agent版的「Git blame + Time Machine」——不只是记录代码变了什么,还记录是哪个prompt导致的变更。或者「Claude Code的飞行数据记录器」
🔗 GitHub | Homebrew安装
融资信息:开源项目,tinyhumans.ai出品,Early Beta阶段
做什么的:开源桌面AI超级智能助手——118+第三方集成(Gmail、Notion、GitHub、Slack等),一键OAuth连接后自动每20分钟同步数据到本地记忆树,桌面吉祥物会说话、会反应、能加入Google Meet作为参会者。Rust构建,本地优先。
为什么值得关注: - 「让Agent在几分钟内了解你」而非「几周后才有用」:OpenHuman的设计哲学是消除冷启动时间——连接你的账号,auto-fetch每20分钟拉一次数据,Memory Tree自动压缩为Obsidian兼容的Markdown文件。第一次同步后,Agent就拥有了你收件箱、日历、代码库、文档的完整上下文 - 桌面吉祥物不是噱头,是交互范式:吉祥物有脸、会说话、能加入视频会议。这解决了一个真实问题——用户需要一个「存在感」来信任和理解Agent的状态。当Agent在后台思考时,吉祥物在屏幕上给你反馈 - Token压缩层(TokenJuice)节省80%成本:每个工具调用的结果、邮件正文、搜索内容都经过token压缩层——HTML转Markdown、长URL缩短、非ASCII字符移除。同样的信息,更少的token - 模型路由:推理任务用贵模型,简单任务用便宜模型:一个订阅下自动路由到合适的LLM——推理、快速、视觉三种模型自动切换。也支持Ollama本地模型 - 创业者启示:「桌面端的AI超级智能」是一个正在形成的品类——与Cursor(编码)、Claude(对话)不同,OpenHuman想做的是「覆盖你全部数字生活的AI」。它的核心壁垒是记忆树——你的所有数据、所有上下文都沉淀在本地SQLite中,迁移成本极高
类比参考:桌面版的「贾维斯(Jarvis)」——有形象、有记忆、接入你所有服务。或者「Obsidian + Zapier + 语音助手的合体,但由AI驱动」
融资信息:开源项目,millionco出品,TypeScript构建
做什么的:一键扫描React代码库,输出0-100健康评分和可操作的诊断建议。覆盖状态与副作用、性能、架构、安全、可访问性、死代码六个维度。支持Next.js、Vite、React Native。还能安装为AI编码Agent的Skill。
为什么值得关注:
- 精准定位:「Your agent writes bad React. This catches it.」——这个Slogan直击痛点。AI编码Agent能写React代码,但写的React代码经常违反最佳实践。React Doctor不做代码生成,专门做「AI生成代码的质量守门员」
- 8K+ Star说明需求真实:React开发者群体巨大,AI编码的普及让「AI写出来的React代码质量」成为一个普遍问题。一条命令 npx react-doctor@latest . 即可扫描
- 智能规则切换:规则会根据你使用的框架(Next.js/Vite/React Native)和React版本自动调整。不是一刀切的linter,而是理解你上下文的质量评估
- Agent Skill模式:可以安装为Claude Code/Copilot的Skill,让Agent在写代码时就遵循React最佳实践,而不是写完再修。「预防>治疗」
- 创业者启示:「AI生成代码的质量检测工具」是一个正在爆发的品类——React Doctor只是一个开始。这个模式可以复制到任何框架:Vue Doctor、Python Doctor、SQL Doctor……核心洞察是:AI让代码生成变便宜了,但代码审查和质量控制的成本没变——工具化是唯一解
类比参考:React版的「ESLint + SonarQube」,但专门为AI生成的代码设计。或者「AI编码Agent的质量检测员」
🔗 GitHub
融资信息:开源项目,Rust构建,个人开发者njbrake出品
做什么的:统一管理多个AI编码Agent(Claude Code、OpenCode、Codex CLI、Gemini CLI、Mistral Vibe、Copilot CLI等)的会话管理器——TUI和Web双界面,基于tmux和git worktrees实现并行开发,支持手机浏览器远程监控。
为什么值得关注: - 「让10个Agent同时编码」变得可管理:基于tmux管理多个Agent会话,基于git worktrees实现代码隔离——每个Agent在自己的worktree上工作,互不干扰。Agent A编辑了Agent B读过的文件,B会收到通知 - Web界面 = 手机也能看:TUI适合终端重度用户,Web界面适合手机/平板远程监控。让Agent在服务器上跑,手机上随时查看进度——这才是「Agent替你工作」的正确体验 - 支持几乎所有主流编码Agent:Claude Code、OpenCode、Codex CLI、Gemini CLI、Mistral Vibe、Pi.dev、Copilot CLI、Factory Droid Coding——一个管理器管所有 - 最新支持multi-repo workspace:刚刚更新了多仓库工作区支持,一个项目跨多个repo也能统一管理 - 创业者启示:「多Agent编排的管理界面」是一个明确的刚需——当开发者同时启动多个Agent处理不同任务时,「谁在干什么、进度如何、有没有冲突」就成为核心问题。Agent of Empires做的不是Agent本身,而是Agent的「指挥中心」
类比参考:AI编码Agent版的「tmuxinator + 指挥中心」——或者「手机可访问的Claude Code多任务管理器」
🔗 GitHub
融资信息:开源项目(TypeScript),国内团队yikart出品
做什么的:面向OPC(一人公司)的AI内容营销智能体——AI自动创作内容并一键分发到抖音、小红书、快手、B站、TikTok、YouTube、Instagram、Twitter等12+平台。支持自动发布、定时发布、多平台同步。
为什么值得关注: - 10.7K Star,国内AI内容营销领域最受关注的开源项目——这说明「用AI做内容营销并变现」是国内创作者的刚需中的刚需 - 覆盖全球主流平台:国内(抖音、小红书、快手、B站、视频号)+ 海外(TikTok、YouTube、Instagram、Twitter、Pinterest、LinkedIn、Facebook、Threads)——一套内容,12+平台自动分发 - 从创作到分发的全链路:不只是AI写作工具,而是「AI创作→多平台适配→自动发布→数据追踪」的完整工作流。省掉的是「同一个视频调不同尺寸发不同平台」这种体力活 - 5种使用方式:网页版直接用、OpenClaw集成、Claude/Cursor集成、桌面应用、API调用——降低了使用门槛 - 创业者启示:「一人公司的AI运营工具」在国内是一个巨大的市场。大量个体创作者和小团队需要「用AI替代运营团队」——从内容创作到多平台分发到数据分析,每一环都有产品化机会。AiToEarn的10K+ Star说明这个需求极其强烈
类比参考:AI版的「Buffer + Canva + 剪映」——从创作到分发一条龙。或者「国内版Opus Clip + 多平台自动分发」
🔗 GitHub
融资信息:开源项目,PlatonAI出品,Kotlin构建
做什么的:专为AI Agent设计的高性能浏览器引擎——协程安全、支持自主浏览Agent、工作流自动化、X-SQL查询、高速并行处理、自动数据提取。性能远超传统Playwright/Puppeteer方案。
为什么值得关注:
- 「给AI Agent造一个专用浏览器」——不是在Chrome上加自动化层(如Playwright),而是从头设计一个为Agent优化的浏览器引擎。协程安全意味着多个Agent可以同时操作浏览器而不互相干扰
- X-SQL:用SQL查询网页:Agent可以用SQL语句直接查询网页数据——SELECT title, price FROM products WHERE price < 100。这比让LLM解析HTML再提取数据要高效得多
- 高性能并行处理:传统方案是串行加载页面、等待渲染、提取数据。Browser4支持协程级并行——一个Agent可以同时处理数十个页面
- 自主浏览Agent:不只是自动化脚本,而是能自主推理、规划、执行的浏览器Agent——理解页面内容、做出决策、执行操作
- 创业者启示:「Agent专用的基础设施」正在深入到每一层——Agent需要自己的数据库(向量数据库)、自己的文件系统(Tilde.run)、自己的版本控制(re_gent)、现在连浏览器都有了专用的引擎。Browser4的思路可以复制到其他Agent基础设施
类比参考:AI Agent版的「无头Chrome」——但不是去掉UI的Chrome,而是为Agent从头设计的浏览器。或者「Playwright的Agent原生替代」
融资信息:Y Combinator S23(2023年夏季批次),已上线产品
做什么的:长时间运行的自主AI研究Agent——给定一个研究任务,Agent自主浏览网页、提取数据、构建结构化数据集。不需要人类逐步指导,Agent自己规划搜索策略、判断信息质量、整理最终输出。
为什么值得关注: - 「研究任务可以放手让Agent跑几小时」——与需要人类持续监督的对话式AI不同,Webhound设计为长时间自主运行。你给一个研究任务,几小时后拿到结构化的研究结果 - 从网页到结构化数据集的全自动:不是简单的网页摘要,而是将非结构化的网页信息转化为结构化的、可分析的数据集。这对市场研究、竞品分析、行业调研有直接价值 - YC S23批次的毕业生——说明这个方向在2023年就被YC认可,经过近3年打磨已经产品化 - 创业者启示:「自主研究Agent」在B2B场景有明确的付费意愿——市场研究公司、咨询公司、投资机构每天都在做「从网页提取信息并结构化」的工作。如果Agent能做到人类80%的质量但只需要20%的时间,这就是一个可收费的产品
类比参考:AI版的「McKinsey初级分析师」——你给一个研究方向,它自主收集资料、整理分析、输出结构化报告。或者「Perplexity的深度研究模式,但是全自动」
🔗 官网
| 趋势 | 信号 |
|---|---|
| 🔐 Agent治理层产品化 | Metorial (YC F25) 做Agent身份权限、re_gent做Agent版本控制——Agent越自主,治理需求越强 |
| 🩺 AI代码质量检测崛起 | React Doctor 8K+ Star——AI让代码生成变便宜,质量控制成新刚需 |
| 🖥️ 桌面AI超级智能探索 | OpenHuman桌面吉祥物+记忆树,探索Agent的全新交互范式 |
| 📱 Agent管理移动化 | Agent of Empires支持Web界面手机监控——Agent在服务器跑,人类在手机上看 |
| 🌐 Agent专用基础设施深化 | Browser4做Agent专用浏览器引擎——基础设施层持续分化 |
| 📣 AI内容营销工具在国内爆发 | AiToEarn 10K+ Star——一人公司用AI做内容分发是刚需 |
| 🔬 自主研究Agent进入产品化 | Webhound (YC S23) 让研究任务全自动运行——B2B研究场景有付费意愿 |
📌 422产品实验室出品 | 每日精选AI新产品、融资、创新模式
关注我们,获取面向创业者的AI产品情报
agent AI AI Agent AI design AIGC AIGC 周报 AIGC,-豆包APP更新,DeepSeek #月之暗面 #AI模型发布 ,AI产业化应用,人工智能发展 AI产品 AI创业 AI 周报 AI工具 AI 工具 AI 市场报告 AI日报 AI早报 AI模型 Ai 模型 AI模型发布 AI融资 Claude Code DeepSeek MCP N8N NAS notion OpenAI Product Hunt SAAS 个人知识库 互动学习 人工智能 创业公司 多模态 大模型产品 大模型,大模型教学,RAG,aiagent实战,dify,coze,n8,工作流,aiagent 微软 推理模型 本地部署 民意调查 游戏 私有化部署 科技伦理 经验分享 美国 裁员