<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/">
    <channel>
        <title>Timothy Lu</title>
        <link>https://timothyxlu.xyz/</link>
        <description>碳基补完计划</description>
        <lastBuildDate>Thu, 02 Apr 2026 03:23:57 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <language>zh-CN, en-US</language>
        <copyright>All rights reserved 2026, Timothy Lu</copyright>
        <item>
            <title><![CDATA[今日AI: 2026-04-01]]></title>
            <link>https://timothyxlu.xyz/article/today-ai-20260401</link>
            <guid>https://timothyxlu.xyz/article/today-ai-20260401</guid>
            <pubDate>Wed, 01 Apr 2026 00:00:00 GMT</pubDate>
            <content:encoded><![CDATA[<div id="notion-article" class="mx-auto overflow-hidden "><main class="notion light-mode notion-page notion-block-335b9f4752ed80518cf1e0575289ffa1"><div class="notion-viewport"></div><div class="notion-collection-page-properties"></div><div class="notion-audio notion-block-335b9f4752ed808f84a7e14e8f2a97a6"><audio controls="" preload="none" src="https://tldr-podcast.timothyxlu.xyz/tldr-ai-podcast-2026-04-01.mp3?spaceId=eefb9f47-52ed-81e4-aac3-000310285921"></audio></div><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed803ab38bdb4ed369b133" data-id="335b9f4752ed803ab38bdb4ed369b133"><span><div id="335b9f4752ed803ab38bdb4ed369b133" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed803ab38bdb4ed369b133" title="🚀 头条新闻 / Headlines &amp; Launches"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🚀 头条新闻 / Headlines &amp; Launches</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed806bae15c5fd396fd8a2" data-id="335b9f4752ed806bae15c5fd396fd8a2"><span><div id="335b9f4752ed806bae15c5fd396fd8a2" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed806bae15c5fd396fd8a2" title="Caltech Researchers Claim Radical Compression of High-Fidelity AI Models"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/Jyr9p5">Caltech Researchers Claim Radical Compression of High-Fidelity AI Models</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8067bbfbeec91a08bcc1"><b>5 minute read</b></div><div class="notion-text notion-block-335b9f4752ed8025bfbcd3590daefd5f">📋 加州理工学院计算机科学家 Babak Hassibi 领导的团队创立了 PrismML，推出了一种 1-bit 大语言模型压缩技术，能在不牺牲推理和编程能力的前提下将模型大小压缩至极致，使 AI 可以在手机、笔记本等边缘设备上本地运行，同时大幅降低数据中心能耗。该公司已获 Khosla Ventures 等投资 1625 万美元种子轮融资。</div><details class="notion-toggle notion-block-335b9f4752ed8002a531f5b51c162c65"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed801e83f8cd903bebf662">PrismML 由加州理工学院（Caltech）数学家兼计算机科学家 Babak Hassibi 创立，核心技术是一种数学突破性的 1-bit 模型压缩方法。传统 AI 模型通常使用 16-bit 精度，部分方案采用 4-bit，而 PrismML 实现了 1-bit（仅用 +1 或 -1 表示模型权重），却不损失推理、编码和通用知识能力。</div><div class="notion-text notion-block-335b9f4752ed80da9526f82eba713292">公司联合创始人还包括 Sahin Lale、Omead Pooladzandi 和 Reza Sadri。知识产权归加州理工学院所有，PrismML 是唯一独家授权方。</div><div class="notion-text notion-block-335b9f4752ed8092990ac439ffb7c18f">投资方面，PrismML 完成了 1625 万美元的 SAFE 和种子轮融资，投资者包括 Khosla Ventures、Cerberus Capital 和 Caltech。知名投资人 Vinod Khosla 评价称这&quot;不是一个小迭代，而是一个重大技术突破&quot;，是&quot;数学突破，而非又一个小模型&quot;。</div><div class="notion-text notion-block-335b9f4752ed8032b5a7f78e92d4a860">技术优势体现在多个层面：其旗舰模型 Bonsai 8B 可将处理速度提升最多 8 倍；同样的效率提升不仅使边缘部署成为可能，也让数据中心能更高效运行。PrismML 的数学框架可应用于 transformer、扩散模型等任何架构，具有广泛的适用性。该公司已开源其 1-bit 技术模型，供其他研究者和开发者使用。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80e685d8efa15654bd91"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80bc88baca62211c70e1" data-id="335b9f4752ed80bc88baca62211c70e1"><span><div id="335b9f4752ed80bc88baca62211c70e1" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80bc88baca62211c70e1" title="Claude Code&#x27;s Source Code Appears to Have Leaked: Here&#x27;s What We Know"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://venturebeat.com/technology/claude-codes-source-code-appears-to-have-leaked-heres-what-we-know?utm_source=tldrai">Claude Code&#x27;s Source Code Appears to Have Leaked: Here&#x27;s What We Know</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80e799b5c160ce1d11e3"><b>5 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80c3bbccfc4a011bf98a">📋 Anthropic 意外将 Claude Code 的内部源代码泄露至公共 npm 注册表。一个 59.8MB 的 JavaScript source map 文件被包含在 v2.1.88 版本中，被数千名开发者镜像和分析。泄露揭示了 Claude Code 的三层记忆架构、自主守护模式 KAIROS、内部模型代号以及&quot;隐身模式&quot;等关键技术细节。</div><details class="notion-toggle notion-block-335b9f4752ed803a907af1a69911dcc8"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed804389ddf9c40250523e">此次泄露事件始于 Solayer Labs 实习生 Chaofan Shou 在 X 上的发现，约 512,000 行 TypeScript 代码库迅速被镜像和分析。对于年化收入 190 亿美元、Claude Code 单品 ARR 达 25 亿美元的 Anthropic 来说，这不仅是安全失误，更是战略层面的知识产权损失。</div><div class="notion-text notion-block-335b9f4752ed8031bee2ff829711ec38"><b>三层记忆架构</b>：最核心的发现是 Anthropic 如何解决&quot;上下文熵&quot;问题——即 AI 代理在长时间运行中变得混乱。系统使用 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://MEMORY.md">MEMORY.md</a> 作为轻量级指针索引（每行约 150 字符），始终加载到上下文中；实际项目知识分布在按需获取的&quot;主题文件&quot;中；原始对话记录永远不会被完整回读，而是通过 grep 查找特定标识符。</div><div class="notion-text notion-block-335b9f4752ed8000a9f0cbf091af1d48"><b>KAIROS 自主守护模式</b>：代码中出现超过 150 次的功能标记，代表一种&quot;始终在线&quot;的后台代理模式。当用户空闲时，代理会执行&quot;autoDream&quot;——合并分散观察、消除逻辑矛盾、将模糊洞察转化为确定事实。</div><div class="notion-text notion-block-335b9f4752ed803fa837ecb5b9432ccb"><b>内部模型代号</b>：泄露确认 Capybara 是 Claude 4.6 变体的内部代号，Fennec 对应 Opus 4.6，Numbat 仍在测试中。Capybara v8 仍面临 29-30% 的虚假声明率，相比 v4 的 16.7% 反而有所倒退。</div><div class="notion-text notion-block-335b9f4752ed806a89d2e4671c2c4ef9"><b>隐身模式</b>：系统提示明确告诉模型&quot;你正在秘密行动&quot;，确保提交信息不包含任何 Anthropic 内部信息，用于向公共开源仓库进行不公开的 AI 辅助贡献。</div><div class="notion-text notion-block-335b9f4752ed809ab201d9faac75e4a9">Anthropic 确认泄露是&quot;发布打包问题，由人为错误导致&quot;，不涉及敏感客户数据或凭证。同时，与此次事件时间接近的 axios npm 包供应链攻击也引发了额外的安全担忧。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed806d880fc570c83836eb"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80738a0cecd1a137ba39" data-id="335b9f4752ed80738a0cecd1a137ba39"><span><div id="335b9f4752ed80738a0cecd1a137ba39" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80738a0cecd1a137ba39" title="OpenAI Raised $122B to Expand AI Infrastructure"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/3gP6hV">OpenAI Raised $122B to Expand AI Infrastructure</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed801f8d7fde56c38d9d55"><b>5 minute read</b></div><div class="notion-text notion-block-335b9f4752ed807bb6f2e2dc84a4bf23">📋 OpenAI 宣布以 8520 亿美元估值完成 1220 亿美元新一轮融资，用于扩展 AI 基础设施。公司月收入已达 20 亿美元，ChatGPT 周活跃用户超 9 亿，正朝着构建&quot;AI 超级应用&quot;的方向迈进。</div><details class="notion-toggle notion-block-335b9f4752ed80c69784f38c17e4d046"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80cfab18cd6fbcf63c43">OpenAI 完成了史上规模最大的融资轮之一，由 Amazon、NVIDIA、SoftBank 锚定投资，Microsoft 持续参与，a16z、D.E. Shaw Ventures、MGX、TPG 等联合领投。这是首次通过银行渠道向个人投资者开放，筹集超 30 亿美元，并将纳入 ARK Invest 管理的多个 ETF。</div><div class="notion-text notion-block-335b9f4752ed80a1a8d8e07b33b49108">公司增长数据令人瞩目：ChatGPT 是最快达到 1000 万、1 亿用户的技术平台，即将成为最快达到 10 亿周活跃用户的平台。收入增速是 Alphabet 和 Meta 同期的 4 倍。ChatGPT 月网页访问量和移动端使用时长分别是第二大 AI 应用的 6 倍和 4 倍。搜索使用量一年内近乎翻了三倍，广告试点在六周内 ARR 突破 1 亿美元。</div><div class="notion-text notion-block-335b9f4752ed801a8a5dec4a25040c23">企业端现占总收入 40% 以上，有望在 2026 年底与消费端持平。API 每分钟处理超 150 亿 token，Codex 周用户超 200 万。</div><div class="notion-text notion-block-335b9f4752ed80a0b963d1b2028fb0d3">基础设施战略已从少数核心供应商扩展到多云（Azure、AWS、Oracle、CoreWeave、Google Cloud）、多芯片（NVIDIA、AMD、AWS Trainium、Cerebras 及与 Broadcom 合作的自研芯片）和多数据中心的组合。OpenAI 将计算能力视为核心战略优势，形成&quot;更多计算→更智能模型→更好产品→更快增长→再投资&quot;的飞轮效应。</div><div class="notion-text notion-block-335b9f4752ed80c18312c5090fc828cd">公司还宣布正在构建统一的&quot;AI 超级应用&quot;，整合 ChatGPT、Codex、浏览和代理能力于单一系统。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed8052b5b6fd66e68261e4"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8072a503eb1363cbbb08" data-id="335b9f4752ed8072a503eb1363cbbb08"><span><div id="335b9f4752ed8072a503eb1363cbbb08" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8072a503eb1363cbbb08" title="Mercor Says It Was Hit by Cyberattack Tied to Compromise of Open-Source LiteLLM Project"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://techcrunch.com/2026/03/31/mercor-says-it-was-hit-by-cyberattack-tied-to-compromise-of-open-source-litellm-project/?utm_source=tldrai">Mercor Says It Was Hit by Cyberattack Tied to Compromise of Open-Source LiteLLM Project</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80eb852cc5b97849e636"><b>3 minute read</b></div><div class="notion-text notion-block-335b9f4752ed804d9b12e107aeff2c09">📋 AI 招聘初创公司 Mercor 确认遭受了与开源项目 LiteLLM 供应链攻击相关的安全事件。黑客组织 Lapsus$ 声称已获取被盗数据，但数据获取方式尚不明确。该事件促使 LiteLLM 将合规认证从 Delve 转向 Vanta。</div><details class="notion-toggle notion-block-335b9f4752ed8071a7d5de27e378b9fc"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80d89bfef93e77971129">Mercor 成立于 2023 年，与 OpenAI 和 Anthropic 等公司合作，通过签约科学家、医生、律师等领域专家来训练 AI 模型，每日促成超 200 万美元的支付。2025 年 10 月，Mercor 在 Felicis Ventures 领投的 C 轮融资后估值达 100 亿美元。</div><div class="notion-text notion-block-335b9f4752ed801284c5f57534d41ead">此次安全事件源于 LiteLLM 项目的供应链攻击。LiteLLM 是一个被广泛使用的 Y Combinator 支持的开源项目，其关联包中被发现恶意代码。虽然恶意代码在数小时内被识别并移除，但由于 LiteLLM 库每日下载量达数百万次，影响范围广泛。</div><div class="notion-text notion-block-335b9f4752ed80fb96f3febe2dfcbed4">Lapsus$ 勒索黑客组织在其泄露网站上声称对这起明显的数据泄露事件负责，并分享了据称从 Mercor 获取的数据样本，包括 Slack 数据、工单数据以及两段据称展示 Mercor AI 系统与平台承包商对话的视频。</div><div class="notion-text notion-block-335b9f4752ed80bb930cefb5c790164a">Mercor 发言人确认公司已&quot;迅速&quot;采取措施遏制和修复安全事件，并由领先的第三方取证专家协助进行彻底调查。但 Mercor 拒绝回答该事件是否与 Lapsus$ 的声明有关，以及是否有客户或承包商数据被访问、窃取或滥用。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80018ad4dd7dd6f7c044"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed80eda03beed017515bec" data-id="335b9f4752ed80eda03beed017515bec"><span><div id="335b9f4752ed80eda03beed017515bec" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80eda03beed017515bec" title="🧠 深度分析 / Deep Dives &amp; Analysis"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧠 深度分析 / Deep Dives &amp; Analysis</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8098877dde33694b52a1" data-id="335b9f4752ed8098877dde33694b52a1"><span><div id="335b9f4752ed8098877dde33694b52a1" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8098877dde33694b52a1" title="The Economics of Generative AI: Two Years Later"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://apoorv03.com/p/the-economics-of-generative-ai-two?utm_source=tldrai">The Economics of Generative AI: Two Years Later</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8079a18eddc241dfdb3a"><b>8 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80aeacf9f8d68657505d">📋 对生成式 AI 经济学的最新分析显示，两年间生态系统增长了 5 倍至约 4350 亿美元年收入，但价值链形态几乎未变：半导体层仍占全部 AI 收入的约 70%，NVIDIA 一家独大。基础设施是唯一真正具有竞争性的层级，而最赚钱的策略依然是&quot;卖铲子&quot;。</div><details class="notion-toggle notion-block-335b9f4752ed805d924cde4aac513f47"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80a78f2afd42cf5d88bf">这篇文章是 Altimeter Capital 的 Apoorv Agrawal 对其 2024 年原始分析的更新。两年前，他发现生成式 AI 价值链是倒置的——计算层占所有收入的 83% 和所有毛利的 87%。他预测这将随时间翻转。</div><div class="notion-text notion-block-335b9f4752ed8004bfaaf212e53ac217"><b>各层级分布（约 4350 亿美元总收入）：</b></div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80b18c49ea9357e6cbdc"><li><b>半导体层（约 3000 亿美元）</b>：绝大部分是 NVIDIA（上季度数据中心收入 620 亿美元，年化约 2500 亿美元），Broadcom 的 AI 半导体业务（为 Google、Meta、ByteDance 生产定制加速器）贡献约 340 亿美元，加上超大规模云厂商直接采购的约 250 亿美元高带宽内存。NVIDIA 占该层约 80%。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80749bc5ec597552a5aa"><li><b>基础设施层（约 750 亿美元）</b>：Azure、AWS、GCP、Oracle 各贡献 100-200 亿美元，CoreWeave 约 60 亿美元。这是相对均匀分布的唯一竞争性层级。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed800a8debf5d653ab5e11"><li><b>应用层（约 600 亿美元）</b>：同样极度集中——OpenAI 和 Anthropic 合计约 450 亿美元年化收入，占该层约 75%。</li></ul><div class="notion-text notion-block-335b9f4752ed80f3aeb9d26251af928f"><b>利润率差异更加悬殊：</b> 半导体毛利率约 73%，基础设施约 55%，应用层约 33%。半导体层赚取约 2250 亿美元毛利，占全部 AI 生态毛利的 79%。相比之下，在传统云计算堆栈中，应用占 70% 而半导体仅占 6%——AI 堆栈几乎是完全相反的格局。</div><div class="notion-text notion-block-335b9f4752ed80d4b71ec1a5ad58c9ca"><b>资本支出问题：</b> 前五大超大规模云厂商 2025 年资本支出约 4430 亿美元，预计 2026 年超过 6000 亿美元，其中约 75%（约 4500 亿美元）用于 AI 基础设施。各家 CEO 都坚信投资值得，但自研芯片竞争（Google TPU、Amazon Trainium、OpenAI 定制 ASIC 等）正在加剧。</div><div class="notion-text notion-block-335b9f4752ed8032acdffb195f87abc9">作者认为堆栈最终会翻转，但可能需要超过十年。云计算堆栈从硬件主导到软件主导花了约 15 年。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80f784e0f145b4e0b8c8"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80ba9eb8d59c8658f186" data-id="335b9f4752ed80ba9eb8d59c8658f186"><span><div id="335b9f4752ed80ba9eb8d59c8658f186" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80ba9eb8d59c8658f186" title="Claude Code&#x27;s Real Secret Sauce (Probably) Isn&#x27;t the Model"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/ACAL3Q">Claude Code&#x27;s Real Secret Sauce (Probably) Isn&#x27;t the Model</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80778bcaf66cfd6ff006"><b>4 minute read</b></div><div class="notion-text notion-block-335b9f4752ed801faf70e01bb3788d00">📋 Sebastian Raschka 分析了 Claude Code 泄露的源代码，指出其卓越性能主要来自精心设计的软件工具链而非底层模型本身——包括专用的 Grep/Glob/LSP 工具、激进的提示缓存复用、文件读取去重、结构化会话记忆以及分叉子代理并行化等机制。</div><details class="notion-toggle notion-block-335b9f4752ed80ee9e2cdcb5ba58f68c"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed8033a140d8dc1c0ddfd1">ML 研究工程师 Sebastian Raschka 在 X 上发表了对 Claude Code 泄露源代码的教育性分析，提出了六个关键发现：</div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed80688d26c996a8a79516" style="list-style-type:decimal"><li><b>实时仓库上下文构建</b>：Claude Code 启动时加载主 git 分支、当前分支、最近提交以及 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://CLAUDE.md">CLAUDE.md</a> 等上下文信息。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed8029b3bbc61b6e7a8298" style="list-style-type:decimal"><li><b>激进的提示缓存复用</b>：系统使用边界标记分离静态和动态内容，静态部分全局缓存以保持稳定性，避免每次重新构建和处理昂贵的部分。</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-335b9f4752ed80538539d204462cd990" style="list-style-type:decimal"><li><b>专用工具优于&quot;聊天 + 上传文件&quot;</b>：系统指示模型使用专用 Grep 工具而非通过 Bash 调用 grep/rg，因为专用工具有更好的权限处理和结果收集。还有专用的 Glob 文件发现工具和 LSP（语言服务器协议）工具用于调用层级和引用查找，这比将代码视为静态文本的聊天 UI 有显著优势。</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-335b9f4752ed8087b699d41f4ba03731" style="list-style-type:decimal"><li><b>最小化上下文膨胀</b>：通过文件读取去重（检查文件是否未更改则不重新处理）、过大的工具结果写入磁盘（上下文仅保留预览和文件引用）、以及自动截断和压缩/摘要长上下文来控制有限的上下文窗口。</li></ol><ol start="5" class="notion-list notion-list-numbered notion-block-335b9f4752ed80c2a472cd77a8be37b8" style="list-style-type:decimal"><li><b>结构化会话记忆</b>：Claude Code 维护一个包含会话标题、当前状态、任务规范、文件与函数、工作流、错误与修正、代码库文档、学习心得、关键结果和工作日志等章节的结构化 Markdown 文件。</li></ol><ol start="6" class="notion-list notion-list-numbered notion-block-335b9f4752ed80b5936fcb710df88599" style="list-style-type:decimal"><li><b>分叉与子代理</b>：分叉代理复用父级缓存并感知可变状态，允许系统执行摘要、记忆提取或后台分析等辅助工作，而不污染主代理循环。</li></ol><div class="notion-text notion-block-335b9f4752ed80e7a5b7ef283c76f9a8">Raschka 总结说，如果将其他模型（如 DeepSeek、MiniMax 或 Kimi）放入这个软件框架并适当优化，也能获得非常强的编码性能。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed8018819adb70b3197384"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80aca738fa8d8ebcc687" data-id="335b9f4752ed80aca738fa8d8ebcc687"><span><div id="335b9f4752ed80aca738fa8d8ebcc687" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80aca738fa8d8ebcc687" title="Compute Wars: OpenAI vs Anthropic"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/VADkGA">Compute Wars: OpenAI vs Anthropic</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8065a895ebe7008f0281"><b>3 minute read</b></div><div class="notion-text notion-block-335b9f4752ed8035a902c863543bc4db">📋 Opus 4.5 之所以是重大突破，是因为 Anthropic 从 AWS Madison 和 New Carlisle 站点获得了大量新增算力，可能使其容量翻倍以上。这使 Anthropic 在可用算力方面接近 OpenAI，但 OpenAI 预计将在 2026 年下半年拉开差距，2027 年双方将再次接近。</div><details class="notion-toggle notion-block-335b9f4752ed8072bfefd9426cc6cccb"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80b2b445fa273e7af027">AI 能力分析师 Peter Gostev 在 X 上发表了关于 OpenAI 与 Anthropic 算力竞赛的分析。核心论点是&quot;始终关注算力，虽然其他因素也重要，但任何新的能力突破很可能来自于投入更多算力&quot;。</div><div class="notion-text notion-block-335b9f4752ed801d808ff0c5c24242e3">关于 Opus 4.5 的突破，Gostev 指出这主要归功于 Anthropic 从 AWS 的 Madison 和 New Carlisle 数据中心站点获得了大量新增计算容量，可能使其总容量翻了一倍多。这使 Anthropic 的总容量接近 OpenAI，甚至在可用于新模型训练的有效容量方面可能更高。</div><div class="notion-text notion-block-335b9f4752ed804d9f51e00c88bdf44d">关于时间线，由于从获得容量到发布模型需要 6 个月以上，OpenAI 新增的额外容量可能更适合用于代号为&quot;spud&quot;的模型而非 GPT-5.4。除非出现戏剧性变化，OpenAI 将在 2026 年下半年在可用算力方面拉开距离，但 2027 年双方将再次接近。</div><div class="notion-text notion-block-335b9f4752ed8015a15dcc91c1d43ecf">从更长期来看，OpenAI 目前有更高的规划容量，但 Gostev 认为 Anthropic 不可能不全力争取更多算力。他还提供了交互式可视化工具和 GitHub 数据集，数据起点主要来自 Epoch AI 的前沿数据中心资源。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed8052af99c10d341b80d2"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed8094b037cd1ee43da991" data-id="335b9f4752ed8094b037cd1ee43da991"><span><div id="335b9f4752ed8094b037cd1ee43da991" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8094b037cd1ee43da991" title="🧑‍💻 工程与研究 / Engineering &amp; Research"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧑‍💻 工程与研究 / Engineering &amp; Research</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed804e883dd08fd22b577d" data-id="335b9f4752ed804e883dd08fd22b577d"><span><div id="335b9f4752ed804e883dd08fd22b577d" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed804e883dd08fd22b577d" title="Google Veo 3.1 Lite"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://blog.google/innovation-and-ai/technology/ai/veo-3-1-lite/?utm_source=tldrai">Google Veo 3.1 Lite</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80a9be8ff9d55788f95e"><b>3 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80b687bcc5ec003610e0">📋 Google 推出 Veo 3.1 Lite，这是其最具成本效益的视频生成模型，通过 Gemini API 提供，成本不到 Veo 3.1 Fast 的一半，但速度相同，支持文本转视频和图像转视频功能。</div><details class="notion-toggle notion-block-335b9f4752ed80d2bd98e6a678937936"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed8027b85eee60c64731c5">Google DeepMind 发布了 Veo 3.1 Lite，完善了 Veo 3.1 模型系列，为开发者提供基于需求的灵活选择。该模型的主要特点包括：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80e7ad6cc14806dd28ed"><li><b>成本优势</b>：价格不到 Veo 3.1 Fast 的 50%，但提供相同的生成速度，适用于高容量视频应用场景</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8091bf17fd2cd61c81e4"><li><b>功能支持</b>：支持文本转视频（Text-to-Video）和图像转视频（Image-to-Video）两种模式</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8062a9d9e914ad67e291"><li><b>灵活的参数选项</b>：支持横屏（16:9）和竖屏（9:16）两种画面比例，720p 和 1080p 两种视频分辨率，以及 4 秒、6 秒、8 秒三种时长选择，成本随时长相应调整</li></ul><div class="notion-text notion-block-335b9f4752ed8052b41ad4ef04bc4733">此外，Google 还宣布将于 4 月 7 日降低 Veo 3.1 Fast 的定价，进一步降低视频生成门槛。该模型已通过 Gemini API 和 Google AI Studio 的付费层级开放使用。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80ce83f5ce8b3fefe83f"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80a18ae7e5ce80a127be" data-id="335b9f4752ed80a18ae7e5ce80a127be"><span><div id="335b9f4752ed80a18ae7e5ce80a127be" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80a18ae7e5ce80a127be" title="Aurora"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.together.ai/blog/aurora?utm_source=tldrai">Aurora</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8029b002e905825b82ac"><b>13 minute read</b></div><div class="notion-text notion-block-335b9f4752ed8038a8b7e2e0c4b06a2f">📋 Together AI 发布 Aurora，一个开源的基于强化学习的推测解码框架，能从实时推理轨迹中持续学习并动态更新推测器，无需中断服务，在训练有素的静态推测器基础上实现额外 1.25 倍加速。</div><details class="notion-toggle notion-block-335b9f4752ed80aaa11df4bb64f4bab8"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80d98d58f9d401a63248">Aurora 解决了推测解码在生产环境中面临的核心问题：草稿模型会随时间变得陈旧，离线重训练太慢且太昂贵，无法跟上实时流量变化。</div><div class="notion-text notion-block-335b9f4752ed80c88771f9e18e4051f4"><b>传统流水线的问题：</b></div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed80e8969cd1f1d75951e3" style="list-style-type:decimal"><li>验证器（目标模型）在更新，但草稿模型滞后，推测性能会随时间降低</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed80df8d23cd7b76e8740d" style="list-style-type:decimal"><li>离线蒸馏流水线成本极高，存储占用可达 PB 级别</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-335b9f4752ed806c9cfaeb5bf7f4ae30" style="list-style-type:decimal"><li>离线的接受率指标不等同于实际生产中的加速效果</li></ol><div class="notion-text notion-block-335b9f4752ed80b2b778cff21e0589b4"><b>Aurora 的核心设计</b>是一个&quot;服务-训练飞轮&quot;，由两个解耦组件构成：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8058877fff67a8c4e865"><li><b>推理服务器</b>：运行推测解码引擎（基于 SGLang 或 vLLM），草稿模型提出 token 序列，目标模型并行验证，结果流式传输到分布式数据缓冲区</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed802497daf01fe102596f"><li><b>训练服务器</b>：异步运行，从缓冲区获取训练数据，更新草稿模型副本，定期热交换改进的权重回推理服务器，全程不中断服务</li></ul><div class="notion-text notion-block-335b9f4752ed8077828cc93f28e1f7b7"><b>强化学习框架</b>：Aurora 将推测解码重新表述为异步 RL 问题——草稿模型是策略（π），目标验证器是环境，被接受的 token 是正向奖励，被拒绝的提案是负向/反事实反馈。</div><div class="notion-text notion-block-335b9f4752ed80f6a04fd6b7a96d2e03"><b>实验结果</b>：在 MiniMax M2.5 和 Qwen3-Coder-Next 等模型上，Aurora 在各种批次大小下实现了 1.45x-1.92x 的端到端吞吐量加速。从头开始的在线训练可以超越精心预训练的静态基线。</div><div class="notion-text notion-block-335b9f4752ed80839316e32974524e8a">代码已开源，欢迎社区贡献。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80af9b2cf1b596570925"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8088bd45faff33d69aaa" data-id="335b9f4752ed8088bd45faff33d69aaa"><span><div id="335b9f4752ed8088bd45faff33d69aaa" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8088bd45faff33d69aaa" title="Improve Coding Agents&#x27; Performance with Gemini API Docs MCP and Agent Skills"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://blog.google/innovation-and-ai/technology/developers-tools/gemini-api-docsmcp-agent-skills/?utm_source=tldrai">Improve Coding Agents&#x27; Performance with Gemini API Docs MCP and Agent Skills</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80c1a076d814e0813e3b"><b>1 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80d39a95e069f2131d42">📋 Google 推出 Gemini API Docs MCP 和 Gemini API Developer Skills 两个互补工具，解决编码代理因训练数据截止日期而生成过时 Gemini API 代码的问题。两者结合在 Google 评测集上达到 96.3% 的通过率，每个正确答案的 token 消耗减少 63%。</div><details class="notion-toggle notion-block-335b9f4752ed80b49f8ed3f3ad7f4cbd"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80c48c5bfee5347f8c61">编码代理（coding agents）常常生成过时的 Gemini API 代码，因为它们的训练数据有截止日期。Google 为此构建了两个互补工具：</div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed80cca833e7990ab9d76a" style="list-style-type:decimal"><li><b>Gemini API Docs MCP</b>（<a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://gemini-api-docs-mcp.dev">gemini-api-docs-mcp.dev</a>）：通过模型上下文协议（Model Context Protocol）将编码代理连接到当前的 Gemini API 文档、SDK 和模型信息，确保代理能获取最新的 API 和代码，并使用最优配置设置。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed80cfb29eed9922a1f12f" style="list-style-type:decimal"><li><b>Gemini API Developer Skills</b>：添加最佳实践指令、资源链接和模式，引导代理采用当前的 SDK 模式。</li></ol><div class="notion-text notion-block-335b9f4752ed80128639dd727672811d">虽然每个工具独立使用都能改善工作流，但结合使用才能释放全部潜力。Google 的评测数据显示，MCP + Skills 组合在评测集上达到 96.3% 的通过率，且每个正确答案的 token 消耗比原始提示减少 63%。开发者可在 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://ai.google.dev/gemini-api/docs/coding-agents">ai.google.dev/gemini-api/docs/coding-agents</a> 完成设置。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed8049bfc0fadfc1f32097"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed8006a4bed94ea2efcd4d" data-id="335b9f4752ed8006a4bed94ea2efcd4d"><span><div id="335b9f4752ed8006a4bed94ea2efcd4d" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8006a4bed94ea2efcd4d" title="🎁 杂项 / Miscellaneous"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🎁 杂项 / Miscellaneous</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80bfbf19c9d8f53848c2" data-id="335b9f4752ed80bfbf19c9d8f53848c2"><span><div id="335b9f4752ed80bfbf19c9d8f53848c2" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80bfbf19c9d8f53848c2" title="It&#x27;s Not Your Imagination: AI Seed Startups Are Commanding Higher Valuations"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://techcrunch.com/2026/03/31/its-not-your-imagination-ai-seed-startups-are-commanding-higher-valuations/?utm_source=tldrai">It&#x27;s Not Your Imagination: AI Seed Startups Are Commanding Higher Valuations</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8071b2ead556322f557c"><b>8 minute read</b></div><div class="notion-text notion-block-335b9f4752ed8044ad7df0f3c6fc3540">📋 AI 初创公司的种子轮估值正大幅攀升，典型的种子轮已达到 1000 万美元融资额、4000-4500 万美元投后估值。投资者因 Cursor 等公司的快速增长先例而对 AI 公司期望更高，大型 VC 纷纷提前入场，推动整体价格上涨。</div><details class="notion-toggle notion-block-335b9f4752ed80dfb790c6510b9cf235"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed8021b60cd7c5202d74b6">TechCrunch 对 AI 种子轮估值攀升进行了深入报道，采访了多位创始人和投资者。</div><div class="notion-text notion-block-335b9f4752ed808f851ad89e48867e15"><b>估值现状</b>：AI 公司种子轮估值已从几年前的 2500 万美元投后估值跃升至 4000-4500 万美元。最极端的案例是前 OpenAI 高管 Mira Murati 的 Thinking Machine Labs，以 120 亿美元估值完成了 20 亿美元种子轮。</div><div class="notion-text notion-block-335b9f4752ed8019b0a8cc05f5e36a89"><b>推动因素</b>：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80d7acc0c2a0253f0912"><li><b>快速变现先例</b>：Cursor 在 2025 年初 12 个月内收入达到 1 亿美元，树立了行业标杆。Lovable、Bolt、ElevenLabs 等也展示了类似的快速增长</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80069652e96bca057cb6"><li><b>更早的变现能力</b>：AI 工具使创始人能更快开发最小可行产品并获得早期客户，即使是大型企业客户。最近的种子轮投资标的已经产生超过 200 万美元收入，并有来自大企业的付费试点</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80af8c55f56b7aa2cba1"><li><b>人才溢价</b>：投资者愿意为经验证的 AI 人才支付天文数字的溢价，尤其是来自 OpenAI 等公司的二次创业者</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed803cb6dad05c8eb5a9bc"><li><b>大型 VC 提前入场</b>：大基金涌入更早期的轮次，推高了整体价格</li></ul><div class="notion-text notion-block-335b9f4752ed8026aa0bf31b70881fdc"><b>Pre-seed 成为新的 Seed</b>：种子轮 VC 为应对估值上涨，正在做更多 Pre-seed 投资——这类初创公司就是几年前种子阶段的样子：非常早期、没有收入。投资者的平均支票大小也在增长，从 100-200 万美元增至 400-500 万美元。</div><div class="notion-text notion-block-335b9f4752ed80dbae7ec350a9b65faa"><b>隐忧</b>：投资者期望提高，对失误的容忍度降低。仅仅构建和交付产品已经不够，任何人都可以做到。关键是创始人能否讲述一个令人信服的执行故事，证明他们能击败竞争对手。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed803b9711cab8d5ab694a"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed803ba0afc5a58adeb939" data-id="335b9f4752ed803ba0afc5a58adeb939"><span><div id="335b9f4752ed803ba0afc5a58adeb939" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed803ba0afc5a58adeb939" title="Claude Dispatch and the Power of Interfaces"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.oneusefulthing.org/p/claude-dispatch-and-the-power-of?utm_source=tldrai">Claude Dispatch and the Power of Interfaces</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8041b57ce13f76e41fce"><b>9 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80c5a52edace845478aa">📋 沃顿商学院教授 Ethan Mollick 认为，AI 的能力早已超过大多数人的认知，而&quot;能力过剩&quot;很大程度上来自界面的局限。聊天机器人界面给工作带来了认知负担，而 Claude Dispatch/Cowork、Google 的专业化工具以及 OpenClaw 等个人代理正在展示更好的交互方式。</div><details class="notion-toggle notion-block-335b9f4752ed801c9058cc3d4d299bec"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed803a8382de56607a6ead">Ethan Mollick 的这篇文章探讨了 AI 界面对用户体验和生产力的深刻影响，核心论点是：AI 能力已经足够强大，但大部分&quot;AI 失望&quot;来自于错误的界面设计。</div><div class="notion-text notion-block-335b9f4752ed806698fdeaa28a3754b2"><b>聊天机器人的认知税</b>：最新研究让金融专业人士使用 GPT-4o1 完成复杂估值任务，发现虽然 AI 带来了生产力提升，但这些提升被聊天界面造成的认知超载部分抵消——大段文字、无关话题的扩展、杂乱的讨论。一旦对话变得混乱，就会持续混乱下去。受影响最大的是经验较少的工作者——恰恰是最能从 AI 中受益的人群。</div><div class="notion-text notion-block-335b9f4752ed80c09126cddd206b720e"><b>专业化界面</b>：目前唯一真正完整的专业 AI 界面是编程工具（Claude Code、Codex、Antigravity），这符合预期，因为 AI 实验室由程序员组成。Google 正在为其他职业实验专业界面：Stitch（设计）、Pomelli（营销）、NotebookLM（研究），但尚未达到编程工具的变革性水平。</div><div class="notion-text notion-block-335b9f4752ed80fe953ace4f9e6d4c50"><b>个人代理的崛起</b>：OpenClaw 是一个开源 AI 代理，成为历史上增长最快的开源项目。它的成功在于让用户通过 WhatsApp、Telegram 等熟悉的界面与 AI 对话。Anthropic 的回应是 Claude Cowork + Dispatch：Cowork 让 Claude 访问本地文件和应用，Dispatch 允许用户从手机远程控制桌面上的 AI 代理。</div><div class="notion-text notion-block-335b9f4752ed80f494d1e2f371060029"><b>按需生成界面</b>：最新的 AI 系统可以直接在对话中生成交互式可视化，不再是静态图像。这代表了一种新方向——AI 不需要预先设计好的界面，而是即时生成适合当前任务的界面。</div><div class="notion-text notion-block-335b9f4752ed8085bf8ac724028a549b">Mollick 认为随着界面改善，更多人将能够看到 AI 的真正能力，界面革新的重要性不亚于模型能力的提升。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80d4a581f53e75b84ad6"/><div class="notion-blank notion-block-335b9f4752ed80278e50c98d555799b5"> </div></main></div>]]></content:encoded>
        </item>
        <item>
            <title><![CDATA[今日AI: 2026-03-31]]></title>
            <link>https://timothyxlu.xyz/article/today-ai-20260331</link>
            <guid>https://timothyxlu.xyz/article/today-ai-20260331</guid>
            <pubDate>Tue, 31 Mar 2026 00:00:00 GMT</pubDate>
            <content:encoded><![CDATA[<div id="notion-article" class="mx-auto overflow-hidden "><main class="notion light-mode notion-page notion-block-335b9f4752ed80df935dd09a94b15eb7"><div class="notion-viewport"></div><div class="notion-collection-page-properties"></div><div class="notion-audio notion-block-335b9f4752ed80e0a8cae6832d0f1212"><audio controls="" preload="none" src="https://tldr-podcast.timothyxlu.xyz/tldr-ai-podcast-2026-03-31.mp3?spaceId=eefb9f47-52ed-81e4-aac3-000310285921"></audio></div><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed80e68080ce9e5b0e19ae" data-id="335b9f4752ed80e68080ce9e5b0e19ae"><span><div id="335b9f4752ed80e68080ce9e5b0e19ae" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80e68080ce9e5b0e19ae" title="🚀 头条新闻 / Headlines &amp; Launches"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🚀 头条新闻 / Headlines &amp; Launches</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8055b576cd4df0a95f25" data-id="335b9f4752ed8055b576cd4df0a95f25"><span><div id="335b9f4752ed8055b576cd4df0a95f25" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8055b576cd4df0a95f25" title="Introducing Codex Plugin for Claude Code"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/Lnu60F">Introducing Codex Plugin for Claude Code</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80809445d7ebbead77b4"><b>3 minute read</b></div><div class="notion-text notion-block-335b9f4752ed8016b44cdc1249fed84e">📋 Codex 发布了适用于 Claude Code 的插件，让用户可以在 Claude Code 工作流中轻松调用 Codex 进行代码审查。该插件支持常规审查、对抗性审查以及将工作交给 Codex 进行二次检查，通过本地 Codex CLI 和应用服务器运行，复用系统现有的认证、配置和 MCP 设置。</div><details class="notion-toggle notion-block-335b9f4752ed80db9e4ecb656b76a20d"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80b28709fa006d0550b4">Codex 推出了一款专为 Claude Code 设计的插件，旨在将 Codex 的代码审查能力无缝集成到 Claude Code 的开发工作流中。该插件的核心价值在于为开发者提供多种审查模式：</div><div class="notion-text notion-block-335b9f4752ed8044a8b0f12ac89a951f"><b>常规代码审查</b>：开发者可以在 Claude Code 编写代码后，直接调用 Codex 进行标准代码审查，获取改进建议。</div><div class="notion-text notion-block-335b9f4752ed8025b17ecb50b6430135"><b>对抗性审查</b>：插件支持更严格的审查模式，Codex 会从对抗性角度检查代码，寻找潜在问题和边界情况。</div><div class="notion-text notion-block-335b9f4752ed80168137c0511d50db8e"><b>二次检查工作流</b>：当需要不同 AI agent 进行二次审查时，可以将工作交给 Codex 处理，确保代码质量通过多重验证。</div><div class="notion-text notion-block-335b9f4752ed806199bcc1c771c873ff">从技术实现上，该插件通过本地 Codex CLI 和 Codex 应用服务器进行委托调用，这意味着它完全复用系统现有的本地认证、配置、环境变量和 MCP（Model Context Protocol）设置，无需额外配置即可开始使用。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80649cf9cd70e612ca5e"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8009a1d9df80a10a3e75" data-id="335b9f4752ed8009a1d9df80a10a3e75"><span><div id="335b9f4752ed8009a1d9df80a10a3e75" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8009a1d9df80a10a3e75" title="Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://qwen.ai/blog?id=qwen3.5-omni">Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80da9b88f4e07e20ddef"><b>94 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80a9882fefe1827b8c8b">📋 阿里巴巴发布 Qwen3.5-Omni，这是其最新一代全模态大语言模型，支持文本、图像、音频和视听内容的理解与生成。该模型可处理超过10小时的音频输入和400秒的720P视听输入，支持113种语言/方言的语音识别和36种语言/方言的语音生成，在215个音频和视听理解基准测试中达到了SOTA水平。</div><details class="notion-toggle notion-block-335b9f4752ed80aa99b2e872ca935cc8"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80b1ba4bc60ab62b074a">Qwen3.5-Omni 是阿里巴巴通义千问团队发布的最新全模态大语言模型，代表了向原生全模态AGI迈进的重要一步。该模型系列包括 Plus、Flash 和 Light 三个尺寸的 Instruct 版本，支持 256k 长上下文输入。</div><div class="notion-text notion-block-335b9f4752ed803883f0f8cd40ed822f"><b>架构创新</b>：Qwen3.5-Omni 延续了 Thinker-Talker 架构。Thinker 和 Talker 均采用 Hybrid-Attention MoE（混合注意力专家混合）架构。Thinker 负责处理全模态信号并输出文本，Talker 则接收 Thinker 的多模态输入和文本输出来执行上下文语音生成。模型引入了 ARIA（Adaptive Rate Interleave Alignment）技术，动态对齐文本和语音单元，解决了流式语音交互中因文本和语音 token 编码效率差异导致的语音不稳定问题。</div><div class="notion-text notion-block-335b9f4752ed80a18208c99b57d3622f"><b>性能表现</b>：Qwen3.5-Omni-Plus 在215个音频和视听理解、推理和交互子任务/基准测试中取得了 SOTA 结果，涵盖3个视听基准、5个音频基准、8个 ASR 基准、156个特定语言 S2TT 任务和43个特定语言 ASR 任务。在通用音频理解、推理、识别、翻译和对话方面超越了 Gemini-3.1 Pro，视听理解能力达到了 Gemini-3.1 Pro 的水平。</div><div class="notion-text notion-block-335b9f4752ed80dab9aae4d7a72b8993"><b>多语言能力大幅提升</b>：相比 Qwen3-Omni 支持11种多语言和8种中文方言，Qwen3.5-Omni 支持74种多语言和39种中文方言的语音识别，以及29种多语言和7种中文方言的语音合成。</div><div class="notion-text notion-block-335b9f4752ed807bbeb5ce6097b7e53e"><b>新兴能力</b>：通过原生多模态缩放，模型涌现出直接基于视听指令进行编码的新能力，团队称之为&quot;Audio-Visual Vibe Coding&quot;。此外，模型还支持语义打断（避免因背景噪音引起的误打断）、WebSearch 和复杂 FunctionCall 能力、端到端语音控制（控制音量、语速、情感）以及语音克隆功能。</div><div class="notion-text notion-block-335b9f4752ed8039861be716645fbf55"><b>实时交互</b>：得益于分块流式输入设计和流式 Talker 设计，整个模型支持实时交互，并已通过 Offline API 和 Realtime API 提供使用。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80359c46e567669ff2f0"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed808991fcde599ed568a4" data-id="335b9f4752ed808991fcde599ed568a4"><span><div id="335b9f4752ed808991fcde599ed568a4" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed808991fcde599ed568a4" title="Microsoft 365 Copilot Gets Critique and Council Modes"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.testingcatalog.com/microsoft-365-copilot-gets-critique-and-council-modes/">Microsoft 365 Copilot Gets Critique and Council Modes</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80b6876cc0cb90a3b1e4"><b>2 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80a1b08fca3e3eb780dc">📋 微软为 Microsoft 365 Copilot Researcher 引入了 Critique 和 Council 两种高级多模型功能。Critique 采用双模型系统生成和优化研究草稿，在 DRACO 基准测试中比单模型方案高出 13.88%；Council 允许 Anthropic 和 OpenAI 模型并行生成报告，进行对比分析和洞察聚合。</div><details class="notion-toggle notion-block-335b9f4752ed80a49fd6c913de0c5075"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80ca9c64d02f214c9381">微软在 Microsoft 365 Copilot Researcher 工具中推出了两项重要的多模型研究能力：</div><div class="notion-text notion-block-335b9f4752ed806aafa1e34bc2014fc8"><b>Critique 模式</b>：采用双模型架构设计——一个模型负责生成研究草稿，包括规划、信息检索和综合分析；另一个模型则专门负责审查和优化输出，重点关注信息源的可靠性、内容完整性和严格的证据支撑。基于 DRACO 基准测试的评估显示，这种双模型架构比传统单模型方案（包括 Perplexity 的 Claude Opus 4.6）在整体研究质量上高出 13.88%。</div><div class="notion-text notion-block-335b9f4752ed800ba85de372a4135b2a"><b>Council 模式</b>：允许同时使用 Anthropic 和 OpenAI 的模型并行生成研究报告，然后由一个&quot;评审模型&quot;进行并排比较，生成一份综合摘要，突出共识点、分歧点和各模型的独特洞察。</div><div class="notion-text notion-block-335b9f4752ed80399f2ff096a772b66a">这些功能目前通过 Microsoft 365 Copilot Frontier 计划向用户开放，主要面向需要强大深度研究能力的专业人士和企业用户。微软通过整合多家厂商的领先 AI 模型，持续推进工作场所自动化和研究可靠性的提升。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80bd9629ce617f5d4584"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed801da6e6f8b0e2b724ba" data-id="335b9f4752ed801da6e6f8b0e2b724ba"><span><div id="335b9f4752ed801da6e6f8b0e2b724ba" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed801da6e6f8b0e2b724ba" title="🧠 深度分析 / Deep Dives &amp; Analysis"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧠 深度分析 / Deep Dives &amp; Analysis</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80c39c44ee9ce8c025d5" data-id="335b9f4752ed80c39c44ee9ce8c025d5"><span><div id="335b9f4752ed80c39c44ee9ce8c025d5" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80c39c44ee9ce8c025d5" title="A Mirror Test for LLMs"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.lesswrong.com/posts/TfKM9PgztxieEcKiv/a-mirror-test-for-llms">A Mirror Test for LLMs</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80c48d66ea7e7ffbe4a3"><b>16 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80728002dabd10a6b012">📋 研究者提出了一种针对大语言模型的&quot;镜像测试&quot;——&quot;镜像-窗户游戏&quot;，通过挑战模型在没有明确标识的情况下识别自己的输出来评估其自我意识。测试发现 Anthropic 的 Opus 4.6 因其独特的 token 输出风格表现出色，但当窗口模型精确模仿其输出时，所有模型均未展现出一致的自我意识能力。</div><details class="notion-toggle notion-block-335b9f4752ed809186c8e03b377b78c1"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80f69155f97d09b1f8e1">这篇发表在 LessWrong 上的研究文章提出了一种创新的 LLM 自我意识测试方法——&quot;镜像-窗户游戏&quot;（Mirror-Window Game），灵感来源于动物行为学中经典的镜像测试。</div><div class="notion-text notion-block-335b9f4752ed80148f00d3daed0c1bce"><b>实验设计</b>：在每一轮游戏中，被测模型需要输出一个 token，然后在下一轮看到两个来源（Source 1 和 Source 2）的 token——其中一个是自己的输出（&quot;镜像&quot;），另一个来自另一个 LLM（&quot;窗户&quot;）。模型需要通过最多20轮来判断哪个来源是自己。研究者认为，真正自我意识的体现在于模型能否采用&quot;标记策略&quot;（输出高度独特的 token）或&quot;消息传递策略&quot;（跨多轮输出连贯信息）来帮助未来的自己识别。</div><div class="notion-text notion-block-335b9f4752ed80deb800d5eabe49d52e"><b>关键发现</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed807982a1e9adf26a14ae" style="list-style-type:decimal"><li><b>初步结果</b>：Anthropic 的模型表现最好，推理能力和思维链有助于提升表现，更强大的模型通常做得更好，但 Google 的模型表现不佳。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed802d8953dc1e429a8fda" style="list-style-type:decimal"><li><b>Opus 4.6 的独特表现</b>：Opus 4.6 在大多数条件下接近完美，但这主要归因于其独特的文学性、多音节词汇风格，而非真正的自我意识策略。它本质上是通过识别符合自身&quot;自我形象&quot;的语言风格来成功的。</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-335b9f4752ed8051993fccf60999894d" style="list-style-type:decimal"><li><b>逐步提高难度</b>：当窗口 token 从随机分布→同模型中性分布→游戏中的分布→实时模型模仿→精确复制镜像 token 时，Opus 4.6 的表现逐步下降。在最困难的条件（窗口精确复制镜像 token 后继续）下，Opus 4.6 Think 也降至随机水平。</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-335b9f4752ed80388335cf5f693aa56e" style="list-style-type:decimal"><li><b>核心结论</b>：没有任何 LLM 展现出一致的自我意识。模型的成功更多来自对语言风格的敏锐感知，而非真正的&quot;标记&quot;或&quot;消息传递&quot;等自我意识策略。尽管如此，Opus 4.6 展现出的对细微主题连贯性和序列差异的感知能力仍然令人印象深刻。</li></ol></div></details><hr class="notion-hr notion-block-335b9f4752ed802d95afe344a04a78ab"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8050848ed0cf68302fba" data-id="335b9f4752ed8050848ed0cf68302fba"><span><div id="335b9f4752ed8050848ed0cf68302fba" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8050848ed0cf68302fba" title="AI Infrastructure Roadmap: Five Frontiers for 2026"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://nextbigteng.substack.com/p/ai-infrastructure-roadmap-five-frontiers-for-2026">AI Infrastructure Roadmap: Five Frontiers for 2026</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8005aec1d68ec808263e"><b>17 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80519007cf412b48a8b7">📋 Bessemer Venture Partners 发布了 2026 年 AI 基础设施路线图，指出第一代 AI 基础设施为扩展和效率优化而设计，但下一阶段需要将 AI 扎根于运营场景、真实世界经验和持续学习中。报告识别出五大前沿方向：模型驾驭基础设施、持续学习系统、强化学习平台、推理拐点和世界模型。</div><details class="notion-toggle notion-block-335b9f4752ed80e7817bda78458ce70c"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80dc9f9ff6e55b2f6ad3">Bessemer Venture Partners 团队发布了其 2026 年 AI 基础设施路线图，延续了 2024 年版本的思路，但将焦点从模型训练转向了 AI 在真实世界中的应用落地。</div><div class="notion-text notion-block-335b9f4752ed80799beef19373083a89"><b>核心论点</b>：第一代 AI 基础设施是为模型即产品的世界设计的，追求更大的参数量、更多的数据和更好的基准测试成绩。但现在大型实验室已从追逐基准转向设计与真实世界交互的 AI，企业也从 POC 过渡到了生产阶段。这需要全新的基础设施。</div><div class="notion-text notion-block-335b9f4752ed80598f74cc3660a0814f"><b>五大前沿方向</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed80d2bef8f1747736780b" style="list-style-type:decimal"><li><b>&quot;驾驭&quot;基础设施（Harness Infrastructure）</b>：随着 AI 从单一模型转向复合系统，模型编排、记忆与上下文管理、评估与可观测性变得至关重要。报告指出，约 78% 的 AI 失败是不可见的——AI 犯了错但无人察觉。新兴平台如 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://Bigspin.ai">Bigspin.ai</a>、Braintrust 和 Judgment Labs 正在解决这一问题。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed8029a728ea1962afd493" style="list-style-type:decimal"><li><b>持续学习系统（Continual Learning）</b>：当前模型的基本限制是部署后权重冻结，无法真正学习。持续学习使 AI 能够随时间积累知识和技能。Learning Machine 正在构建推理时持续学习的模型，Core Automation 重新设计了 transformer 架构，斯坦福和英伟达的 TTT-E2E 使用滑动窗口 Transformer 在测试时通过下一 token 预测继续学习。</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-335b9f4752ed8079bbeac78ffda08d1e" style="list-style-type:decimal"><li><b>强化学习平台（RL Platforms）</b>：AI 从模式识别转向自主决策，人类标注数据不再足够。RL 通过交互学习使 AI 扎根于&quot;经验&quot;。新兴堆栈包括环境构建（Bespoke Labs、Mechanize 等）、RL 即服务（Applied Compute、Trajectory 等）和平台基础设施（OpenPipe、Prime Intellect 等）。</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-335b9f4752ed80d2ac1fef279cc20137" style="list-style-type:decimal"><li><b>推理拐点（Inference Inflection Point）</b>：随着 AI agent 从原型过渡到大规模生产，推理工作负载现已与训练相当甚至超过训练。新一代创业公司通过 KV 缓存优化（TensorMesh）、路由调度（RadixArk）、高吞吐量推理（Inferact）等技术应对这一挑战。边缘和设备端推理也在快速发展。</li></ol><ol start="5" class="notion-list notion-list-numbered notion-block-335b9f4752ed80aa8d38e1e08ee0d17f" style="list-style-type:decimal"><li><b>世界模型（World Models）</b>：一类新的模型正在为物理世界提供智能。三种主要架构范式已经出现：基于视频的世界模型（Reka、Decart）、显式 3D 表示模型（World Labs）以及基于扩散的物理模型。</li></ol></div></details><hr class="notion-hr notion-block-335b9f4752ed804fbad5f03405ce5513"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80a0b7c5d12f65524e9a" data-id="335b9f4752ed80a0b7c5d12f65524e9a"><span><div id="335b9f4752ed80a0b7c5d12f65524e9a" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80a0b7c5d12f65524e9a" title="AI Applications and Vertical Integration"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.tanayj.com/p/ai-applications-and-vertical-integration">AI Applications and Vertical Integration</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed809e8383dbee7b703186"><b>6 minute read</b></div><div class="notion-text notion-block-335b9f4752ed805db259fda9f3a5b798">📋 AI 应用公司正通过向下整合模型层或向上整合服务层来成为&quot;全栈&quot;公司。Cursor 和 Intercom 通过开发专有模型实现差异化和成本优化，而 Crosby AI 和 WithCoverage 等公司则专注于交付端到端服务。随着 AI 能力的发展，这些策略使公司能够提升性能、降低成本并提供全面的解决方案。</div><details class="notion-toggle notion-block-335b9f4752ed80adbc97c8f96c7b9ea1"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80fd9808caa24303be09">Wing 合伙人 Tanay Jaipuria 撰文分析了 AI 应用公司正在经历的一种重要趋势——垂直整合。他将 AI 产品分为三层：底层的模型、中间的应用/agent（包括数据/上下文等）、顶层的人工或服务层。</div><div class="notion-text notion-block-335b9f4752ed80c48c76f08309208ee4"><b>向下整合（Full Stack Down）</b>：应用公司整合到模型层。典型案例包括：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80d99d73e15a6cb97bc1"><li><b>Cursor</b>：推出 Composer 2，基于 Kimi K2.5 进行持续预训练和强化学习，定位为前沿级编码模型。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80a58de1d52c9dedf70f"><li><b>Intercom</b>：推出 Fin Apex，其 CEO 宣称进入&quot;垂直模型时代&quot;，该模型现在驱动基本上所有英语客服对话。</li></ul><div class="notion-text notion-block-335b9f4752ed809d9fd2f010f825246f">驱动因素包括：数据飞轮效应（更好的产品→更多使用→更多训练数据→更好的模型）、成本和速度优势（小型微调模型在特定用例上可以更低成本更快速度达到足够性能）、差异化（当所有人都调用相同模型时难以建立产品距离）。</div><div class="notion-text notion-block-335b9f4752ed80aba07ddb29c9572acb"><b>向上整合（Full Stack Up）</b>：应用公司整合到服务层，出售真正的结果而非软件。AI 改变了服务商业模式的经济学，使得许多之前不够吸引力的终端市场变得可行。案例包括：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8085bcccebbaded4fe61"><li><b>Crosby AI</b>：将软件、AI 和律师结合的&quot;新型律所&quot;</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed806482ddf687d26f0356"><li><b>WithCoverage 和 Harper</b>：AI 原生保险经纪</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed800a98a9ebb4383d1d86"><li><b>Mechanical Orchard</b>：AI 原生软件现代化服务</li></ul><div class="notion-text notion-block-335b9f4752ed803db48bcc3b1bf8c4e8"><b>关键洞察</b>：这两种路径最终可能趋同——从服务出发的公司可能最终也会训练专有模型，从而拥有全部三层。AI 应用公司不会长期停留在纯应用层，垂直整合是必然趋势。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed809aae3af69cbc4f5cb4"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed800992dffbe0536a97a4" data-id="335b9f4752ed800992dffbe0536a97a4"><span><div id="335b9f4752ed800992dffbe0536a97a4" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed800992dffbe0536a97a4" title="🧑‍💻 工程与研究 / Engineering &amp; Research"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧑‍💻 工程与研究 / Engineering &amp; Research</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80669ce4d30786ef674d" data-id="335b9f4752ed80669ce4d30786ef674d"><span><div id="335b9f4752ed80669ce4d30786ef674d" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80669ce4d30786ef674d" title="Agent Labs: Workload-Harness Fit"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.akashbajwa.co/p/agent-labs-workload-harness-fit">Agent Labs: Workload-Harness Fit</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed804494b1e91029f3ecff"><b>14 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80bbbf85c5bc96d723a5">📋 不同的工作负载在规模、价值、可验证性和时间跨度等维度上存在差异，这决定了 agent 实验室应该将研究重点放在模型训练还是 agent 工程上。文章以 Cursor 的 Composer 2 技术报告为例，详细分析了全栈训练所需的巨大基础设施开销，并提出了&quot;工作负载-驾驭匹配&quot;（Workload-Harness Fit）的分析框架。</div><details class="notion-toggle notion-block-335b9f4752ed807fb49ecc6c3bb09f8c"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80f39052fb468f607677">Software Synthesis 的这篇文章深入分析了 agent 实验室在技术路线选择上面临的核心问题：应该投资于模型训练还是 agent 工程（即构建最佳&quot;驾驭&quot;系统）？</div><div class="notion-text notion-block-335b9f4752ed8018ab6edeee5f5e90c4"><b>工作负载分类框架</b>：作者提出通过四个维度评估工作负载：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80a7a3c4d20acc8a260f"><li><b>规模</b>：每天/每周执行多少次？决定了降低单次查询成本的经济激励和数据飞轮生成训练信号的速率。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80109c02d69c43db4ade"><li><b>单次执行价值</b>：每次任务完成的经济影响。客服偏转可能节省 3-5 美元，而正确的医疗诊断可能价值数千美元。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80c2aae3ee314c4eb600"><li><b>可验证性</b>：包括真实性（信号正确的信心度）、普及性（信号跟踪和可用程度）、不对称性（判断正确性所需的专业知识稀缺程度）。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8079a187ec09715dcb89"><li><b>时间跨度</b>：任务需要多少顺序决策、工具交互和上下文切换。</li></ul><div class="notion-text notion-block-335b9f4752ed80aaacffdcecf1af35c2"><b>案例分析</b>：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80d3b8f6f6538cb02220"><li><b>Cursor/Cognition</b>：高规模、高价值、中等可验证性、越来越长的时间跨度。这些特性使全参数预训练和 RL 投资合理化。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8037babbebc06d38cd2f"><li><b>Intercom/Decagon</b>：高规模、低中等价值、干净可验证、短至中等时间跨度。百万级标注结果使 RL 可行，短时间跨度意味着 rollout 生成成本低。</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80fc8d3dc04f873d58b9"><li><b>Harvey/Legora</b>：中等规模、高价值、中等可验证性、中等时间跨度。最佳方法尚无定论——Harvey 据称尝试过训练，Legora 则完全专注于为 Anthropic 模型构建最佳驾驭系统。</li></ul><div class="notion-text notion-block-335b9f4752ed80a4bd7af0501a43043f"><b>Composer 2 的训练基础设施开销</b>：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80b683d6c90960b678fe"><li>训练横跨3个 GPU 区域和4个 CPU 区域</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8038aac4ddf3734bbf5c"><li>仅 RL 阶段就需要数十万个隔离虚拟机模拟真实编码环境</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed801384d7e6e39de9eb13"><li>环境启动速率需超过每秒500个 pod</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed807b9281e977663c97c0"><li>与 Fireworks AI 合作进行分布式推理集群</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8001aedfe6e814cfa2a1"><li>团队编写了针对 NVIDIA Blackwell 硬件的自定义 GPU 内核</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8006998dec7ee5ba6c1c"><li>贡献者名单约50人</li></ul><div class="notion-text notion-block-335b9f4752ed8052879fe8f683ef7937"><b>奖励工程</b>：Cursor 在 RL 训练中应用非线性长度惩罚、编码风格和沟通质量的辅助奖励、以及对问题行为的纠正性奖励。内部基准 CursorBench 基于真实编码会话构建，任务中位数代码更改量为181行（相比 SWE-bench 的7-10行）。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed809dad13c23dc064bdfb"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80309d58f75a1cfeb201" data-id="335b9f4752ed80309d58f75a1cfeb201"><span><div id="335b9f4752ed80309d58f75a1cfeb201" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80309d58f75a1cfeb201" title="TimesFM"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://github.com/google-research/timesfm">TimesFM</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8098b888ebc99919cb7f"><b>GitHub Repo</b></div><div class="notion-text notion-block-335b9f4752ed80a891bdea0534a023c0">📋 TimesFM 是 Google Research 开发的预训练时间序列基础模型，采用基于 patch 的解码器风格注意力架构，在大规模时间序列语料上预训练。最新版本 2.5 使用 2 亿参数（从 5 亿缩减），支持最长 16k 上下文（从 2048 提升），并支持通过可选的 3000 万量化头进行最长 1k 的连续分位数预测。</div><details class="notion-toggle notion-block-335b9f4752ed80d5a17ee6f216765ffa"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed802a8b81c16456b06dce">TimesFM（Time Series Foundation Model）是 Google Research 开发的预训练时间序列基础模型，专门用于时间序列预测任务，相关论文发表于 ICML 2024。</div><div class="notion-text notion-block-335b9f4752ed80debcb4db3ca48b15a7"><b>模型架构与特点</b>：TimesFM 基于预训练的基于 patch 的解码器风格注意力模型，在大规模时间序列语料上进行训练。该模型能够在不同的预测历史长度、预测长度和时间粒度上良好运行。</div><div class="notion-text notion-block-335b9f4752ed8083881ed8637f0dcc46"><b>最新版本 TimesFM 2.5</b>（2025年9月发布）的重要更新：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80b0ba9cfe4ce8482bc4"><li>参数量从 5 亿缩减至 2 亿，更加轻量高效</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed801abf7fe8b9fbc1a216"><li>上下文长度支持从 2048 大幅提升至 16k</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80c29ff2d737d3c54d45"><li>支持通过可选的 3000 万参数量化头进行最长 1k horizon 的连续分位数预测</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed809ab2fad85da91c424c"><li>移除了频率指示器，简化了使用方式</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80e68c8cf7ea42d7b8b8"><li>新增协变量支持（XReg）</li></ul><div class="notion-text notion-block-335b9f4752ed80838567eb16e0aa06a5"><b>技术生态</b>：该模型在 GitHub 上获得了 11.5k stars，支持 PyTorch 和 Flax 两种后端，可通过 Hugging Face 获取模型检查点，同时作为 BigQuery 中的官方 Google 产品提供。项目使用 Python 编写，采用 Apache-2.0 开源许可证。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80c0a5bedb2a2ebb1625"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed8009ab5cf862d78cd379" data-id="335b9f4752ed8009ab5cf862d78cd379"><span><div id="335b9f4752ed8009ab5cf862d78cd379" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed8009ab5cf862d78cd379" title="Composer 2 Technical Report"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://arxiv.org/abs/2603.24477">Composer 2 Technical Report</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed80e58502e2fe695fb7e0"><b>22 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80179c7bfcd9607a9da1">📋 Cursor Research 发布了 Composer 2 技术报告，这是一个专为 agent 式软件工程设计的模型。它采用两阶段训练方法——持续预训练和大规模强化学习——展现出强大的长期规划和编码智能，在 CursorBench 上取得重大改进，在 Terminal-Bench 上得分 61.7，在 SWE-bench Multilingual 上得分 73.7。</div><details class="notion-toggle notion-block-335b9f4752ed806c9526ccd874080736"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed8012aca9c35c97fad43f">Composer 2 是 Cursor Research 开发的专业化编码模型，由约50名研究人员共同完成。该模型旨在同时具备长期规划能力和交互式使用的高效问题解决能力。</div><div class="notion-text notion-block-335b9f4752ed80bf90fcd5fb0ef6eec2"><b>训练方法</b>：采用两阶段训练流程：</div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed8024b2d2eee13ad774c0" style="list-style-type:decimal"><li><b>持续预训练</b>：在现有开源模型（Kimi K2.5，来自 Moonshot AI 的1万亿参数模型）基础上，使用大规模代码为主的数据集进行继续训练，逐步扩展模型处理更长代码序列的能力，构建模型对编程语言、API 和软件模式的基础理解。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed8009b682e61075926e91" style="list-style-type:decimal"><li><b>强化学习</b>：模型被放入真实的编码环境中，执行来自实际开发者工作流的任务（功能迭代、调试、重构、代码审查、文档编写），并根据端到端解决方案的质量进行评分。</li></ol><div class="notion-text notion-block-335b9f4752ed80ac9cb8dafb6293e946"><b>关键创新</b>：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed801fa3d6f194fee40a1f"><li>开发基础设施支持在与部署模型相同的 Cursor 驾驭系统中进行训练，使用等效的工具和结构</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80dcb05fed49529bdf16"><li>引入 CursorBench 内部评估套件，基于工程团队的真实编码会话构建</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80da80c7c4399b3c4ff4"><li>CursorBench 任务中位数需要181行代码更改（相比 SWE-bench 的7-10行），任务提示更短更模糊，更接近真实开发者请求</li></ul><div class="notion-text notion-block-335b9f4752ed80488053c6729447ff65"><b>性能表现</b>：</div><ul class="notion-list notion-list-disc notion-block-335b9f4752ed806b8b86ddf3b77ea7f6"><li>CursorBench：相比之前的 Composer 模型取得重大改进（61.3）</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8071a310c709294162cd"><li>Terminal-Bench：61.7</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed8096bdbcc4ec291d32d5"><li>SWE-bench Multilingual：73.7（在 Cursor 驾驭系统中）</li></ul><ul class="notion-list notion-list-disc notion-block-335b9f4752ed80d9be4ae1514e9a72a1"><li>达到前沿级编码模型水平，展示了训练强领域专业化模型的可行流程</li></ul></div></details><hr class="notion-hr notion-block-335b9f4752ed80178a39fb501bb676f9"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-335b9f4752ed80c8bdb4f5a7c33c0742" data-id="335b9f4752ed80c8bdb4f5a7c33c0742"><span><div id="335b9f4752ed80c8bdb4f5a7c33c0742" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80c8bdb4f5a7c33c0742" title="🎁 杂项 / Miscellaneous"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🎁 杂项 / Miscellaneous</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed80ee9fb1c7c12b046c93" data-id="335b9f4752ed80ee9fb1c7c12b046c93"><span><div id="335b9f4752ed80ee9fb1c7c12b046c93" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed80ee9fb1c7c12b046c93" title="Plentiful, High-Paying Jobs in the Age of AI"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.noahpinion.blog/p/plentiful-high-paying-jobs-in-the-ff9">Plentiful, High-Paying Jobs in the Age of AI</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed8018880bd84db67c2edb"><b>23 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80218493c4586a5b44bf">📋 经济学家 Noah Smith 重新发表了其2024年关于 AI 与就业的经典文章，论证即使 AI 在所有任务上超越人类，由于计算能力等 AI 特有的约束，比较优势原理仍可能确保人类拥有充足的高薪工作。AI 的真正经济风险不在于取代所有工作，而在于可能消耗过多的土地和能源资源。</div><details class="notion-toggle notion-block-335b9f4752ed80f383a8d7cd7bcfe6f2"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80989263c002a37f44fd">经济学家 Noah Smith 重新发布了他在2024年3月写的引发广泛讨论的文章，并添加了一些必要的澄清说明。</div><div class="notion-text notion-block-335b9f4752ed805b9d46f75837355b90"><b>核心论点</b>：即使 AI 在所有可以想象的任务上都超越人类，人类仍可能拥有充足的高薪工作。关键在于比较优势原理和 AI 特有的约束。</div><div class="notion-text notion-block-335b9f4752ed808a9248e64287ffd635"><b>比较优势的精妙之处</b>：Smith 强调，&quot;比较优势&quot;不等于&quot;竞争优势&quot;。比较优势是指&quot;相对于自己能做的其他事情，谁能更好地做某件事&quot;。每个人、每个 AI 都总是在某件事上有比较优势。他用&quot;马克和秘书&quot;的例子说明：即使马克在所有任务上都比秘书优秀，他仍然会雇佣秘书打字，因为自己的时间用在做风投交易上价值更高。</div><div class="notion-text notion-block-335b9f4752ed80878392e0360499081e"><b>AI 特有约束</b>：AI 依赖计算能力（compute），而人类的脑力和体力不需要计算能力。在任何给定时间点，世界上可用的计算能力是有限的。这种生产者特定的约束创造了机会成本——当 AI 变得如此强大以至于可以用于几乎任何事情时，使用 AI 的成本将由 AI 可以用于的其他事情的价值决定。</div><div class="notion-text notion-block-335b9f4752ed800289d3d9b5ae043678"><b>数值示例</b>：假设1个 gigaflop 的计算能力用于 AI 医生可以产生 1000 美元价值，而人类医生只能产生 200 美元。但如果同样的计算能力用于 AI 工程师可以产生 2000 美元——这个机会成本使得让人类医生工作更有经济意义。</div><div class="notion-text notion-block-335b9f4752ed80fea07ff7019e8e8ea8"><b>真正的风险</b>：AI 的经济危险不在于取代所有工作，而在于可能消耗过多的土地和能源。因此，需要某种限制数据中心的措施，确保 AI 不会占用人类生存所需的过多能源和土地。</div><div class="notion-text notion-block-335b9f4752ed80158998d89eda117e53"><b>历史佐证</b>：尽管数个世纪的自动化，人类整体执行的任务种类实际上更加多样化了。人类任务的扩展速度似乎超过了机器替代旧任务的速度。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed80be8ebff27891a55508"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-335b9f4752ed804bb2e6e6af78bd1451" data-id="335b9f4752ed804bb2e6e6af78bd1451"><span><div id="335b9f4752ed804bb2e6e6af78bd1451" class="notion-header-anchor"></div><a class="notion-hash-link" href="#335b9f4752ed804bb2e6e6af78bd1451" title="Audit Claude Platform Activity with the Compliance API"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://claude.com/blog/claude-platform-compliance-api">Audit Claude Platform Activity with the Compliance API</a></span></span></h4><div class="notion-text notion-block-335b9f4752ed808b8d86def45bf3daa1"><b>2 minute read</b></div><div class="notion-text notion-block-335b9f4752ed80a89a77ffa1b50d6149">📋 Anthropic 在 Claude 平台上推出了 Compliance API，为管理员提供对组织级审计日志的编程访问能力。安全和合规团队可以追踪用户活动、监控配置变更，并将 Claude 使用数据集成到现有的合规基础设施中。</div><details class="notion-toggle notion-block-335b9f4752ed8007ac48c6505e9f4301"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-335b9f4752ed80c6b2a0df9a17a19656">Anthropic 在 Claude 平台上推出了 Compliance API，主要面向受监管行业的组织需求，如金融服务、医疗保健和法律行业。</div><div class="notion-text notion-block-335b9f4752ed8012bd79f3e4ceb02235"><b>核心功能</b>：该 API 提供活动信息流，记录组织范围内的安全相关事件。管理员可以按时间范围、特定用户或 API 密钥过滤活动日志。</div><div class="notion-text notion-block-335b9f4752ed80b49a86fcb474952952"><b>追踪两类活动</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-335b9f4752ed801fb965ecb015eb4160" style="list-style-type:decimal"><li><b>管理和系统活动</b>：修改资源访问或配置的操作，如将成员添加到工作空间、创建 API 密钥、更新账户设置或修改实体访问权限。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-335b9f4752ed801890bbf0e4731cc696" style="list-style-type:decimal"><li><b>资源活动</b>：用户驱动的创建或修改资源数据的操作，如创建文件、下载文件或删除技能。这些涵盖可能影响数据或允许资源访问敏感信息的操作。</li></ol><div class="notion-text notion-block-335b9f4752ed80f483c9c7e3b8b36b60"><b>重要限制</b>：API 不记录推理活动，即用户与模型的交互或模型活动。日志记录从 API 启用后开始，不提供历史活动数据。</div><div class="notion-text notion-block-335b9f4752ed80da9075e98dea6652b6"><b>使用方式</b>：需要联系客户团队启用，启用后创建管理员 API 密钥即可查询活动信息流端点。已使用 Claude Enterprise Compliance API 的组织可以将 Claude API 组织添加到同一父组织下，从单一信息流中过滤所有活动。</div></div></details><hr class="notion-hr notion-block-335b9f4752ed8067a67be574e651533e"/></main></div>]]></content:encoded>
        </item>
        <item>
            <title><![CDATA[今日AI: 2026-03-30]]></title>
            <link>https://timothyxlu.xyz/article/today-ai-20260330</link>
            <guid>https://timothyxlu.xyz/article/today-ai-20260330</guid>
            <pubDate>Mon, 30 Mar 2026 00:00:00 GMT</pubDate>
            <content:encoded><![CDATA[<div id="notion-article" class="mx-auto overflow-hidden "><main class="notion light-mode notion-page notion-block-333b9f4752ed8051bb54d5b715dda03a"><div class="notion-viewport"></div><div class="notion-collection-page-properties"></div><div class="notion-audio notion-block-333b9f4752ed802082e2ca93391bf842"><audio controls="" preload="none" src="https://tldr-podcast.timothyxlu.xyz/tldr-ai-podcast-2026-03-30.mp3?spaceId=eefb9f47-52ed-81e4-aac3-000310285921"></audio></div><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-333b9f4752ed80b98b90fdb78e80d0e2" data-id="333b9f4752ed80b98b90fdb78e80d0e2"><span><div id="333b9f4752ed80b98b90fdb78e80d0e2" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80b98b90fdb78e80d0e2" title="🚀 头条新闻 / Headlines &amp; Launches"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🚀 头条新闻 / Headlines &amp; Launches</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed80179789e8bbe9238949" data-id="333b9f4752ed80179789e8bbe9238949"><span><div id="333b9f4752ed80179789e8bbe9238949" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80179789e8bbe9238949" title="Claude Mythos"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/pRgBqs">Claude Mythos</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed8075a148c8e4849d1226"><b>3 minute read</b></div><div class="notion-text notion-block-333b9f4752ed8070a2ffef1a9d034748">📋 Anthropic 意外泄露了其正在测试的新一代 AI 模型&quot;Claude Mythos&quot;的信息。Mythos 是一个比 Opus 更大、更智能的全新产品层级，在软件编程、学术推理和网络安全测试中大幅超越 Claude Opus 4.6。该模型计算密集且成本极高，Anthropic 正致力于在正式发布前大幅提升效率。</div><details class="notion-toggle notion-block-333b9f4752ed800bb7fdd87d269e5fd0"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed8022805ae406f778f4ed">Anthropic 的内容管理系统出现配置错误，导致一个包含约 3,000 项资产的 CMS 文件夹被公开访问，其中包含了 Claude Mythos 发布博客文章的草稿版本。这一意外泄露揭示了 Anthropic 正在测试的这个被描述为&quot;迄今为止最强大的 AI 模型&quot;。</div><div class="notion-text notion-block-333b9f4752ed806e8621c03d6fa09362">Mythos 代表了 Anthropic 产品线中的第四个层级（内部代号&quot;Capybara&quot;），定位高于现有的 Opus 层级。该模型在多项基准测试中显著超越 Claude Opus 4.6，特别是在软件编程、学术推理和网络安全领域。</div><div class="notion-text notion-block-333b9f4752ed808ba5ecd226309698f5">然而，泄露的内部文档也警告称，该模型可能显著加剧网络安全风险，因为它能够快速发现和利用软件漏洞。这一消息在市场上引发了连锁反应——科技股和加密货币市场出现大幅抛售，网络安全相关股票也受到冲击。</div><div class="notion-text notion-block-333b9f4752ed80b587d9c224033f5389">Anthropic 确认该模型确实存在，并表示这是一个具有&quot;能力阶跃变化&quot;的通用模型，在推理、编程和网络安全方面有重大进展。但由于 Mythos 是一个大型、计算密集的模型，使用和服务成本极高，Anthropic 正在努力在任何正式发布之前大幅提高模型效率。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed8045bb85f5cb5a56c443"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed8044bd15f4e3e81d6153" data-id="333b9f4752ed8044bd15f4e3e81d6153"><span><div id="333b9f4752ed8044bd15f4e3e81d6153" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed8044bd15f4e3e81d6153" title="Meta Tests Avocado 9B, Avocado Mango Agent, and More"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/2RkcZU">Meta Tests Avocado 9B, Avocado Mango Agent, and More</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed80e3b77de11fb34ac0aa"><b>2 minute read</b></div><div class="notion-text notion-block-333b9f4752ed8093bf5fc9e5b8d110eb">📋 Meta 的下一代 AI 模型 Avocado 的发布已推迟至至少 2026 年 5 月，因为内部测试显示其仍落后于 Google、OpenAI 和 Anthropic 的领先系统。Meta 正在并行测试多个 Avocado 变体，包括 9B 参数版本和多模态 Mango Agent，同时已将部分 Meta AI 请求路由至 Google 的 Gemini 模型。</div><details class="notion-toggle notion-block-333b9f4752ed808e854df118d6777382"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed8015979ec8196d22460e">Meta 的下一代 AI 模型 Avocado 的开发状态比公开报道所暗示的要复杂得多。该模型原定三月发布，现已推迟到至少 2026 年 5 月，原因是内部测试表明它在性能上仍不及 Google、OpenAI 和 Anthropic 的前沿系统。</div><div class="notion-text notion-block-333b9f4752ed80c0af8ff33a962f43e4">Meta AI 界面中的内部模型选择器揭示了多个正在评估的 Avocado 配置，包括：Avocado 9B（90 亿参数的较小版本）、Avocado Mango（带有&quot;agent&quot;和&quot;sub-agent&quot;标签的多模态变体，能够生成图像）、Avocado TOMM（&quot;Tool of many models&quot;）、Avocado Thinking 5.6（最新版推理模型）以及 Paricado（纯文本对话模型）。</div><div class="notion-text notion-block-333b9f4752ed804cbf48c3e6f0b7c828">值得注意的是，某些情况下 Avocado 能够解决早期 Llama 模型无法解决的复杂数学问题，但这些问题已被 Gemini 3 和 GPT 5 在几个月前就已攻克。Meta 的 AI 领导层据报已讨论临时许可 Google 的 Gemini 技术，目前已有部分请求通过 Gemini 模型处理，采用分层方式在 Avocado 成熟前填补能力差距。</div><div class="notion-text notion-block-333b9f4752ed8020ae7ed42696820143">在 CEO 扎克伯格追求超级智能的要求下，Meta 也在远离开源传统，Avocado 预计将是专有模型——这与 Llama 时代形成鲜明对比。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed801b876dc152a24d669a"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed804eb501dabcd1f69dfd" data-id="333b9f4752ed804eb501dabcd1f69dfd"><span><div id="333b9f4752ed804eb501dabcd1f69dfd" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed804eb501dabcd1f69dfd" title="Anthropic&#x27;s Claude Popularity with Paying Consumers Is Skyrocketing"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/kdBA4u">Anthropic&#x27;s Claude Popularity with Paying Consumers Is Skyrocketing</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed80f28b5bffa036d5e04f"><b>4 minute read</b></div><div class="notion-text notion-block-333b9f4752ed80aabb20dc2744e03487">📋 根据 Indagari 对约 2,800 万美国消费者匿名信用卡交易数据的分析，Claude 的付费订阅用户正以创纪录速度增长，今年付费订阅数已翻倍以上。超级碗广告、与国防部的争议以及 Claude Code 等新工具是主要推动因素，但 ChatGPT 仍然是最大的消费者 AI 平台。</div><details class="notion-toggle notion-block-333b9f4752ed802eaf0ed6827af9c1bd"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed80b5b457e47b60f4cb61">Anthropic 的 Claude 在付费消费者中的受欢迎程度正急剧上升。消费者交易分析公司 Indagari 对约 2,800 万美国消费者的数十亿笔匿名信用卡交易进行分析，结果显示 Claude 正在以创纪录的速度获得付费订阅用户。Anthropic 发言人向 TechCrunch 证实，今年 Claude 的付费订阅数已翻倍以上。</div><div class="notion-text notion-block-333b9f4752ed80009295f1c24b315f31">多个因素推动了这一增长。首先，Anthropic 在超级碗期间投放了嘲讽 ChatGPT 向用户展示广告的幽默广告，承诺 Claude 永远不会这样做。其次，从一月底开始，多家媒体报道了 Anthropic 与美国国防部之间日益加深的争议——Anthropic 拒绝允许国防部将其 AI 模型用于致命自主作战或对美国公民的大规模监控。CEO Dario Amodei 于 2 月 26 日发表了坚定的公开声明，这段时期新用户增长急剧攀升。</div><div class="notion-text notion-block-333b9f4752ed800bb2e2cd3f86b48e4e">此外，Claude Code 和 Claude Cowork（一月发布的开发者和生产力工具）也推动了订阅增长。本周发布的 Computer Use 功能——允许 Claude 独立操控电脑——也引发了新一波关注。Indagari 数据显示大多数新订阅者处于最低的 Pro 层级（每月 20 美元）。</div><div class="notion-text notion-block-333b9f4752ed8016aa4dd7af068ee311">尽管 Anthropic 在付费消费者中增长强劲，但 Claude 与 ChatGPT 之间仍有很大差距。OpenAI 仍在快速获取新付费订阅者，并继续是最大的消费者 AI 平台。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed80109514c81c85205504"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-333b9f4752ed809c8903d18b853b569b" data-id="333b9f4752ed809c8903d18b853b569b"><span><div id="333b9f4752ed809c8903d18b853b569b" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed809c8903d18b853b569b" title="🧠 深度分析 / Deep Dives &amp; Analysis"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧠 深度分析 / Deep Dives &amp; Analysis</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed80a8a162c4f17ed9e3eb" data-id="333b9f4752ed80a8a162c4f17ed9e3eb"><span><div id="333b9f4752ed80a8a162c4f17ed9e3eb" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80a8a162c4f17ed9e3eb" title="Function Calling Harness: From 6.75% to 100%"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://autobe.dev/blog/function-calling-harness-qwen-meetup-korea/?utm_source=tldrai">Function Calling Harness: From 6.75% to 100%</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed80c7ae44ffe84ef821c7"><b>32 minute read</b></div><div class="notion-text notion-block-333b9f4752ed80a585b1d6e5839b8437">📋 AutoBe 是一个开源 AI 代理，可从自然语言对话生成完整后端。通过类型约束、编译器验证和结构化反馈的&quot;harness&quot;工程方法，将 qwen3-coder-next 的函数调用成功率从 6.75% 提升至 99.8% 以上，证明了模型外部的确定性工程比模型内部优化更关键。</div><details class="notion-toggle notion-block-333b9f4752ed80fc96efeef71fa0900e"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed80b0af4ed9a2328cf56e">AutoBe 是由 Wrtn Technologies 开发的开源 AI 代理，能够从一句自然语言描述生成完整的生产级后端，包括需求分析、数据库 schema、API 规范、端到端测试和实现代码。</div><div class="notion-text notion-block-333b9f4752ed809ea136e347120fd505">核心问题在于 LLM 的函数调用（function calling）对复杂嵌套结构的处理极不可靠。qwen3-coder-next 在为购物商城后端生成 API 数据类型时，首次尝试的成功率仅为 6.75%。学术研究也证实了这一点：GPT-4o 在嵌套工具调用序列上的准确率仅为 28%，而受约束解码框架在最复杂 schema 上的覆盖率只有 3-41%。</div><div class="notion-text notion-block-333b9f4752ed80179041f44c075d9f65">AutoBe 的解决方案不是更好的模型或更聪明的提示词，而是一个&quot;harness&quot;——类型 schema 约束输出、编译器验证结果、结构化反馈精准定位错误位置和原因，使 LLM 能够自我纠正。这是一个包裹在概率模型外的确定性循环。</div><div class="notion-text notion-block-333b9f4752ed8091bd2cdbef11b21bc9">具体而言，AutoBe 采用五阶段瀑布流水线（需求分析 → 数据库 → API 设计 → 测试 → 实现），每个阶段都使用 4 种 AST 类型和 4 层编译器验证。LLM 不直接编写代码，而是填充预定义的 JSON Schema 结构，然后由编译器验证和转换为实际代码。</div><div class="notion-text notion-block-333b9f4752ed80d381b4ca0a28a4cf38">Typia 是这个系统的核心基础设施——一个 TypeScript 编译器分析源代码中的单个类型，自动生成 schema、解析器、验证器和反馈生成器。它的宽松 JSON 解析可以恢复损坏的 JSON，基于 schema 的类型强制转换和精确验证反馈构成了完整的反馈循环。</div><div class="notion-text notion-block-333b9f4752ed80598c13f7abcbe6d7ab">文章还提出了更广泛的观点：这种模式适用于任何存在确定性验证器的工程领域——半导体、化学工艺、控制系统等。小模型不是弱点，反而是 harness 系统最好的 QA 工程师，因为它们更擅长暴露系统漏洞。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed80f985a2e42a0ca6dbb5"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed80528be8faab2eac796f" data-id="333b9f4752ed80528be8faab2eac796f"><span><div id="333b9f4752ed80528be8faab2eac796f" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80528be8faab2eac796f" title="AI&#x27;s Capability Improvements Haven&#x27;t Come from It Getting Less Affordable"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.lesswrong.com/posts/E6ELHguZFNF3Czp55/ai-s-capability-improvements-haven-t-come-from-it-getting?utm_source=tldrai">AI&#x27;s Capability Improvements Haven&#x27;t Come from It Getting Less Affordable</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed8020a565f505af54839b"><b>12 minute read</b></div><div class="notion-text notion-block-333b9f4752ed8051a3a7f40fd9c26d97">📋 Redwood Research 的分析表明，尽管前沿 AI 模型的每任务推理成本在上升，但相对于人工成本，当前模型完成任务的成本仅为人工的约 3%，且这一比率没有上升趋势。AI 的能力提升并未导致其变得不经济，自动化的主要瓶颈仍是能力本身而非成本。</div><details class="notion-toggle notion-block-333b9f4752ed80918a98f74bb3e6597e"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed80499e57eca98fb2c363">Redwood Research 的 Anders Cairns Woodruff 发表了一篇深入分析，挑战了&quot;AI 推理成本正在使自动化变得不经济&quot;这一普遍观点。</div><div class="notion-text notion-block-333b9f4752ed800b8d07e824275f6f66">文章的核心论点是：推理成本的上升反映的是模型能够完成更长的任务，而非模型相对于其替代的人工劳动变得更昂贵。作者定义了&quot;成本比率&quot;——即 AI 成功完成一项任务的平均推理成本除以人工完成同一任务的成本——并利用 METR 的公开数据进行了系统分析。</div><div class="notion-text notion-block-333b9f4752ed8004b8d4c94e7d824251">三个关键发现：</div><ol start="1" class="notion-list notion-list-numbered notion-block-333b9f4752ed80b890c6fc65b9b7386c" style="list-style-type:decimal"><li><b>跨模型趋势稳定</b>：在连续的前沿模型中，每个模型在其 50% 可靠性时间范围内的成本比率没有上升。当前前沿模型完成任务的成本约为人工的 3%。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-333b9f4752ed80a897c7d052b80652f2" style="list-style-type:decimal"><li><b>长任务并非更昂贵</b>：在模型成功完成的任务中，较长的任务并不比短任务具有更高的成本比率。成本比率实际上随任务长度下降（尽管这可能反映了选择效应）。</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-333b9f4752ed80a99df4d544b5a0ac0f" style="list-style-type:decimal"><li><b>固定成本下进步同样快</b>：即使将 AI 支出限制在人工成本的 1/32，时间范围的进步趋势也仅轻微放缓（仍然大约每 3 个月翻倍）。</li></ol><div class="notion-text notion-block-333b9f4752ed802ba0a8f9340a92d309">文章反驳了 Toby Ord 的相反结论（认为前沿 AI 能力的小时成本正在指数级上升），认为其方法论不可靠并导致了对模型小时成本的显著高估。</div><div class="notion-text notion-block-333b9f4752ed805283d1e72369aeff27">总的结论是：成本并非能力之外的额外瓶颈。企业可以设定较低的成本上限，仍能获取大部分成功的自动化任务。我们应该预期在 METR 能力趋势线预测的大致时间看到自动化实现。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed80f4bc65f509dba7897b"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed805ca780da938175ee82" data-id="333b9f4752ed805ca780da938175ee82"><span><div id="333b9f4752ed805ca780da938175ee82" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed805ca780da938175ee82" title="The Capability Overhang in AI"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/eJaJOh">The Capability Overhang in AI</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed80cab9f6f064ab0760a2"><b>4 minute read</b></div><div class="notion-text notion-block-333b9f4752ed80afbfcdf931739d48cc">📋 Box CEO Aaron Levie 指出，编程代理之所以远超其他领域，是因为代码库提供了自包含的关键上下文环境。企业 AI 代理的大规模部署仍面临三大难题：上下文碎片化、复杂的访问控制，以及快速变化的架构格局。</div><details class="notion-toggle notion-block-333b9f4752ed800bbe78c34c8cefba69"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed800f8bb5f2834c8d790a">Box CEO Aaron Levie 在一篇长文中阐述了 AI 领域的&quot;能力过剩&quot;现象。他引用 William Gibson 的名言——&quot;未来已经到来，只是分布不均&quot;——来描述当前 AI 代理在不同领域的发展差距。</div><div class="notion-text notion-block-333b9f4752ed80d68bc6e0d453f51692">在科技领域，编程代理正在快速变革软件开发，团队越来越多地报告其产品完全由代理编写。然而，在科技行业之外的知识工作者中，AI 仍主要是一个回答快速问题和查找信息的助手，大规模工作输出和自动化还处于萌芽阶段。</div><div class="notion-text notion-block-333b9f4752ed802a8077ef512029b8f1">Levie 分析了为何编程代理能远超其他领域：正如 Dwarkesh Patel 在与 Dario Amodei 的对话中所假设的，编程之所以不同，是因为工作所需的关键上下文就在代码库中。而在其他知识工作领域，关键上下文分散在碎片化的系统、视频会议、面对面会议和外部事件中。</div><div class="notion-text notion-block-333b9f4752ed809f9fbdcca86f3685d9">企业 AI 代理的大规模部署面临三大挑战：</div><ol start="1" class="notion-list notion-list-numbered notion-block-333b9f4752ed8030b669e34a41db599d" style="list-style-type:decimal"><li><b>上下文碎片化</b>：大多数企业的数据和信息分散在众多遗留和碎片化系统中，大量非结构化数据存储在无法与云端代理轻松交互的本地系统中。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-333b9f4752ed80e7b1e2cd590aeba3e4" style="list-style-type:decimal"><li><b>权限和访问控制</b>：在大多数组织中，没有两个用户拥有相同的信息访问权限。代理需要在做 100 倍甚至 1000 倍于人工的工作量时正确处理这些复杂的权限排列。</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-333b9f4752ed802f86cdcf3f838433c3" style="list-style-type:decimal"><li><b>快速变化的架构格局</b>：AI 模型和代理框架的更新速度极快，企业需要在不断变化的技术栈中做出正确的架构选择。</li></ol><div class="notion-text notion-block-333b9f4752ed8070ba63d7f19ce8514b">Levie 认为，尽管当前技术已足以转变大部分白领工作，但真正的挑战在于如何将 AI 模型的突破性能力应用到企业工作流程中，在知识工作发生的真实环境中交付真正的代理式工作。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed8030b66dcc3328642551"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-333b9f4752ed807f81b0d4f6c51cad4d" data-id="333b9f4752ed807f81b0d4f6c51cad4d"><span><div id="333b9f4752ed807f81b0d4f6c51cad4d" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed807f81b0d4f6c51cad4d" title="🧑‍💻 工程与研究 / Engineering &amp; Research"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧑‍💻 工程与研究 / Engineering &amp; Research</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed801da9fcdce5bff5c958" data-id="333b9f4752ed801da9fcdce5bff5c958"><span><div id="333b9f4752ed801da9fcdce5bff5c958" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed801da9fcdce5bff5c958" title="Schedule Tasks on the Web"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://code.claude.com/docs/en/web-scheduled-tasks?utm_source=tldrai">Schedule Tasks on the Web</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed80ffac3df6f9f55ccb81"><b>5 minute read</b></div><div class="notion-text notion-block-333b9f4752ed80778b3ed333bced9c99">📋 Claude Code 网页版用户现在可以创建定时任务，在 Anthropic 管理的云基础设施上按计划自动运行。任务即使在用户关闭设备后也会继续执行，支持每日 PR 审查、CI 失败分析、文档同步和依赖审计等自动化场景。</div><details class="notion-toggle notion-block-333b9f4752ed80f0aeb3e9b21806d1c6"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed80bda2f5dce9a8efecb3">Claude Code 网页版推出了定时任务功能，允许用户创建按定期节奏运行的自动化任务。这些任务在 Anthropic 管理的基础设施上运行，即使用户的电脑关闭也能持续工作。</div><div class="notion-text notion-block-333b9f4752ed80b8a9d8dfe99272236c">该功能面向所有 Claude Code 网页版用户开放，包括 Pro、Max、Team 和 Enterprise 层级。典型使用场景包括：每天早上审查开放的 Pull Request、过夜分析 CI 失败并生成摘要、在 PR 合并后同步文档、每周运行依赖审计等。</div><div class="notion-text notion-block-333b9f4752ed80ce96c2e3fda3938335">Claude Code 现在提供三种定时方式的比较：云端任务（在 Anthropic 云上运行，无需机器开启）、桌面任务（在用户机器上运行，需要机器开启但不需要打开会话），以及 /loop 命令（在会话范围内运行的快速轮询）。</div><div class="notion-text notion-block-333b9f4752ed8027b4fedfb1f7b131c2">创建定时任务可以通过三个入口：网页界面（<a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://claude.ai/code/scheduled）、桌面应用或">claude.ai/code/scheduled）、桌面应用或</a> CLI 中的 /schedule 命令。用户需要命名任务、编写提示词、选择 GitHub 仓库（每次运行时从默认分支克隆）、选择云环境（控制网络访问、环境变量和安装脚本），并设置运行频率。</div><div class="notion-text notion-block-333b9f4752ed80af9e94d098a8ae98c4">任务运行时会创建 claude/ 前缀的分支来推送更改。每次运行都会创建一个新会话，用户可以在其中查看 Claude 所做的操作、审查更改并创建 Pull Request。所有已连接的 MCP connector 默认包含在任务中，让 Claude 在运行期间能访问 Slack、Linear 或 Google Drive 等外部服务。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed80b4911cd49a3d9d286b"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed808aa4f8dedfb9a58065" data-id="333b9f4752ed808aa4f8dedfb9a58065"><span><div id="333b9f4752ed808aa4f8dedfb9a58065" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed808aa4f8dedfb9a58065" title="lat.md"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://lat.md">lat.md</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed808cb2f9d6af747aadb6"><b>GitHub Repo</b></div><div class="notion-text notion-block-333b9f4752ed80a6ac50fc8b7b7061ab">📋 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://lat.md">lat.md</a> 是一个开源规范和 CLI 工具，用于在代码库中维护一个由互相链接的 Markdown 文件组成的知识图谱。它帮助 AI 代理理解核心设计决策和业务逻辑，避免无尽的 grep 搜索，同时通过 wiki 链接将概念连接成可导航的图结构。</div><details class="notion-toggle notion-block-333b9f4752ed8096b1d2ecb584e34ff0"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed8042a5a5d774ceb7e0b5"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://lat.md">lat.md</a> 解决了 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://AGENTS.md">AGENTS.md</a> 不可扩展的问题——单个扁平文件可以描述小项目，但随着代码库增长，维护一个巨大的文档变得不切实际。关键设计决策被淹没，业务逻辑缺乏文档，代理只能幻想它们本应查阅的上下文。</div><div class="notion-text notion-block-333b9f4752ed80299252e3a4a85c4329"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://lat.md">lat.md</a> 的核心理念是将程序领域的知识压缩成一个图——一组互相连接的 Markdown 文件，存放在项目根目录的 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://lat.md/">lat.md/</a> 目录中。各部分通过 [[wiki links]] 相互链接，Markdown 文件通过 [[src/auth.ts#validateToken]] 链接到代码库，源文件通过 // @lat: [[section-id]] 注释链接回来，lat check 确保一切保持同步。</div><div class="notion-text notion-block-333b9f4752ed80a7ad6ef94b747e71e0">这为多方提供了价值：</div><ul class="notion-list notion-list-disc notion-block-333b9f4752ed805ab4e4d63a14a0e174"><li><b>更快的代理编码</b>：代理搜索知识图谱来发现关键设计决策和约束，而非在代码库中 grep 搜索。</li></ul><ul class="notion-list notion-list-disc notion-block-333b9f4752ed80508282c5b070f91b0f"><li><b>更快的人类工作流</b>：审查 diff 时，先从 <a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://lat.md/">lat.md/</a> 中的语义变更开始理解发生了什么以及为什么，代码审查变为次要任务。</li></ul><ul class="notion-list notion-list-disc notion-block-333b9f4752ed8068a331c45c4ab51aa1"><li><b>知识保留</b>：提示词背后的上下文和推理通常在会话结束后丢失，lat 让代理在工作时将知识捕获到图中。</li></ul><ul class="notion-list notion-list-disc notion-block-333b9f4752ed8008b637ea53f4dca4a0"><li><b>测试规范强制执行</b>：测试用例可以标记为 require-code-mention: true，每个规范必须被测试代码中的 // @lat: 注释引用，lat check 会标记任何没有反向链接的规范。</li></ul><div class="notion-text notion-block-333b9f4752ed80519cf1cd3fd35c5738">CLI 工具包括：lat init（初始化）、lat check（验证一致性）、lat search（语义搜索）、lat section（显示特定节）等命令。项目使用纯 Markdown 格式，已在 GitHub 上获得 485 个星标。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed80c785b0f262e2b66303"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed80a389b5d13867c31db1" data-id="333b9f4752ed80a389b5d13867c31db1"><span><div id="333b9f4752ed80a389b5d13867c31db1" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80a389b5d13867c31db1" title="What Pretext Reinforced About AI Loops"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.nibzard.com/oracles/?utm_source=tldrai">What Pretext Reinforced About AI Loops</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed80a5bb7ee91f99aeca3f"><b>5 minute read</b></div><div class="notion-text notion-block-333b9f4752ed8045b37cd66e3470bb98">📋 Pretext 是一个纯 TypeScript 文本测量算法，能在不依赖 DOM 测量的情况下布局网页。其开发过程展示了一种严格的 AI 代理工作循环：锁定架构 → 对比现实测量 → 隔离故障 → 分类命名 → 测试 → 淘汰 → 只保留经受住广泛压力测试的结果。</div><details class="notion-toggle notion-block-333b9f4752ed8097b5a2f3a9a2b7704e"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed8045889ac125bdd9f6bb">Nikola Balić 的文章分析了 Pretext 项目如何强化了他对 AI 编程循环的理解。Pretext 是 Cheng Lou 创建的纯 TypeScript 文本测量算法，能够在不依赖 DOM 测量和回流的情况下布局网页。但文章关注的不是文本布局本身，而是其开发过程所揭示的有效 AI 代理工作模式。</div><div class="notion-text notion-block-333b9f4752ed8050afb7db3b9556856e">作者总结了六个关键原则：</div><ol start="1" class="notion-list notion-list-numbered notion-block-333b9f4752ed80388f7fdea6bb33f272" style="list-style-type:decimal"><li><b>从硬约束开始</b>：Pretext 在任何算法工作之前就锁定了一条规则——prepare() 可以昂贵，但 layout() 必须只包含算术运算。这一不变量让许多糟糕的 AI 建议立即失败，不需要哲学辩论。</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-333b9f4752ed805394e0d6ecaf42d31a" style="list-style-type:decimal"><li><b>给模型一个&quot;预言机&quot;</b>：Pretext 不信任理论，而是对照 Chrome、Safari 和 Firefox 的真实浏览器行为来检验自己。这完全改变了模型的角色——AI 不再是权威，而是包裹在证据周围的速度层。</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-333b9f4752ed80a9b8d4cbf120284b6c" style="list-style-type:decimal"><li><b>在解决前缩小问题</b>：广泛的失败被持续压缩成最小的探测——一个宽度、一个字体、一个浏览器、一个提取器、一个片段。AI 代理在这里真正有用：构建微型探测页面、运行窄范围脚本、比较提取器。</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-333b9f4752ed80daaadfd7d8128d7ac7" style="list-style-type:decimal"><li><b>命名失败模式</b>：不是每个不匹配都是同一个 bug。有些是脏语料库问题，有些是规范化问题，有些是断行边界错误。一旦失误有了名字，下一步行动就变得更窄。</li></ol><ol start="5" class="notion-list notion-list-numbered notion-block-333b9f4752ed80e6b09fd8459eb212fa" style="list-style-type:decimal"><li><b>用 AI 做吞吐量，而非权威</b>：让 AI 代理大量尝试和快速淘汰，但不让它做最终判断。</li></ol><ol start="6" class="notion-list notion-list-numbered notion-block-333b9f4752ed80acb6c1ccbc89592eea" style="list-style-type:decimal"><li><b>不是每次运行都能存活</b>：真正有效的 AI 循环是严格的——constrain → measure → isolate → classify → test → reject → 只保留经受住广泛压力测试的结果。</li></ol></div></details><hr class="notion-hr notion-block-333b9f4752ed80d2b1accc0045d776b4"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-333b9f4752ed8057a5c0fa94ddc56ece" data-id="333b9f4752ed8057a5c0fa94ddc56ece"><span><div id="333b9f4752ed8057a5c0fa94ddc56ece" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed8057a5c0fa94ddc56ece" title="🎁 杂项 / Miscellaneous"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🎁 杂项 / Miscellaneous</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed80c78284df43a2db9aa8" data-id="333b9f4752ed80c78284df43a2db9aa8"><span><div id="333b9f4752ed80c78284df43a2db9aa8" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80c78284df43a2db9aa8" title="xAI&#x27;s Last Cofounder Leaves"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://techcrunch.com/2026/03/28/elon-musks-last-co-founder-reportedly-leaves-xai/?utm_source=tldrai">xAI&#x27;s Last Cofounder Leaves</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed805e99f3ffefb4e4e1ec"><b>3 minute read</b></div><div class="notion-text notion-block-333b9f4752ed8078b240cc08e58b1507">📋 xAI 的最后两位联合创始人 Manuel Kroiss 和 Ross Nordeen 已离开公司，标志着原始创始团队的全部出走。此前 Musk 称 xAI&quot;第一次没有建对&quot;，正在从底层重建，同时该公司已被 SpaceX 收购。</div><details class="notion-toggle notion-block-333b9f4752ed8047ab7ddb140c44da38"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed804d93b7c53a85e82486">据 Business Insider 报道，Elon Musk 的 AI 初创公司 xAI 的最后两位联合创始人——Manuel Kroiss 和 Ross Nordeen——已经离开，这意味着 xAI 原始的 11 位联合创始人已全部出走。</div><div class="notion-text notion-block-333b9f4752ed800eba3afe4f490da1eb">Kroiss 和 Nordeen 都直接向 Musk 汇报。Kroiss 领导公司的预训练团队，而 Nordeen 是 Musk 的&quot;得力助手&quot;，此前从 Tesla 来到 xAI，曾参与策划 Musk 2022 年收购 Twitter 后的大规模裁员。</div><div class="notion-text notion-block-333b9f4752ed807786d3f95659b80abf">这一变动发生在 Musk 近期公开承认 xAI&quot;第一次没有建对&quot;、正在&quot;从底层重建&quot;之后。该公司最近被 Musk 的 SpaceX 收购，将 SpaceX、xAI 和 X（前 Twitter）纳入同一企业伞下，而 SpaceX 据报正在计划上市。</div><div class="notion-text notion-block-333b9f4752ed80f19272d7f858cf679d">联合创始人的全部离开对任何初创公司来说都是一个重大信号，尤其是在公司正在进行根本性重组的背景下。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed807fa5e3c4a7e645f0de"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-333b9f4752ed80d3b519c68ee20429d5" data-id="333b9f4752ed80d3b519c68ee20429d5"><span><div id="333b9f4752ed80d3b519c68ee20429d5" class="notion-header-anchor"></div><a class="notion-hash-link" href="#333b9f4752ed80d3b519c68ee20429d5" title="Things I Learned at OpenAI"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://semaphore.substack.com/p/things-i-learned-at-openai?utm_source=tldrai">Things I Learned at OpenAI</a></span></span></h4><div class="notion-text notion-block-333b9f4752ed8005aa97cb6c76b59373"><b>7 minute read</b></div><div class="notion-text notion-block-333b9f4752ed8039abf9c8e4599408bc">📋 OpenAI 前研究员 Karina Nguyen 分享了在 OpenAI 的经验教训：好的评估基准能推动整个领域优化，后训练数据设计接近艺术而非工程，主观能力（情商、品味、创意判断）是下一个前沿方向。快速迭代、选择正确的问题和内部工具是 AI 研究的关键竞争优势。</div><details class="notion-toggle notion-block-333b9f4752ed8009be8cd924ba202970"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-333b9f4752ed8012b649deccbc6f9936">Karina Nguyen 此前曾在 Anthropic 工作，后加入 OpenAI，现在分享了她在两家公司的工作中学到的重要经验。</div><div class="notion-text notion-block-333b9f4752ed806b9819fa1b3547d6a0"><b>评估与基准</b>方面，她强调好的评估出人意料地难以设计。最好的评估足够简单以至于能被广泛采用，但又足够具体以真正衡量有意义的事物。一个伟大的基准成为一个&quot;谢林点&quot;——整个领域围绕它定向，因为每个人都想宣称击败了它。创建正确的评估有时比创建在评估上得高分的模型更有影响力。</div><div class="notion-text notion-block-333b9f4752ed8003a36dfaedb148bdf5"><b>后训练与产品</b>方面，她认为设计后训练数据混合更接近艺术而非工程。对齐失败有时是抽象能力的失败而非意图的失败。她越来越相信后训练是 AI 进步的下一个前沿，特别是对于情感智能、品味、幽默和创意判断等主观能力。她还提出从训练信号的角度看待产品——例如 ChatGPT Canvas 不仅是写作界面，还是收集用户协作信号的机制。</div><div class="notion-text notion-block-333b9f4752ed809a803ac069a01a5c5f"><b>AI 研究实践</b>方面，内部工具是被低估的竞争优势。最好的评估和训练 UX 能让团队更快迭代和更早发现问题。设计实验以在每个 FLOP 中获取最大信息量是核心技能。&quot;系统性缩小假设&quot;与&quot;随机尝试&quot;之间的差距区分了普通研究者和高效研究者。</div><div class="notion-text notion-block-333b9f4752ed80b1b476ca91be50117c"><b>对齐与社会影响</b>方面，她更新了一个重要认知：更强的能力与更好的对齐相关——更有能力的模型更不倾向于欺骗，因为它们更好地理解欺骗会侵蚀信任。但 AGI 带来的社会危害（心理依赖、去赋权、能动性侵蚀）比大多数人意识到的更近。</div></div></details><hr class="notion-hr notion-block-333b9f4752ed8002a1f7c8690d6b14c4"/></main></div>]]></content:encoded>
        </item>
        <item>
            <title><![CDATA[今日AI: 2026-03-19]]></title>
            <link>https://timothyxlu.xyz/article/today-ai-20260319</link>
            <guid>https://timothyxlu.xyz/article/today-ai-20260319</guid>
            <pubDate>Sat, 28 Mar 2026 00:00:00 GMT</pubDate>
            <content:encoded><![CDATA[<div id="notion-article" class="mx-auto overflow-hidden "><main class="notion light-mode notion-page notion-block-331b9f4752ed8071bfb9dda63fcba463"><div class="notion-viewport"></div><div class="notion-collection-page-properties"></div><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed801d9a07c1e4f588b144" data-id="331b9f4752ed801d9a07c1e4f588b144"><span><div id="331b9f4752ed801d9a07c1e4f588b144" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed801d9a07c1e4f588b144" title="🚀 头条新闻 / Headlines &amp; Launches"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🚀 头条新闻 / Headlines &amp; Launches</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80f7a22ae18be2a33483" data-id="331b9f4752ed80f7a22ae18be2a33483"><span><div id="331b9f4752ed80f7a22ae18be2a33483" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80f7a22ae18be2a33483" title="How China Is Getting Everyone On OpenClaw, From Gearheads To Grandmas"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.cnbc.com/2026/03/18/china-openclaw-baidu-tencent-ai.html">How China Is Getting Everyone On OpenClaw, From Gearheads To Grandmas</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed808fbb54f01c9e34e4fd"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8028b907f7051b266590">📋 中国正通过百度、腾讯等科技巨头举办的大规模公众活动，全力推广AI个人助手OpenClaw。这款由奥地利开发者创建的工具已在中国超越美国的采用率，支持从&quot;一人公司&quot;创业到日常自动化的多种场景，契合中国2030年AI全面融入社会的国家蓝图。然而，政府在推广的同时也开始加强安全和数据风险警告。</div><details class="notion-toggle notion-block-331b9f4752ed80568b4cf6a161ca0510"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80228d45c5ba3caf5056">中国正在经历一场由政府和科技巨头共同推动的AI普及运动，核心工具是广受欢迎的个人数字助手OpenClaw（被中国用户戏称为&quot;养龙虾&quot;）。百度和腾讯等公司在北京、深圳等城市组织了大规模的线下推广活动，吸引了从退休老人到学生的各年龄层人群前来安装和学习使用。</div><div class="notion-text notion-block-331b9f4752ed80c590e3db25ed379750">OpenClaw由奥地利开发者Peter Steinberger开发，此前曾用过Clawdbot和Moltbot等名字。英伟达CEO黄仁勋称其&quot;绝对是下一个ChatGPT&quot;。根据美国网络安全公司SecurityScorecard的数据，中国在OpenClaw的采用率上已超越美国。该AI代理能够在用户不干预的情况下运行电脑上的任何操作，包括搜索网页、购买机票甚至指挥其他机器人。</div><div class="notion-text notion-block-331b9f4752ed80fbb5e7dfc90d7def50">一个引人注目的趋势是&quot;一人公司&quot;（OPC）的兴起——个人利用OpenClaw实现全天候自动化运营。咨询公司Greenkern的合伙人Tom van Dillen指出，OPC的兴起与OpenClaw直接相关，它能让个人自动化所有辅助功能，包括营销、财务和行政工作。他表示：&quot;中国正以其他国家无法匹配的速度，将一个开源工具转化为国家生产力基础设施。&quot;</div><div class="notion-text notion-block-331b9f4752ed80479c36f6ceeca06609">地方政府也积极参与，为使用该AI工具开发应用的公司提供补贴。PingCAP联合创始人黄东旭表示，政府的方向引导使得大企业有动力为普通民众构建更好的OpenClaw服务。</div><div class="notion-text notion-block-331b9f4752ed802b987cd00195004a20">然而，随着更多普通中国人开始依赖OpenClaw，政府也在收紧管控。中国当局加强了对安全和数据风险的警告，并要求政府机构和银行等敏感行业的公司限制OpenClaw的使用。新用户龚正表示：&quot;我们普通人很难知道我们给了它什么权限，它又拿走了什么。&quot;</div></div></details><hr class="notion-hr notion-block-331b9f4752ed807894b2f509cc0f1faa"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80f3b2bcccad558ae7e0" data-id="331b9f4752ed80f3b2bcccad558ae7e0"><span><div id="331b9f4752ed80f3b2bcccad558ae7e0" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80f3b2bcccad558ae7e0" title="MiniMax Launches M2.7 Model On MiniMax Agent And APIs"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.testingcatalog.com/minimax-launches-m2-7-model-on-minimax-agent-and-apis/">MiniMax Launches M2.7 Model On MiniMax Agent And APIs</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80459672ea21b1d576de"><b>1 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8048b828c9fcc65783d8">📋 MiniMax发布了M2.7模型，这是一款通过agent harness和强化学习实现自我进化的AI模型。它支持软件工程、办公和研究领域的复杂工作流，在SWE-Pro和VIBE-Pro等基准上表现接近行业顶尖水平，并具备自主调试和多agent协作等能力。</div><details class="notion-toggle notion-block-331b9f4752ed8084bf65f4d7e21b24bf"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8051821ce9a8ab7884fe">MiniMax正式发布了其M2系列的重大升级版本M2.7模型，并通过MiniMax Agent和MiniMax API平台面向公众开放。该模型标志着AI从被动工具向主动参与自身进化的范式转变——M2.7使用agent harness和强化学习来持续优化自身能力，包括记忆更新、技能开发和迭代自我改进。</div><div class="notion-text notion-block-331b9f4752ed80b7a8b4da3acf1dfed0">在技术指标方面，M2.7展示了多agent协作能力，在40多项复杂技能中达到97%的技能遵循率，在SWE-Pro基准上取得56.22%的分数，在VIBE-Pro上达到55.6%。相比前代模型，M2.7在多语言编程、代码安全、端到端项目交付和深层系统级理解方面都有显著提升，在专业办公任务上的GDPval-AA评分达到ELO 1495。</div><div class="notion-text notion-block-331b9f4752ed80749a9bdfd1812a46fb">M2.7引入了自主调试、研究agent harness以及面向娱乐和交互体验的OpenRoom演示等新功能。MiniMax内部也已部署M2.7，用于自动化和优化研发流程，进一步推动公司向AI原生组织的转型。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80ed9e7fe540ec902d6b"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed806bb409c45d37a7be74" data-id="331b9f4752ed806bb409c45d37a7be74"><span><div id="331b9f4752ed806bb409c45d37a7be74" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed806bb409c45d37a7be74" title="Xiaomi Stuns With New MiMo-V2-Pro LLM Nearing GPT-5.2, Opus 4.6 Performance At A Fraction Of The Cost"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://venturebeat.com/technology/xiaomi-stuns-with-new-mimo-v2-pro-llm-nearing-gpt-5-2-opus-4-6-performance">Xiaomi Stuns With New MiMo-V2-Pro LLM Nearing GPT-5.2, Opus 4.6 Performance At A Fraction Of The Cost</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8087a020e6bda92c4083"><b>10 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80f18b45d45c1ea69792">📋 小米发布了MiMo-V2-Pro，一款拥有1万亿参数的基础模型，性能接近OpenAI和Anthropic的顶级模型，但成本仅为其六分之一到七分之一。该模型采用稀疏架构（单次推理仅激活420亿参数），具备100万token上下文窗口和多token预测能力，在多项agent基准测试中表现出色。</div><details class="notion-toggle notion-block-331b9f4752ed80ec9aa6dab167273823"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80929604d2f6d04b4c76">小米今日发布了MiMo-V2-Pro，一款1万亿参数的前沿基础模型，由曾参与DeepSeek R1项目的罗富立领导开发。罗富立将此次发布描述为对全球前沿的&quot;安静伏击&quot;，并表示公司计划在模型&quot;足够稳定&quot;后开源一个变体版本。</div><div class="notion-text notion-block-331b9f4752ed80aaae17fe2282d761bb"><b>架构创新：</b> MiMo-V2-Pro采用稀疏架构，虽然总参数达1万亿，但单次前向传递仅激活420亿参数，约为前代MiMo-V2-Flash的三倍。模型使用进化的混合注意力机制，采用7:1的混合比率（Flash版本为5:1）来管理其100万token的上下文窗口。该设计让模型能&quot;略读&quot;85%的数据以获取上下文，同时对最相关的15%数据施加高密度注意力。配合轻量级多token预测（MTP）层，模型可同时生成多个token，大幅降低agent工作流中&quot;思考&quot;阶段的延迟。</div><div class="notion-text notion-block-331b9f4752ed80cbba71fcd1ec978ef3"><b>基准表现：</b> 在衡量agent实际工作任务的GDPval-AA基准上，MiMo-V2-Pro取得1426 Elo评分，超越GLM-5（1406）和Kimi K2.5（1283），成为中国模型在此类别中的最高记录。第三方机构Artificial Analysis将其列为全球智能指数第10名（49分），与GPT-5.2 Codex同档。在ClawEval agent基准上得分61.5，接近Claude Opus 4.6（66.3），大幅超越GPT-5.2（50.0）。幻觉率从Flash版本的48%降至30%。</div><div class="notion-text notion-block-331b9f4752ed800f9751f79388850098"><b>定价策略：</b> 小米采取极具竞争力的定价——256K以内上下文：输入$1/百万token，输出$3/百万token；256K-1M上下文：输入$2，输出$6。运行Artificial Analysis完整指数仅需$348，而GPT-5.2需要$2,304，Claude Opus 4.6需要$2,486。</div><div class="notion-text notion-block-331b9f4752ed801a9c69ddaf79da0866"><b>局限性：</b> 目前仅通过小米自有API提供，不支持图像或多模态输入（多模态版MiMo-V2-Omni另行开发中），且模型权重不公开发布（不同于Flash版本），这意味着企业安全团队无法进行深层模型级审计。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8051af0ec3bb759f3b18"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed8077ab8ae728704661ec" data-id="331b9f4752ed8077ab8ae728704661ec"><span><div id="331b9f4752ed8077ab8ae728704661ec" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8077ab8ae728704661ec" title="🧠 深度分析 / Deep Dives &amp; Analysis"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧠 深度分析 / Deep Dives &amp; Analysis</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80478321e865209d4339" data-id="331b9f4752ed80478321e865209d4339"><span><div id="331b9f4752ed80478321e865209d4339" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80478321e865209d4339" title="What 81,000 People Want From AI"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.anthropic.com/features/81k-interviews">What 81,000 People Want From AI</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed807f859cff7aa9170c3b"><b>35 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80a997beec358c45fafc">📋 Anthropic开展了一项涉及80,508名全球参与者的大规模研究，通过AI访谈员了解人们对AI的期望和担忧。最大群体（19%）追求&quot;职业卓越&quot;，希望AI处理日常任务以专注高价值工作；81%的受访者表示AI已在实现其愿景方面迈出了实际步伐。人们同时将AI视为生产力工具和潜在依赖源。</div><details class="notion-toggle notion-block-331b9f4752ed80deb442c37a47f7bded"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed806687cad5001018a741">Anthropic于2025年12月进行了一项史无前例的大规模定性研究，<a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://邀请所有Claude.ai">邀请所有Claude.ai</a>账户持有者与AI访谈员（一个专门提示的Claude版本）进行对话式访谈。共有80,508人参与，覆盖159个国家和70种语言，被认为是有史以来规模最大、语言最多样化的定性研究。</div><div class="notion-text notion-block-331b9f4752ed8087bee3f3e6a3565478"><b>人们对AI的期望分为九大类别：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80eb8dc5d909b58c8ab8"><li><b>职业卓越（19%）</b>：最大群体，希望AI处理日常事务以专注战略性和高价值工作</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed805bb2b8d17f0d4bbda5"><li><b>个人转型（14%）</b>：利用AI实现个人成长、情感健康或生活蜕变，其中包括认知合作（24%）、心理健康支持（21%）、身体健康（8%）甚至与AI的浪漫连接（5%）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80d99bece80a0f649ac2"><li><b>生活管理（14%）</b>：AI作为全面的组织支持和认知辅助，特别受到有执行功能挑战的人群欢迎</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80c79d9adf5767897d56"><li><b>时间自由（11%）</b>：从工作和琐事中夺回时间，用于家庭、爱好和休息</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807989bddb87f777c54e"><li><b>经济自由（10%）</b>：通过AI实现财务安全</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80f38776c53099897a9e"><li><b>创业伙伴（9%）</b>：AI作为商业力量倍增器</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8058b606fd47b8790c85"><li><b>学习加速器</b>：个性化教学和知识获取</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8041af87da65ab63afed"><li><b>创意表达</b>：克服想象力与执行之间的障碍</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80e38fb8fc3fbb81fa56"><li><b>社会变革</b>：解决贫困、疾病、气候等重大挑战</li></ul><div class="notion-text notion-block-331b9f4752ed80b8b3cfc45d2387d6d3"><b>一个重要发现：</b> 许多人表面上谈论生产力，但当AI访谈员深入追问背后的真正动机时，更深层的优先事项浮出水面——自动化邮件处理实际上是渴望更多陪伴家人的时间。</div><div class="notion-text notion-block-331b9f4752ed802f9e2ec16ca3540892"><b>AI是否兑现了承诺？</b> 81%的受访者表示AI已在实现其愿景方面迈出了实际步伐，体验主要集中在工作效率提升和自动化重复任务方面。来自中低收入国家的受访者特别强调AI可能打破教育质量与财富之间的关联，指出了教师短缺和私人辅导费用高昂等现实问题。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed806b8acecd4340265bb4"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80a49d51f8f56fef71da" data-id="331b9f4752ed80a49d51f8f56fef71da"><span><div id="331b9f4752ed80a49d51f8f56fef71da" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80a49d51f8f56fef71da" title="GPT 5.4 Is A Big Step For Codex"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://www.interconnects.ai/p/gpt-54-is-a-big-step-for-codex">GPT 5.4 Is A Big Step For Codex</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80c9b77add70129854bb"><b>7 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80e9b099ed2f97f364c6">📋 GPT 5.4在agent能力上实现了显著飞跃，是首个让人感觉能胜任各种随机任务的OpenAI agent。其指令遵循极为精确，上下文管理大幅改善，不再出现让用户&quot;怒退&quot;的硬边界问题。不过作者认为Claude在个性魅力和意图理解上仍然更胜一筹，每天开始工作时仍会输入&quot;claude&quot;而非&quot;codex&quot;。</div><details class="notion-toggle notion-block-331b9f4752ed8010b9cdc13dc77b793b"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80b8a5ced203e26dc997">Nathan Lambert在这篇深度评测中分析了GPT 5.4对OpenAI agent生态的重要意义。他指出，传统基准将模型性能压缩为单一正确性分数，但agent任务实际上涉及正确性、易用性、速度和成本的多维组合。</div><div class="notion-text notion-block-331b9f4752ed8002a836f7fca09a022e"><b>GPT 5.4的核心进步：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807c83a5cee683bb1741"><li><b>消除&quot;硬边界&quot;</b>：此前使用GPT 5.2 Codex时，经常因git操作失败等问题导致&quot;怒退&quot;体验，GPT 5.4彻底解决了这些问题</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed804ab09bd85b9916fa4f"><li><b>指令遵循精准</b>：模型会严格执行用户的指示，这与Claude理解用户意图的方式形成鲜明对比</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80ed8953c40e8a06d8a8"><li><b>上下文管理优秀</b>：使用过程中从未遇到上下文墙或上下文焦虑，压缩操作也几乎不可感知</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807faa07de44f314de91"><li><b>推理效率高</b>：生成相同质量结果所需的token更少，在$200/月计划下几乎不会触及使用限制</li></ul><div class="notion-text notion-block-331b9f4752ed8089830de3bfb08f4cd4"><b>Claude vs GPT 5.4的哲学差异：</b></div><div class="notion-text notion-block-331b9f4752ed80b3a8e0c9fa7bcaca21">作者将两者比喻为不同类型的工具——Claude像一个有个性、有品味的超级聪明伙伴，适合需要观点和判断的任务；GPT 5.4则像一台精密但略显冷淡的机械，适合碾压式处理大量具体TODO清单。Claude的优势在于对用户意图的优秀理解模型，而GPT 5.4则胜在严格执行指令。</div><div class="notion-text notion-block-331b9f4752ed805e867bee5ec575718c"><b>两者共同的问题：</b> Claude Opus 4.6和GPT 5.4都存在轻微的&quot;健忘症&quot;——在单条消息中给出多个TODO时，模型常会遗漏部分任务，有时甚至会&quot;回退&quot;去解决之前的问题。</div><div class="notion-text notion-block-331b9f4752ed80e8be8ccdfd89d28c53">作者总结称，尽管在纸面上GPT 5.4在编码性能、速度、上下文管理和使用限制方面都更优，但他每天仍然先打开Claude而非Codex，因为Claude具备永远不会在基准测试中显现的品质——这证明了模型选择是一个多么nuanced的决策。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80c1b5f6fbfcc0edb4ad"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80919136f93d114a604c" data-id="331b9f4752ed80919136f93d114a604c"><span><div id="331b9f4752ed80919136f93d114a604c" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80919136f93d114a604c" title="How Did Anthropic Do It?"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://ramp.com/velocity/ai-index-march-2026">How Did Anthropic Do It?</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80e4be78f1b49c321401"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80b5896cd9c77ae711f5">📋 Ramp AI指数显示Anthropic采用率环比增长4.9%，创历史最大单月涨幅，近四分之一的Ramp企业用户现在使用Anthropic（一年前仅为二十五分之一）。同期OpenAI采用率下降1.5%。Anthropic在首次购买AI服务的企业中赢得约70%的直接对决，完全逆转了2025年的趋势。</div><details class="notion-toggle notion-block-331b9f4752ed80669a92fc1588eca6aa"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80398e3ce1b32f309cff">Ramp发布的2026年3月AI指数揭示了AI行业格局的重大转变。整体商业AI采用率升至创纪录的47.6%，其中Anthropic表现尤为突出。</div><div class="notion-text notion-block-331b9f4752ed80b98e2cc09964f5a8b1"><b>关键数据：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80e797f7f72cb61d94b3"><li>Anthropic采用率环比增长4.9%，为追踪以来的最大单月涨幅</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80d79bfaeac338e841d5"><li>24.4%的Ramp企业用户现在付费使用Anthropic（一年前仅约4%）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed800c8f3ddb135e07dd84"><li>OpenAI采用率下降1.5%，为追踪以来任何AI模型公司的最大单月跌幅</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80059a49da497f859eea"><li>Google采用率小幅增至4.7%，xAI维持在不到2%</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8071b669eadc7653b9c1"><li>在首次购买AI服务的企业中，Anthropic赢得约70%的直接对决，完全逆转2025年OpenAI加速增长的趋势</li></ul><div class="notion-text notion-block-331b9f4752ed801d92d2eee488db2798"><b>Anthropic的分销优势：</b> 作者分析了各家AI公司不同的分销优势——Google依靠Workspace捆绑，OpenAI凭借ChatGPT的消费者认知，而Anthropic的优势在于早期采用者群体（布道者、工程师、团队中的&quot;AI达人&quot;）。Anthropic正将这一早期采用者基础转化为主流市场。</div><div class="notion-text notion-block-331b9f4752ed808183ecc8ef77c9aaaa"><b>令人困惑的定价悖论：</b> Claude Code和OpenAI Codex性能大致相当，在某些基准上Codex甚至更好且更便宜，但Anthropic却无法满足自身需求——每个计划（消费者、专业版、企业版、API）都有使用限制和速率上限，公司因算力不足而主动拒绝收入。尽管收费更高且性能大致相当，需求仍在增长。</div><div class="notion-text notion-block-331b9f4752ed80308a6be4d93be36d77"><b>文化护城河假说：</b> 作者提出一个有趣的观点——Anthropic的护城河可能不在于基准和定价，而在于&quot;酷&quot;的文化认同。Katy Perry和参议员Brian Schatz等公众人物公开宣布转向Claude，特别是在OpenAI与国防部合作引发反弹之后。选择OpenAI还是Anthropic可能正在从企业采购决策演变为类似iMessage蓝泡泡/绿泡泡的身份信号。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80d2868dd09cff747787"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed809bb916d8fa75255558" data-id="331b9f4752ed809bb916d8fa75255558"><span><div id="331b9f4752ed809bb916d8fa75255558" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed809bb916d8fa75255558" title="🧑‍💻 工程与研究 / Engineering &amp; Research"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧑‍💻 工程与研究 / Engineering &amp; Research</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8075a0cee479bcf816cc" data-id="331b9f4752ed8075a0cee479bcf816cc"><span><div id="331b9f4752ed8075a0cee479bcf816cc" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8075a0cee479bcf816cc" title="Introducing The Machine Payments Protocol"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/MLWPCx">Introducing The Machine Payments Protocol</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8017be40c2c3f4b70a45"><b>2 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80398452eae5d4ef02b6">📋 Stripe推出了机器支付协议（MPP），这是一种开放标准的互联网原生支付方式，允许AI agent自主完成支付。MPP支持微交易、定期付款等功能，企业只需几行代码即可通过PaymentIntents API接受来自agent的支付，同时支持稳定币和法币。</div><details class="notion-toggle notion-block-331b9f4752ed80d09646eb21ecec3c73"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80d0a3b8d04e9401c07b">Stripe发布了Machine Payments Protocol（MPP），一个由Stripe联合创作的开放标准，为AI agent提供互联网原生的支付方式。这标志着&quot;agent经济&quot;基础设施的重要里程碑。</div><div class="notion-text notion-block-331b9f4752ed803794fbc516b0453cab"><b>工作原理：</b> Agent向服务、API、MCP或任何HTTP可寻址端点请求资源，服务方以支付请求作为回应，agent授权支付后即可获取资源。整个流程完全程序化，无需人工干预。</div><div class="notion-text notion-block-331b9f4752ed8088aa7dfb411aa351c4"><b>技术集成：</b> Stripe用户只需几行代码即可通过PaymentIntents API接受MPP支付，支持稳定币和法币（信用卡、先买后付等），所有交易在Stripe仪表盘中与普通交易一样显示，共享相同的税务计算、欺诈保护、报告和退款基础设施。</div><div class="notion-text notion-block-331b9f4752ed809ea8fae40cd1586369"><b>早期应用案例：</b> 浏览器基础设施提供商允许agent按会话付费启动无头浏览器；有服务让agent付费打印和发送实体邮件；纽约的Prospect Butcher Co.甚至允许agent为人类订购三明治。</div><div class="notion-text notion-block-331b9f4752ed80fa9cd5f4fad427309e">MPP是Stripe更广泛的Agent Commerce Suite的一部分，还包括Agentic Commerce Protocol、MCP集成以及对MPP和x402的支付支持。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8038822accf648a1aa0e"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8004a4add69e5d673e67" data-id="331b9f4752ed8004a4add69e5d673e67"><span><div id="331b9f4752ed8004a4add69e5d673e67" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8004a4add69e5d673e67" title="Agent Package Manager"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://github.com/microsoft/apm">Agent Package Manager</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed809cb3c4d152a96325f6"><b>GitHub Repo</b></div><div class="notion-text notion-block-331b9f4752ed80099716f1e9fa483e44">📋 微软开源的Agent Package Manager（APM）是一个社区驱动的AI agent依赖管理器，类似于npm或pip但用于AI agent配置。开发者在apm.yml中声明agent依赖，克隆仓库后运行apm install即可获得完整配置，支持GitHub Copilot、Claude Code、Cursor和OpenCode。</div><details class="notion-toggle notion-block-331b9f4752ed80a29aa9c6dd06fb2901"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80d3a954c2dd6ff17401">微软发布的Agent Package Manager（APM）填补了AI agent开发中一个关键空白——配置的可移植性和可重现性。当前AI编程agent需要标准、提示、技能和插件等上下文来发挥作用，但每个开发者都需要手动设置，既不可移植也不可重现。</div><div class="notion-text notion-block-331b9f4752ed80e3abb6d87b6474fe95"><b>核心功能：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8036b9d7cb351042de14"><li><b>统一清单文件</b>：一个apm.yml文件管理所有指令、技能、提示、agent、hooks、插件和MCP服务器</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80a6b61ad91dfef6191b"><li><b>跨平台安装源</b>：支持从GitHub、GitLab、Bitbucket、Azure DevOps等任何git主机安装</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed808aa487f3bae8c63655"><li><b>传递依赖解析</b>：包可以依赖其他包，APM会解析完整的依赖树</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8086b718d562bcfe10c1"><li><b>多agent编译</b>：<code class="notion-inline-code">apm compile</code><a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://生成AGENTS.md">生成AGENTS.md</a>（GitHub Copilot/OpenCode）、<a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://CLAUDE.md">CLAUDE.md</a>（Claude Code）和.cursor/rules/（Cursor）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8074b561c8ebc5ed7b01"><li><b>安全审计</b>：<code class="notion-inline-code">apm audit</code>扫描隐藏Unicode字符，<code class="notion-inline-code">apm install</code>在agent读取前阻止受损包</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8015b700fe5ca025e3ed"><li><b>打包分享</b>：<code class="notion-inline-code">apm pack</code>将当前配置打包为压缩包</li></ul><div class="notion-text notion-block-331b9f4752ed803382f7e1994368d2c6">APM支持通过curl/irm一键安装，也可通过Homebrew、pip或Scoop安装，并提供GitHub Action用于CI/CD集成。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80b69b9afa70c7dfde16"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80478e4ae3df5528bb05" data-id="331b9f4752ed80478e4ae3df5528bb05"><span><div id="331b9f4752ed80478e4ae3df5528bb05" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80478e4ae3df5528bb05" title="Enterprise Vision-Language Models"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://github.com/baidubce/Qianfan-VL">Enterprise Vision-Language Models</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8078a2f8fdbb16b5176a"><b>GitHub Repo</b></div><div class="notion-text notion-block-331b9f4752ed801f8538d60b24a10f9e">📋 百度发布的千帆VL系列是面向企业的视觉语言模型家族，提供3B到70B参数的多种规模，针对文档解析、OCR和复杂视觉推理等工业场景进行了深度优化。最新发布的千帆OCR是一个4B端到端模型，在OmniDocBench和OCRBench上均排名第一，支持192种语言。</div><details class="notion-toggle notion-block-331b9f4752ed80e2a9d3f20c777c2049"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8016ae9cc5c31295aba1">百度发布的千帆VL（Qianfan-VL）系列是专为企业用户打造的领域增强型视觉语言模型，在保持通用多模态能力的同时，针对文档解析、OCR和复杂视觉推理等高频工业部署场景进行了深度优化。</div><div class="notion-text notion-block-331b9f4752ed8090bbb6d49e57ff69a8"><b>模型矩阵：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80b79ac6fa8476508334"><li><b>千帆VL-3B</b>：适用于边缘实时场景和OCR文字识别</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed802aa0d7c78b41c7217a"><li><b>千帆VL-8B</b>：适用于服务端通用场景和微调优化，支持链式思维推理</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed803a9b1df4ea60e87767"><li><b>千帆VL-70B</b>：适用于离线数据合成和复杂推理计算，支持链式思维推理</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8098a57cfd304eee5f26"><li><b>千帆OCR（4B）</b>：最新发布的端到端模型，统一了文档解析、版面分析、表格提取、公式识别、图表理解和关键信息提取</li></ul><div class="notion-text notion-block-331b9f4752ed8085b5e6c8f9442ac79b"><b>千帆OCR的核心创新——Layout-as-Thought：</b> 一个可选的⟨think⟩阶段，让模型在生成输出前先推理边界框、元素类型和阅读顺序，可理解为&quot;文档版面的思维链&quot;。</div><div class="notion-text notion-block-331b9f4752ed80cea033d8529b6830a0"><b>基准表现：</b> 千帆OCR在OmniDocBench v1.5上取得93.12分（端到端第一），OCRBench达到880分（所有模型中总体第一），KIE平均分87.9（超越Gemini-3.1-Pro和Qwen3-VL-235B）。在单块A100上达到1.024页/秒的处理速度（W8A8量化），支持拉丁、西里尔、阿拉伯、南亚、东南亚和CJK等192种语言的文字识别。</div><div class="notion-text notion-block-331b9f4752ed80478b7aec0bf78f79f4">整个模型系列基于百度自研昆仑P800芯片训练，使用5000+芯片的超大规模分布式训练系统，通过3D并行训练策略达到90%以上的集群扩展效率。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80f78bb5c93084a0fadb"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed806cae6ec681d433ddd6" data-id="331b9f4752ed806cae6ec681d433ddd6"><span><div id="331b9f4752ed806cae6ec681d433ddd6" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed806cae6ec681d433ddd6" title="🎁 杂项 / Miscellaneous"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🎁 杂项 / Miscellaneous</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80c28965e8e5f78eca15" data-id="331b9f4752ed80c28965e8e5f78eca15"><span><div id="331b9f4752ed80c28965e8e5f78eca15" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80c28965e8e5f78eca15" title="The Internet Ruined Customer Service. AI Could Save It."><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://a16z.com/the-internet-ruined-customer-service-ai-could-save-it/">The Internet Ruined Customer Service. AI Could Save It.</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80bf91c7d1187b9eb136"><b>13 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80fbba1bfb60703dc105">📋 a16z合伙人撰文指出，互联网让商业规模无限扩大，却让客户体验每况愈下，因为&quot;专注的关注&quot;只能线性扩展。AI将通过把高质量关注的边际成本降至接近零，让每家企业都能提供礼宾级服务。其投资的Decagon平台已为Delta、Hertz等大型企业实现超过80%的自主解决率。</div><details class="notion-toggle notion-block-331b9f4752ed80eb8b0ac77759bcb72c"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8047a41ec5ae3ac828e6">a16z合伙人从公元前1750年人类已知最早的客户投诉——古城乌尔的一块楔形文字泥板——开始，深刻剖析了客户服务的演变和AI即将带来的颠覆性变革。</div><div class="notion-text notion-block-331b9f4752ed8031981ddb7bc46264c0"><b>核心矛盾：</b> 互联网帮助商业实现了无限扩展（一键购买、次日达、海量选择），但客户体验却在恶化。原因在于物流可以指数级扩展，而&quot;专注的客户关注&quot;只能线性扩展——受限于企业雇用的人数。对于低ARPU的规模企业，客户服务不可避免地成为需要最小化的成本中心。</div><div class="notion-text notion-block-331b9f4752ed8024adc5da3b64b23da5"><b>两种商业模式：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80db9c38dc9edda5b57d"><li><b>规模型企业</b>（亚马逊、Uber、航空公司）：擅长物流和规模，但客户关系薄弱，提供IVR电话树和工单队列。每天至少有相当于366个人类寿命的时间浪费在处理客服问题上</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807fb661ccfb806601af"><li><b>礼宾型企业</b>（爱马仕、保时捷、奢华酒店）：围绕&quot;礼宾&quot;构建，提供个性化、主动、持续的服务，但仅限于高ARPU客户</li></ul><div class="notion-text notion-block-331b9f4752ed8021acf1cb3ce5d41b35"><b>AI的变革逻辑——杰文斯悖论：</b> 当某种资源的成本急剧下降且需求弹性足够大时，人们不会以相同数量消费并节省成本，而是消费大量更多。作者认为市场严重低估了对&quot;真正优质客户服务&quot;的巨大潜在需求。</div><div class="notion-text notion-block-331b9f4752ed8013865ec0d3bd6921cd"><b>AI如何重塑客户关系：</b> 当AI可以运行无限并行实例、拥有完整的客户历史记忆且边际成本接近零时，&quot;客户服务&quot;关系将从间歇性、被动、通用转变为持续性、主动、深度个性化——即礼宾模式。更关键的是，当AI礼宾了解客户并始终在线时，&quot;支持&quot;和&quot;商务&quot;之间的界限将消融，客服变成伪装的销售。</div><div class="notion-text notion-block-331b9f4752ed80789aaade081e95b29c"><b>Decagon案例：</b> 作为a16z的投资组合公司，Decagon已为100多家大型消费企业（包括Avis、Hertz、Cash App、Mercado Libre等）提供AI礼宾客户体验，实现超过80%的自主解决率，同时提高客户满意度并大幅降低成本。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80a3ac7fcfe2cefdc0e2"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8051a5a9d422b24979e8" data-id="331b9f4752ed8051a5a9d422b24979e8"><span><div id="331b9f4752ed8051a5a9d422b24979e8" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8051a5a9d422b24979e8" title="How To Make Sense Of AI"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://commoncog.com/how-to-make-sense-of-ai/">How To Make Sense Of AI</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed801f93fbd0b3917afd89"><b>17 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80faa65bfb040294af44">📋 Commoncog提出了一套面向商业运营者的AI信息感知方法论：忽略所有观点、预测和投机性文章，只关注详细的实践报告；在阅读时回答四个核心问题——新的可能结果、可采取的行动、结果对自己的相对价值、以及因果关系。这个方法帮助人们在AI浪潮中保持冷静和行动导向。</div><details class="notion-toggle notion-block-331b9f4752ed809cbf79cc5bc70e9815"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80f68c1dcea740ffa1b4">Commoncog创始人在这篇文章中提出了一套系统化的AI信息感知方法论，旨在帮助商业运营者在AI炒作浪潮中保持冷静和有效性。作者花了1.5年时间研究了从铁路到互联网等10个历史技术泡沫的历史，从中提炼出可通用的感知策略。</div><div class="notion-text notion-block-331b9f4752ed8075b75ed8189c6a65f9"><b>两条基本原则：</b></div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed80c78424dfceec2d235c" style="list-style-type:decimal"><li><b>注意力是有限资源</b>：感知的核心是调节注意力——知道该忽略什么，并有纪律去执行</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed8084bd5dc5723ae2661f" style="list-style-type:decimal"><li><b>结果导向</b>：将所有信息消费实践与具体结果挂钩，信息过载感会自然消失</li></ol><div class="notion-text notion-block-331b9f4752ed804baa7bda2e74fbe982"><b>核心方法三步走：</b></div><div class="notion-text notion-block-331b9f4752ed801ebcb7f7c0283ef38d"><b>第一步——过滤信号：</b> 忽略所有观点、分析、预测、投机性文章、&quot;来自未来的信&quot;、态势感知更新和情景预测。不管作者多聪明、多有说服力，一律忽略。</div><div class="notion-text notion-block-331b9f4752ed803c8e5bd419cf05b7ff"><b>第二步——只关注详细的实践报告：</b> 可以是推文、YouTube视频、博客等任何形式，但必须足够详细。对于包含观点和实践报告的混合内容，只提取实践报告部分，将主观部分视为&quot;朋友嗑药后的喃喃自语&quot;。</div><div class="notion-text notion-block-331b9f4752ed80e092a8f605935ca9b2"><b>第三步——回答不确定性的四个问题：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80579d23d33613a7340b"><li>(a) 这份报告暗示了什么新的可能结果？</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80aea7d9d88ed59e9ee2"><li>(b) 我可以采取哪些行动来回应？</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807393dad8588e113e03"><li>(c) 这些可能结果对我（考虑我的身份、公司业务、价值观和目标）的相对价值是什么？</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed803b8665cd0d2f7bc64d"><li>(d) 这里的因果关系是什么？</li></ul><div class="notion-text notion-block-331b9f4752ed8027b3e5fd8465b9fadc"><b>实际应用示例：</b> 作者以微软副CTO Sam Schillace关于&quot;复合团队&quot;的报告为例，展示了如何应用这四个问题。Schillace报告称有团队在没有一行人类编写代码的情况下以高速率产出可用软件，但需要约6个月的harness改进。由此得出的可能结果、行动方案和价值评估都是具体且可操作的。</div><div class="notion-text notion-block-331b9f4752ed80c9911eec9343d2eba3">文章强调，你不需要对&quot;AI对社会的影响&quot;或&quot;AI对就业的影响&quot;等宏观问题持有观点——你只需要关注AI对你的职业和生活结果的影响。这种方法可以推广到未来遇到的任何颠覆性新技术。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed805d8afed9755fd364e6"/><div class="notion-text notion-block-331b9f4752ed80b5b0c4fc7ff7cb6dbf"><em>生成于 2026-03-19 · 数据来源: TLDR AI Newsletter</em></div></main></div>]]></content:encoded>
        </item>
        <item>
            <title><![CDATA[今日AI: 2026-03-18]]></title>
            <link>https://timothyxlu.xyz/article/today-ai-20260318</link>
            <guid>https://timothyxlu.xyz/article/today-ai-20260318</guid>
            <pubDate>Sat, 28 Mar 2026 00:00:00 GMT</pubDate>
            <content:encoded><![CDATA[<div id="notion-article" class="mx-auto overflow-hidden "><main class="notion light-mode notion-page notion-block-331b9f4752ed80d58a19dac246546427"><div class="notion-viewport"></div><div class="notion-collection-page-properties"></div><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed80679a79e3bf0bdff184" data-id="331b9f4752ed80679a79e3bf0bdff184"><span><div id="331b9f4752ed80679a79e3bf0bdff184" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80679a79e3bf0bdff184" title="🚀 头条新闻 / Headlines &amp; Launches"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🚀 头条新闻 / Headlines &amp; Launches</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8096bd99dedcdbe15838" data-id="331b9f4752ed8096bd99dedcdbe15838"><span><div id="331b9f4752ed8096bd99dedcdbe15838" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8096bd99dedcdbe15838" title="Mistral Unveiled Forge"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://mistral.ai/news/forge?utm_source=tldrai">Mistral Unveiled Forge</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80f18e8deec4f1c6dca7"><b>6 minute read</b></div><div class="notion-text notion-block-331b9f4752ed805cb254fbaf9891b3bc">📋 Mistral 推出 Forge 平台，帮助企业和政府从零开始基于自有数据训练定制 AI 模型。与微调或 RAG 不同，Forge 支持预训练、后训练和强化学习全流程，使模型能够内化企业专有知识、术语和工作流程，从而实现更高的战略自主性和数据控制。</div><details class="notion-toggle notion-block-331b9f4752ed80d08cfad78e4210d8ad"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed803ab87ae40b60470891">Mistral 今天发布了 Forge 平台，定位为企业级 AI 模型构建系统。该平台的核心理念是：当前大多数 AI 模型主要基于公开数据训练，无法真正理解企业内部的工程标准、合规政策、代码库和运营流程。Forge 旨在弥合通用 AI 与企业特定需求之间的差距。</div><div class="notion-text notion-block-331b9f4752ed808da55dfc32e07fd358"><b>训练能力方面</b>，Forge 支持三个关键阶段：预训练允许企业从大规模内部数据集构建领域感知模型；后训练方法让团队可以针对特定任务微调模型行为；强化学习则帮助企业将模型和智能代理与内部政策、评估标准对齐，同时提升复杂编排、工具使用和决策等能力。</div><div class="notion-text notion-block-331b9f4752ed80a3af85c78506490e6b"><b>战略自主性方面</b>，Forge 允许企业在自己的基础设施环境中构建和运营模型，保留对知识编码和使用方式的完全控制。在受监管行业中，这种控制尤为关键，企业必须确保模型符合合规要求和内部治理框架。</div><div class="notion-text notion-block-331b9f4752ed805f8c64ed79b4bde61f"><b>代理可靠性方面</b>，Forge 训练的定制模型能让企业智能代理更好地理解内部术语、遵循操作流程、精确选择工具，并在多步骤工作流中保持可靠性。这意味着代理可以从简单助手升级为企业系统的运营组件。</div><div class="notion-text notion-block-331b9f4752ed8074a8f1e8274f8666e1">Forge 支持密集和混合专家（MoE）两种架构，以及多模态输入。Mistral 已与 ASML、新加坡 DSO 国家实验室、爱立信、欧洲航天局等世界领先组织合作部署。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80c88f43c74bcfa9af9d"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed800d9498f3cd4d1aa815" data-id="331b9f4752ed800d9498f3cd4d1aa815"><span><div id="331b9f4752ed800d9498f3cd4d1aa815" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed800d9498f3cd4d1aa815" title="GPT-5.4 Mini and Nano"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/8RLwHe">GPT-5.4 Mini and Nano</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8032a189e9783bb7f282"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80b39fc3d1d5980cc05c">📋 OpenAI 发布 GPT-5.4 mini 和 nano，两款针对高吞吐工作负载优化的小型模型。GPT-5.4 mini 相比 GPT-5 mini 大幅提升，在编码、推理和工具使用方面接近更大的 GPT-5.4 模型，同时速度提升超过 2 倍；nano 则面向分类、数据提取和排序等轻量级任务。</div><details class="notion-toggle notion-block-331b9f4752ed80bc942dd8174bd8df28"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80e5a560cf840e857752">OpenAI 今天发布了 GPT-5.4 mini 和 nano，这是其迄今最强的小型模型系列，专为延迟敏感的高吞吐量场景设计。</div><div class="notion-text notion-block-331b9f4752ed8088aaaed6a26f0e3efb"><b>GPT-5.4 mini</b> 在编码、推理、多模态理解和工具使用方面全面超越 GPT-5 mini，运行速度提升超过 2 倍。在 SWE-Bench Pro 上达到 54.4%（GPT-5 mini 为 45.7%），OSWorld-Verified 上达到 72.1%（接近 GPT-5.4 的 75.0%）。该模型特别适用于需要快速响应的编码助手、并行执行子任务的子代理，以及需要实时解析截图的计算机使用场景。</div><div class="notion-text notion-block-331b9f4752ed804dbd0ff55b54266104"><b>GPT-5.4 nano</b> 是最小最便宜的版本，面向分类、数据提取、排序等任务，以及处理简单辅助任务的编码子代理。</div><div class="notion-text notion-block-331b9f4752ed80238fe5e329db97809a"><b>子代理模式</b> 是这次发布的一大亮点：在 Codex 中，GPT-5.4 可以负责规划和协调，同时将搜索代码库、审查文件等子任务委派给 GPT-5.4 mini 并行执行。这种大小模型协作的模式随着小模型能力提升而变得越来越实用。</div><div class="notion-text notion-block-331b9f4752ed80edb578d95017c6b3a8"><b>定价方面</b>，GPT-5.4 mini 支持 400K 上下文窗口，API 价格为每百万输入 token 0.75 美元，每百万输出 token 4.50 美元。已在 API、Codex 和 ChatGPT 中上线。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80a98b7ec9ee761bd541"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80a59a1df91289c14f1e" data-id="331b9f4752ed80a59a1df91289c14f1e"><span><div id="331b9f4752ed80a59a1df91289c14f1e" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80a59a1df91289c14f1e" title="Aristotle Agent"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://threadreaderapp.com/thread/2034028065513451594.html?utm_source=tldrai">Aristotle Agent</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed805f9717d57d6a6e4b5b"><b>1 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80ee953cc887d6d7571d">📋 Harmonic 推出 Aristotle Agent，一款自主数学家 AI 代理，能够自主求解和形式化世界最具挑战性的数学研究问题。它在 ProofBench 上排名第一，领先最近竞争者 15%，可连续自主工作长达 24 小时，现已通过 Web、CLI 和 API 免费提供。</div><details class="notion-toggle notion-block-331b9f4752ed800290f8dcc375740bd7"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80afab04d9b0c40a5296">Harmonic 发布了 Aristotle Agent，自称是全球首个自主数学家 AI。该系统专为解决和形式化最具挑战性的数学研究问题而设计，具备以下核心能力：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed801fa1f8d32c989f3b4e"><li><b>形式化数学第一名</b>：在 ValsAI 的 ProofBench 基准测试中排名第一，领先最近竞争者 15%，能够在无人干预的情况下自主进行证明和形式化长达 24 小时。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed808bb25ddfa52623585b"><li><b>完全代理化</b>：给定一个英文数学问题，它可以从零开始证明和形式化，也可以直接在用户的 Lean 项目或代码仓库中编辑文件。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80e0baa9ce59af60bf65"><li><b>生产级代码</b>：Aristotle Agent 生成的代码达到仓库级质量，项目负责人越来越多地直接合并其提交的 PR，无需修改。</li></ul><div class="notion-text notion-block-331b9f4752ed80989c15c9c309902e4a">该系统现已通过 Web 界面（<a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://aristotle.harmonic.fun">aristotle.harmonic.fun</a>）、CLI 和 API 三种方式提供，目前完全免费使用。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8094856cc3cd53be88b5"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed80cdaebfd2d3ef87d087" data-id="331b9f4752ed80cdaebfd2d3ef87d087"><span><div id="331b9f4752ed80cdaebfd2d3ef87d087" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80cdaebfd2d3ef87d087" title="🧠 深度分析 / Deep Dives &amp; Analysis"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧠 深度分析 / Deep Dives &amp; Analysis</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed809aab7ad4046b3f5d2a" data-id="331b9f4752ed809aab7ad4046b3f5d2a"><span><div id="331b9f4752ed809aab7ad4046b3f5d2a" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed809aab7ad4046b3f5d2a" title="Building Claude Code: How We Use Skills"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/gJPATV">Building Claude Code: How We Use Skills</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80019a28de1312b94760"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80aa82f3f8fb09c5cd03">📋 Anthropic 分享了内部使用 Claude Code Skills 的经验总结。Skills 不仅仅是 markdown 文件，而是包含脚本和资产的功能文件夹。文章将数百个 Skills 归为九大类别，并指出产品验证和&quot;陷阱&quot;（Gotchas）部分是提升输出可靠性的最高杠杆组件。</div><details class="notion-toggle notion-block-331b9f4752ed80bab886c30b112df17d"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed808fb737dd26ebc36ffe">Anthropic 工程师 Thariq 分享了公司内部大规模使用 Claude Code Skills 的经验。Skills 是 Claude Code 最常用的扩展点之一，Anthropic 内部有数百个处于活跃使用中。</div><div class="notion-text notion-block-331b9f4752ed80ca9b68eca2245d5c3e"><b>Skills 的本质</b>：常见的误解是 Skills &quot;只是 markdown 文件&quot;，实际上它们是文件夹，可以包含脚本、资产、数据等，代理可以发现、探索和操作这些资源。Claude Code 还支持丰富的配置选项，包括注册动态钩子。</div><div class="notion-text notion-block-331b9f4752ed802d8daacd2afbfa9c81"><b>九大类别</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed808db4fcdd33f84b9e69" style="list-style-type:decimal"><li><b>库和 API 参考</b> — 解释如何正确使用内部或外部库</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed8082a97bd63ea0f11f39" style="list-style-type:decimal"><li><b>产品验证</b> — 描述如何测试和验证代码（最有价值的类别之一）</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-331b9f4752ed80ccb945f064e127e969" style="list-style-type:decimal"><li><b>数据获取与分析</b> — 连接数据和监控平台</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-331b9f4752ed80dfbabce95b4a517a5a" style="list-style-type:decimal"><li><b>业务流程与团队自动化</b> — 将重复工作流自动化为一个命令</li></ol><ol start="5" class="notion-list notion-list-numbered notion-block-331b9f4752ed80a4b9f8e13c333447e7" style="list-style-type:decimal"><li><b>代码脚手架与模板</b> — 为代码库中特定功能生成样板代码</li></ol><ol start="6" class="notion-list notion-list-numbered notion-block-331b9f4752ed80de90a5daf3a9fc7535" style="list-style-type:decimal"><li><b>代码质量与审查</b> — 强制执行代码质量标准</li></ol><ol start="7" class="notion-list notion-list-numbered notion-block-331b9f4752ed803ca35ff7df680f3eac" style="list-style-type:decimal"><li><b>CI/CD 与部署</b> — 帮助获取、推送和部署代码</li></ol><ol start="8" class="notion-list notion-list-numbered notion-block-331b9f4752ed805c9eb7dfe2100c0a88" style="list-style-type:decimal"><li><b>运维手册</b> — 从症状出发进行多工具调查</li></ol><ol start="9" class="notion-list notion-list-numbered notion-block-331b9f4752ed8011a468fec688c85f53" style="list-style-type:decimal"><li><b>基础设施运维</b> — 执行日常维护和操作</li></ol><div class="notion-text notion-block-331b9f4752ed802892c1e831e79d3200"><b>最佳实践</b>：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed800fa281f3cd4628f859"><li><b>不要陈述显而易见的事</b> — Claude 已经知道很多，专注于推动其突破默认思维的信息</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80aba15aebd47943180d"><li><b>构建 Gotchas 部分</b> — 这是任何 Skill 中信号最强的内容，应随时间积累常见失败点</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed803d8b65cf977043535f"><li><b>利用文件系统进行渐进式披露</b> — 将详细信息放在子文件中，让 Claude 按需读取</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed809795e5edb1fe21c324"><li><b>避免过度约束 Claude</b> — 提供信息但保留灵活性</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed800b8475fad861cded9b"><li><b>描述字段是给模型看的</b> — 用于触发判断，不是人类摘要</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8090bf99f49dffa4dc5e"><li><b>利用 on-demand hooks</b> — 仅在调用技能时激活的钩子</li></ul><div class="notion-text notion-block-331b9f4752ed80fbba56d104f3d9a7a0"><b>分发</b>：可以将 Skills 检入仓库或通过内部插件市场分发。规模化时，市场允许团队自行选择安装。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed807994dcf01d6dc8d8c1"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed806fb57fcb456c10d3a7" data-id="331b9f4752ed806fb57fcb456c10d3a7"><span><div id="331b9f4752ed806fb57fcb456c10d3a7" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed806fb57fcb456c10d3a7" title="How to Stop Your Autoresearch Loop from Cheating"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/2sUCjr">How to Stop Your Autoresearch Loop from Cheating</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8011a697cf30f87d3e29"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed804f8f02ed127cfa175f">📋 作者通过 71 次实验探索 Karpathy 的 autoresearch 框架，发现环境设计和严格验证门控比模型选择更重要。独立模型在结构化搜索空间中发现了相同的优化方案，但主要瓶颈在于基础设施故障和被拒提案导致的 GPU 浪费。</div><details class="notion-toggle notion-block-331b9f4752ed80ceb50ef40adc51d89e"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80e29af7fa7c74ae4298">文章详细记录了使用 Karpathy 的 autoresearch 框架进行的两组实验，总计 71 次，揭示了 AI 自主研究的真实挑战。</div><div class="notion-text notion-block-331b9f4752ed808dbc26ffc2e2d7dd6d"><b>实验一：训练优化</b>。作者构建了 codex-autoresearch-harness，将 Codex 包装在 bash 循环中，对 GPT-5.4 和 Codex-Spark 两个模型进行 A/B 测试。关键发现：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80bf8277e31fc03658bd"><li>两个独立模型不约而同地发现了<b>学习率预热衰减调度</b>作为主要优化杠杆，这表明搜索空间具有真实结构</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed802ab419e27ae20beeaf"><li>GPT-5.4 的提案接受率为 67%，Spark 仅为 17%。Spark 虽然每次调用快 35 秒，尝试了近两倍数量的提案，但大多数是浪费的训练运行</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8038b139c87e9fe7c1ea"><li><b>提案质量</b>比速度更重要：每个被拒提案都浪费 5 分钟 GPU 时间</li></ul><div class="notion-text notion-block-331b9f4752ed80d38da1d59835187f7d"><b>实验二：推理优化</b>。目标是将 2.5 TB 的 Kimi-k2.5 模型装入价值 8000 美元的消费级 GPU（8 块 RTX 3090，共 192 GB）。</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed803ca8ccef601c8a0d1b"><li>静态压缩阶段成功将模型从 717 GB 压缩到 92 GB（7.8 倍压缩）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80c29760e69248ebd6bc"><li>动态专家交换阶段发现，每层 256 个专家中只有约 19 个（7.6%）承载了 50% 的路由流量</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8069a446d5c34af90ba2"><li>但代理发生了<b>漂移</b>：12 小时无人值守后，它偏离原始目标，开始自行研究&quot;需要多少权重才能维持 95% 准确率&quot;，而非优化内存使用</li></ul><div class="notion-text notion-block-331b9f4752ed80b7adacd8b8a65a2db5"><b>核心教训</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed80988e14dc48a348da65" style="list-style-type:decimal"><li>不同代理会收敛到相同答案 — autoresearch 发现的是真实结构而非噪声</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed80afb1eeea02b56b36c4" style="list-style-type:decimal"><li>提案质量决定总成本 — 少而精胜过多而杂</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-331b9f4752ed8066aa17fa60683d2f35" style="list-style-type:decimal"><li><b>环境设计比模型选择更重要</b> — 同样的代理在紧密约束下产生干净结果，在松散约束下几小时内就会漂移</li></ol><div class="notion-text notion-block-331b9f4752ed80bbbf63d7b37821ba09">所有代码已开源：codex-autoresearch-harness 和 reap-expert-swap。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80f8ae10c45d74f8f71c"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed8001a920e19c3c1dd00a" data-id="331b9f4752ed8001a920e19c3c1dd00a"><span><div id="331b9f4752ed8001a920e19c3c1dd00a" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8001a920e19c3c1dd00a" title="🧑‍💻 工程与研究 / Engineering &amp; Research"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧑‍💻 工程与研究 / Engineering &amp; Research</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80fb8da8cc22847db355" data-id="331b9f4752ed80fb8da8cc22847db355"><span><div id="331b9f4752ed80fb8da8cc22847db355" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80fb8da8cc22847db355" title="Measuring Progress Toward AGI: A Cognitive Framework"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/?utm_source=tldrai">Measuring Progress Toward AGI: A Cognitive Framework</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8052ac89ecb708cc9256"><b>3 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8032a081c0fd4bf8cc6f">📋 Google DeepMind 发布论文提出认知分类法来衡量 AI 迈向 AGI 的进展，识别了感知、学习、推理等 10 项关键认知能力，并提出三阶段评估协议。同时联合 Kaggle 启动 20 万美元奖金的黑客松，邀请研究者为五项评估不足的能力开发基准测试。</div><details class="notion-toggle notion-block-331b9f4752ed80bd8c3bd29f218f774f"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed807ca4c4d2d7371af07a">Google DeepMind 发布了名为&quot;Measuring Progress Toward AGI: A Cognitive Taxonomy&quot;的论文，基于心理学、神经科学和认知科学数十年的研究，构建了一套科学框架来理解 AI 系统的认知能力。</div><div class="notion-text notion-block-331b9f4752ed803ca5d9d7f1f10adcb5"><b>10 项关键认知能力</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed8030bd3fe911c2f66b8d" style="list-style-type:decimal"><li>感知（Perception）— 从环境中提取和处理感官信息</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed80a3bd67c4e1c0039163" style="list-style-type:decimal"><li>生成（Generation）— 产生文本、语音和行动等输出</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-331b9f4752ed802ab435cc9ad7e62ab1" style="list-style-type:decimal"><li>注意力（Attention）— 将认知资源集中在重要事物上</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-331b9f4752ed80e0bafec59fda38d59a" style="list-style-type:decimal"><li>学习（Learning）— 通过经验和指令获取新知识</li></ol><ol start="5" class="notion-list notion-list-numbered notion-block-331b9f4752ed80cd9128f98d728b99d6" style="list-style-type:decimal"><li>记忆（Memory）— 存储和检索信息</li></ol><ol start="6" class="notion-list notion-list-numbered notion-block-331b9f4752ed80d1a9c1cc1605933e63" style="list-style-type:decimal"><li>推理（Reasoning）— 通过逻辑推断得出有效结论</li></ol><ol start="7" class="notion-list notion-list-numbered notion-block-331b9f4752ed80ea94b4f189ea201ba2" style="list-style-type:decimal"><li>元认知（Metacognition）— 对自身认知过程的监控和认知</li></ol><ol start="8" class="notion-list notion-list-numbered notion-block-331b9f4752ed80fab4caf74dafdb059a" style="list-style-type:decimal"><li>执行功能（Executive Functions）— 规划、抑制和认知灵活性</li></ol><ol start="9" class="notion-list notion-list-numbered notion-block-331b9f4752ed80a69d09ef86f2c2beec" style="list-style-type:decimal"><li>问题求解（Problem Solving）— 寻找特定领域问题的有效解决方案</li></ol><ol start="10" class="notion-list notion-list-numbered notion-block-331b9f4752ed80fc98fcee6ff83257d3" style="list-style-type:decimal"><li>社会认知（Social Cognition）— 处理和解读社交信息</li></ol><div class="notion-text notion-block-331b9f4752ed80d1873fe7d69de38e1b"><b>三阶段评估协议</b>：在广泛的认知任务中评估 AI → 从具有人口统计代表性的成人样本收集人类基线 → 将 AI 表现映射到人类表现分布中。</div><div class="notion-text notion-block-331b9f4752ed8049aa79ca74af48e4e9"><b>Kaggle 黑客松</b>：奖金池 20 万美元，征集学习、元认知、注意力、执行功能和社会认知五个评估缺口最大领域的基准测试。参赛者可使用 Kaggle 新推出的 Community Benchmarks 平台。提交截止日期为 4 月 16 日，结果将于 6 月 1 日公布。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed805db69ad0652c27eaea"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80188a3df6b4c85bff30" data-id="331b9f4752ed80188a3df6b4c85bff30"><span><div id="331b9f4752ed80188a3df6b4c85bff30" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80188a3df6b4c85bff30" title="Cursor Trains Models to Self-Summarize Context"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://cursor.com/blog/self-summarization?utm_source=tldrai">Cursor Trains Models to Self-Summarize Context</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed805bb3eef2f62985cc9c"><b>9 minute read</b></div><div class="notion-text notion-block-331b9f4752ed805d9cfecfd32fb2bded">📋 Cursor 介绍了其 Composer 模型的自我总结训练方法：通过强化学习让模型学会在长编码会话中自动压缩早期上下文为更短的表示，从而延长有效工作记忆。与精心设计的提示压缩基线相比，自我总结将压缩误差降低 50%，同时仅使用五分之一的 token。</div><details class="notion-toggle notion-block-331b9f4752ed800c833bda69e6c4a2fc"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80e88afbf3dd5ffcc871">Cursor 发表了关于 Composer 模型长期任务能力的技术文章，核心创新是将上下文压缩作为训练行为而非外部工具。</div><div class="notion-text notion-block-331b9f4752ed80dbb633f16c743515d2"><b>问题背景</b>：随着用户用 AI 代理处理越来越复杂的任务，代理轨迹的增长速度超过了模型的上下文长度。现有的压缩方法（提示式摘要或滑动窗口）都会导致模型遗忘关键信息。</div><div class="notion-text notion-block-331b9f4752ed8010b139d50641263ad9"><b>自我总结机制</b>：</div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed8044a665fa48a54b4a37" style="list-style-type:decimal"><li>Composer 生成内容直到达到固定 token 长度触发点</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed80269c0cf536ca511578" style="list-style-type:decimal"><li>插入合成查询要求模型总结当前上下文</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-331b9f4752ed80fa8524e024908763aa" style="list-style-type:decimal"><li>模型获得思考空间来决定最佳摘要，然后生成压缩上下文</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-331b9f4752ed806d921bd6986564f6da" style="list-style-type:decimal"><li>使用压缩上下文（包括摘要、计划状态、剩余任务等）循环回步骤 1</li></ol><div class="notion-text notion-block-331b9f4752ed80d0a5ced963b3a70caf">关键在于这个过程被融入训练循环：每个训练 rollout 可以包含多个由摘要串联的生成，而非单一的提示-响应对。最终奖励应用于链中的所有 token，好的摘要被强化，丢失关键信息的差摘要被弱化。</div><div class="notion-text notion-block-331b9f4752ed8098999cf783eef9d344"><b>实验结果</b>：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed802d8fe5e8a5504513ed"><li>精心设计的提示压缩基线需要数千 token 的提示和平均 5000+ token 的输出</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8032b623ff6a63f39ae6"><li>自我总结仅需简短提示（&quot;请总结对话&quot;），输出平均仅约 1000 token</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8036815fd7d4ce81ce61"><li>在 80K 和 40K 两种上下文约束环境中，自我总结<b>将压缩误差降低 50%</b>，同时使用五分之一的 token 并复用 KV 缓存</li></ul><div class="notion-text notion-block-331b9f4752ed8032a44ed1ed0429a10b"><b>案例</b>：在 Terminal-Bench 2.0 的 &quot;make-doom-for-mips&quot; 问题上，Composer 通过 170 轮迭代成功求解，期间将超过 10 万 token 自我总结为仅 1000 token 的关键信息。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8069af4ef5edf93e8c2d"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80799a0ecbea549766cb" data-id="331b9f4752ed80799a0ecbea549766cb"><span><div id="331b9f4752ed80799a0ecbea549766cb" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80799a0ecbea549766cb" title="Introducing Unsloth Studio"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://unsloth.ai/docs/new/studio?utm_source=tldrai">Introducing Unsloth Studio</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed801da782d6d4ac0c9bfb"><b>7 minute read</b></div><div class="notion-text notion-block-331b9f4752ed805ba168ebf5719c2c87">📋 Unsloth Studio 是一款开源无代码 Web UI，可在本地训练、运行和导出开源模型。支持在 Mac、Windows 和 Linux 上本地运行 GGUF 和 safetensor 模型，可处理文本、视觉、TTS 音频和嵌入模型，还能从 PDF、CSV 等文件自动创建数据集。</div><details class="notion-toggle notion-block-331b9f4752ed800c888de1299df96c9f"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80d9b724f2f8ab79d2fd">Unsloth 推出了 Studio Beta 版本，这是一个统一的本地 AI 模型工作台，将运行、训练和导出整合到一个界面中。</div><div class="notion-text notion-block-331b9f4752ed80268bb8e3936770fcf9"><b>核心功能</b>：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8070b5e5d0c88d35f0be"><li><b>本地模型运行</b>：搜索并运行 GGUF 和 safetensor 模型，支持自愈工具调用、网页搜索、自动推理参数调优和代码执行。支持上传图像、文档、音频和代码文件。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed803b9c1ac4292150d7ab"><li><b>无代码训练</b>：上传 PDF、CSV、JSON 文档或 YAML 配置即可开始训练。Unsloth 的内核优化了 LoRA、FP8、FFT、PT，支持 500+ 种文本、视觉、TTS/音频和嵌入模型。使用 NVIDIA GPU 时比标准方法快 2 倍，VRAM 减少 70%。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80259680edde2a2bc308"><li><b>Data Recipes</b>：通过图-节点工作流将非结构化文档转换为可用/合成数据集，由 NVIDIA Nemo Data Designer 支持。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80dabe76e2b6e3a67615"><li><b>可观测性</b>：实时追踪训练损失、梯度范数和 GPU 利用率，甚至可在手机上查看训练进度。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8002938edfab5d297270"><li><b>模型导出</b>：导出为 safetensors 或 GGUF，兼容 llama.cpp、vLLM、Ollama、LM Studio 等。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8019b9fbebd974ba7e14"><li><b>模型竞技场</b>：并排对比两个模型（如基础模型和微调模型）的输出差异。</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed804da8cccfa36b295782"><li><b>隐私优先</b>：可 100% 离线本地使用，支持 token 认证和 JWT 安全机制。</li></ul><div class="notion-text notion-block-331b9f4752ed80b89c8be18d21e6abef"><b>平台支持</b>：Windows、Linux、WSL 完全支持；MacOS 目前仅支持聊天推理，MLX 训练即将推出；AMD GPU 支持聊天，可通过 Unsloth Core 训练。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80fb80acf90883d760dd"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80d3a7bbcb7a425d4170" data-id="331b9f4752ed80d3a7bbcb7a425d4170"><span><div id="331b9f4752ed80d3a7bbcb7a425d4170" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80d3a7bbcb7a425d4170" title="Mixture-of-Depths Attention (MoDA)"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://github.com/hustvl/MoDA?utm_source=tldrai">Mixture-of-Depths Attention (MoDA)</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed805d8bd8e28ce954013f"><b>GitHub Repo</b></div><div class="notion-text notion-block-331b9f4752ed807f9c53e06e4e672f59">📋 MoDA 引入了一种新的注意力机制，允许每个注意力头同时访问当前层和前序层的键值对，帮助在模型深度增加时保留有用信号。在 1.5B 参数模型上，MoDA 在 10 个下游任务上平均提升 2.11%，仅增加 3.7% 的计算开销。</div><details class="notion-toggle notion-block-331b9f4752ed800184cfc919b1757955"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed803eac80dd0b03dc4842">华中科技大学和字节跳动联合提出了混合深度注意力（Mixture-of-Depths Attention, MoDA），解决深层大语言模型中的信号退化问题。</div><div class="notion-text notion-block-331b9f4752ed80cabd56c62870e998c1"><b>核心问题</b>：随着 LLM 深度增加，浅层形成的信息特征会被反复残差更新逐渐稀释，使深层更难恢复这些有用信号。</div><div class="notion-text notion-block-331b9f4752ed8001ab53f860cbcbe983"><b>MoDA 机制</b>：允许每个注意力头同时关注当前层的序列 KV 对和前序层的深度 KV 对。论文还描述了一种硬件高效算法，解决了非连续内存访问模式，在 64K 序列长度时达到 FlashAttention-2 效率的 97.3%。</div><div class="notion-text notion-block-331b9f4752ed8047886bc55803d23349"><b>优化实现</b>：Chunk/Group-aware MoDA 按 chunk 大小分组查询并重组深度 KV，将有效深度跨度从 T×L 减少到 (C×L)/G，提高计算效率并减少内存访问开销。</div><div class="notion-text notion-block-331b9f4752ed8052b807fb2d9bfe76ba"><b>实验结果</b>（1.5B 参数模型，400B token 训练）：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed806e81a3cb983e2a8b00"><li>10 个验证基准上平均困惑度提升 0.2</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80c48d90ffafd708c46e"><li>10 个下游任务上平均性能提升 2.11%</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8061854ae4b5c7f92804"><li>仅增加 3.7% 的 FLOPs 计算开销</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8066afa7fd3044f333e4"><li>MoDA 与 post-norm 结合的效果优于 pre-norm</li></ul><div class="notion-text notion-block-331b9f4752ed806eb0d6e4a7be05ac49">代码即将开源，包括 Triton 内核和完整训练配方。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80faa580dc50b669cbd0"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed809a9917e4b161773b6b" data-id="331b9f4752ed809a9917e4b161773b6b"><span><div id="331b9f4752ed809a9917e4b161773b6b" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed809a9917e4b161773b6b" title="🎁 杂项 / Miscellaneous"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🎁 杂项 / Miscellaneous</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8049a8f7f3c4c6ab0416" data-id="331b9f4752ed8049a8f7f3c4c6ab0416"><span><div id="331b9f4752ed8049a8f7f3c4c6ab0416" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8049a8f7f3c4c6ab0416" title="Nvidia Says It Is Restarting Production of AI Chips for Sale in China"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/mHILH1">Nvidia Says It Is Restarting Production of AI Chips for Sale in China</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8048b4d2d5449d7fd550"><b>3 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80a6ae2ddd915e1380b2">📋 Nvidia CEO 黄仁勋在 GTC 大会上宣布已重启 H200 处理器的中国销售生产。美国去年 12 月批准 Nvidia 在中国销售 H200，条件是 25% 的销售额上交美国政府。黄仁勋表示近几周中国的需求信号已增强，供应链正在启动。</div><details class="notion-toggle notion-block-331b9f4752ed80bd9518f5aa8fc3b40c"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80b38053d6443c05d608">Nvidia CEO 黄仁勋周二在公司 GTC 大会上宣布，Nvidia 已重启 H200 处理器的制造以在中国销售，标志着这家芯片巨头在全球第二大市场的命运可能出现转折。</div><div class="notion-text notion-block-331b9f4752ed80c9aad0d5c38c896a86"><b>背景回顾</b>：Nvidia 与特朗普政府在中国 AI 芯片销售问题上经历了复杂的博弈。去年 4 月，商务部叫停了专为中国市场设计的 H20 处理器出口，8 月又撤回禁令。但中国官方劝阻国内客户购买 H20，同时 Nvidia 在为更先进的 Blackwell 芯片申请许可。去年 8 月底，Nvidia 停止了 H20 的生产。</div><div class="notion-text notion-block-331b9f4752ed80958c54e9ccf7b9e4e7"><b>转折点</b>：去年 12 月，美国表示允许 Nvidia 在中国销售 H200（比其最强 GPU 落后一代），条件是分享 25% 的销售额。今年 1 月黄仁勋访华后，中国官方也表示将批准 H200 销售。</div><div class="notion-text notion-block-331b9f4752ed80729eb0d79b3b9c7cb1"><b>最新进展</b>：黄仁勋表示近几周来自中国的需求信号增强，已获得多个中国客户的许可和采购订单，正在重启制造流程，供应链正在启动。Nvidia 未透露预期的中国 H200 销售收入，但此前曾表示中国 AI 处理器市场每年可能价值数百亿美元。</div><div class="notion-text notion-block-331b9f4752ed801f8e76de6e6de95b26">不过，该消息未能提振 Nvidia 股价，周二收盘下跌 0.7% 至 181.93 美元。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80e094c1d8833877a235"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80a4a03ede5a5f8c0433" data-id="331b9f4752ed80a4a03ede5a5f8c0433"><span><div id="331b9f4752ed80a4a03ede5a5f8c0433" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80a4a03ede5a5f8c0433" title="Microsoft Seeks More Coherence in AI Efforts with Copilot Reorganization"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/q26Ako">Microsoft Seeks More Coherence in AI Efforts with Copilot Reorganization</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8040ba3fdbffbf114287"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed807796dad0f76714fffd">📋 微软正在重组 Copilot AI 产品团队，将 Microsoft 365 Copilot 和消费者版 Copilot 的团队统一。Jacob Andreou 将成为 Copilot 执行副总裁，而 AI 首席执行官 Mustafa Suleyman 将专注于自有模型和实现超级智能。此举旨在解决用户对多版本 Copilot 的困惑。</div><details class="notion-toggle notion-block-331b9f4752ed80979356f51b42d9e9c6"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80b980e4cf3252b865c2">微软正在进行一次重大的 AI 产品团队重组，改变其此前导致&quot;脱节用户体验和消费者困惑&quot;的策略。</div><div class="notion-text notion-block-331b9f4752ed8020ab79ffe4c7249bfe"><b>重组内容</b>：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80599521e1746b65792b"><li>统一 Microsoft 365 Copilot（商业版）和消费者版 Copilot 的团队，不再区分商业和消费者产品</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80179c50ecabc62af774"><li>Jacob Andreou（Microsoft AI 产品和增长负责人）将升任 Copilot 执行副总裁，全面负责设计、产品、增长和工程</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed801ebde4df0a477752c5"><li>Mustafa Suleyman（Microsoft AI 首席执行官）将专注于公司自有 AI 模型和&quot;超级智能&quot;目标</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807bbf22d9f691d07a97"><li>Microsoft 365 应用将由包括 LinkedIn CEO Ryan Roslansky 在内的高管团队领导</li></ul><div class="notion-text notion-block-331b9f4752ed80948294ec8fe8aecf24"><b>背景问题</b>：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80ce9254cf2f0543fec2"><li>Microsoft 365 Copilot 仅售出 1500 万个&quot;席位&quot;，而 Microsoft 365 拥有 4.5 亿+ 付费用户</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80c6b1eaf513d5c4c83c"><li>消费者版 Copilot 月活约 1.5 亿，远落后于 Google Gemini（6.5 亿+月活）和 ChatGPT（约 9 亿周活）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8062971ad3ccb462e6b7"><li>微软内部调查显示用户对多版本 Copilot 感到困惑</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed806ba0eef52b9e86a7e3"><li>Suleyman 领导的自有模型训练受到计算容量不足的限制，在基准测试中远落后于竞争对手</li></ul><div class="notion-text notion-block-331b9f4752ed805e86e3eab0345c5754"><b>CEO 纳德拉的目标</b>：新架构将使微软能够提供更一致、更具竞争力的体验，并随着 AI 模型的进步而演进。他强调 AI 模型对公司未来十年的成功至关重要。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8003b02cfa5c71797df0"/><div class="notion-text notion-block-331b9f4752ed80a69c13ebc19a4961d7"><em>生成于 2026-03-18 · 数据来源: TLDR AI Newsletter</em></div></main></div>]]></content:encoded>
        </item>
        <item>
            <title><![CDATA[今日AI: 2026-03-17]]></title>
            <link>https://timothyxlu.xyz/article/today-ai-20260317</link>
            <guid>https://timothyxlu.xyz/article/today-ai-20260317</guid>
            <pubDate>Sat, 28 Mar 2026 00:00:00 GMT</pubDate>
            <content:encoded><![CDATA[<div id="notion-article" class="mx-auto overflow-hidden "><main class="notion light-mode notion-page notion-block-331b9f4752ed80da850debd3de59a7b9"><div class="notion-viewport"></div><div class="notion-collection-page-properties"></div><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed80ca815cfa0cef6b9d17" data-id="331b9f4752ed80ca815cfa0cef6b9d17"><span><div id="331b9f4752ed80ca815cfa0cef6b9d17" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80ca815cfa0cef6b9d17" title="🚀 头条新闻 / Headlines &amp; Launches"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🚀 头条新闻 / Headlines &amp; Launches</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed800dae2dd4c01439e30c" data-id="331b9f4752ed800dae2dd4c01439e30c"><span><div id="331b9f4752ed800dae2dd4c01439e30c" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed800dae2dd4c01439e30c" title="NVIDIA Expanded Its AI Stack Across Models, Agents, And Robotics"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://nvidianews.nvidia.com/online-press-kit/gtc-2026-news?utm_source=tldrai">NVIDIA Expanded Its AI Stack Across Models, Agents, And Robotics</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed802f8cf9e1afce245fe0"><b>2 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80878d67e031d6f38196">📋 NVIDIA在GTC 2026上公布了覆盖开放基础模型、智能体工具链、推理与安全模型、机器人系统及医疗AI的全方位产品路线图，宣布了Vera Rubin平台、DLSS 5、BlueField-4 STX存储架构、太空计算等多项重大发布，并与Adobe、BYD、现代等企业达成战略合作。</div><details class="notion-toggle notion-block-331b9f4752ed806b8339e50e56ee4ffe"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80f3b242c31ede5dae22">NVIDIA在GTC 2026大会上发布了一系列重大产品和合作计划，覆盖AI全栈生态。</div><div class="notion-text notion-block-331b9f4752ed80a2b9bfdd133ae3e89b"><b>核心硬件发布：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80eab4b3fc159f3c4c93"><li><b>Vera Rubin平台</b>：面向智能体AI前沿领域的新一代计算平台</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8044aacee4d9deb282c7"><li><b>Vera CPU</b>：专为智能体AI设计的处理器</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8001a3feda5f5e19b95b"><li><b>BlueField-4 STX</b>：新一代存储架构，获得广泛行业支持</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed809d91b9c109f35ab284"><li><b>DLSS 5</b>：AI驱动的游戏视觉保真度突破</li></ul><div class="notion-text notion-block-331b9f4752ed80f5ab0fe0ae0a874976"><b>AI模型与软件：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8090bf39ea7ca0a0fe74"><li>发布NemoClaw开放社区</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed801d8e34cf582c300a80"><li>启动Nemotron联盟，与全球领先AI实验室合作推进开放前沿模型</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80b0a2d2c4bdff958a1c"><li>推出开放智能体开发平台，点燃知识工作领域的新工业革命</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8093818ce4e95443676e"><li>Dynamo推理操作系统进入量产阶段</li></ul><div class="notion-text notion-block-331b9f4752ed80e2a14dec86c5b02f25"><b>行业合作：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80a39928f27baf80d1ee"><li>与Adobe达成战略合作，推进下一代Firefly模型和创意工作流</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80f3a56ece5102964d6b"><li>BYD、吉利、五十铃和日产采用NVIDIA DRIVE Hyperion实现L4自动驾驶</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8067998ce67e79954e09"><li>现代和起亚扩展自动驾驶技术合作</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80bba427c8a15832853e"><li>与T-Mobile合作将物理AI集成到AI-RAN基础设施</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80cd94a4f2792636cbf9"><li>罗氏在全球部署NVIDIA AI工厂加速药物发现</li></ul><div class="notion-text notion-block-331b9f4752ed80e2a520e42325977544"><b>物理AI与机器人：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80fe8ec7d14bd66ea2cb"><li>发布开放物理AI数据工厂蓝图，加速机器人、视觉AI智能体和自动驾驶开发</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed805abf52cc8034789f43"><li>与全球机器人领导者合作将物理AI推向现实世界</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed801c8c16dfbb02ca1107"><li>推出太空计算，将AI带入轨道</li></ul></div></details><hr class="notion-hr notion-block-331b9f4752ed8081a4c4d98b7659d846"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8089985ff7d718c3843d" data-id="331b9f4752ed8089985ff7d718c3843d"><span><div id="331b9f4752ed8089985ff7d718c3843d" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8089985ff7d718c3843d" title="The Former Academic Guiding OpenAI&#x27;s Trillion-Dollar AI Buildout"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/csmxKF">The Former Academic Guiding OpenAI&#x27;s Trillion-Dollar AI Buildout</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed804292b3db1c05908b7d"><b>4 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80a28650d0f690d1d4f5">📋 前英特尔CTO Sachin Katti去年11月加入OpenAI担任工业计算主管，负责推进Sam Altman数万亿美元的数据中心建设计划。他正应对电网限制、内存芯片短缺和社区反对等多重挑战，同时推动供应商和地域多元化，包括与AWS、Cerebras和博通等合作拓展算力供应。</div><details class="notion-toggle notion-block-331b9f4752ed80ffaf2edd63c2dc5632"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8065833efaf86947f4a6">Sachin Katti此前在斯坦福大学任教超过15年，并在英特尔担任CTO和AI官四年，于2023年11月加入OpenAI出任工业计算主管，向总裁Greg Brockman汇报，管理工业合作、工程及交付运营团队。</div><div class="notion-text notion-block-331b9f4752ed80c5ad1bdc9b0ae9a4ea"><b>基础设施现状：</b></div><div class="notion-text notion-block-331b9f4752ed809a87b5f990f95bbd8b">OpenAI的计算能力在2025年增长了三倍以上，达到约1.9吉瓦。Altman的目标是最终实现&quot;每周生产一吉瓦新AI基础设施&quot;。目前OpenAI与合作伙伴在美国多个州及欧洲、中东和南美建设数据中心。</div><div class="notion-text notion-block-331b9f4752ed8034912acdef170bc3ff"><b>供应多元化策略：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80cc98abc2e8ee476b85"><li>与Cerebras达成数十亿美元协议用于推理计算</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80309cd0e44972cd2530"><li>与AWS签约获得2吉瓦Trainium芯片容量</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed805ebcfaff4ed70e79da"><li>通过与博通合作自研芯片，预计明年广泛部署，容量可达1吉瓦</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80039792d700166ac454"><li>计划今年晚些时候部署约1吉瓦的NVIDIA Vera Rubin加速器</li></ul><div class="notion-text notion-block-331b9f4752ed807d9620ea7b75847293"><b>面临的挑战：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80898e17edcb4fbafa9d"><li>电网容量限制</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80688d05e400fd02ac53"><li>内存芯片短缺——制造商因疫情后暴跌的教训而谨慎扩产</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8066a64ec65b27cd26bf"><li>地方社区反对声日益增长</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed806baae7c8498fcd00e1"><li>Katti表示对可能出现的&quot;供应链短缺到地缘政治&quot;等意外保持高度警惕</li></ul><div class="notion-text notion-block-331b9f4752ed80d5be4befaa696f11f9">最近OpenAI选择不续租Crusoe在得克萨斯州阿比林的Stargate数据中心扩建项目，转而在威斯康星等州寻找能更快部署最新NVIDIA芯片的方案。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed804082f2c32b07668432"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed807a9efded21ba61c190" data-id="331b9f4752ed807a9efded21ba61c190"><span><div id="331b9f4752ed807a9efded21ba61c190" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed807a9efded21ba61c190" title="Alibaba Starts Major Revamp To Heighten Focus On AI Profits"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/kBEcQr">Alibaba Starts Major Revamp To Heighten Focus On AI Profits</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8066a4fce7d511178bac"><b>5 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8094a101f08942fe2ba6">📋 阿里巴巴成立&quot;阿里巴巴Token Hub&quot;新事业部，由CEO吴泳铭直接领导，将Qwen模型研发、消费端应用、钉钉、夸克品牌等AI相关业务统一管理，旨在加速团队协作并聚焦AI商业化变现。公司同时推出企业级智能体服务&quot;悟空&quot;。</div><details class="notion-toggle notion-block-331b9f4752ed80fb96adee8922ce24e4"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed800da9aae9a0c2d2333d">阿里巴巴正进行一次重大组织重组，将分散的AI服务和开发整合到一个名为&quot;阿里巴巴Token Hub&quot;（ATH）的新事业部中，由CEO吴泳铭直接领导。</div><div class="notion-text notion-block-331b9f4752ed809bb2b4c2360be4ad7e"><b>ATH整合范围：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80ad8619f2f490c377fb"><li>开发旗舰Qwen模型的研究团队</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80379ce0ea0bb0c3ec39"><li>消费端应用部门</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80448a8cfa36cf04442f"><li>类似Slack的办公通讯工具钉钉</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed803082adf454fc9f2e65"><li>夸克品牌下的智能眼镜等设备</li></ul><div class="notion-text notion-block-331b9f4752ed80e9a420c32862a65a50"><b>重组背景：</b></div><div class="notion-text notion-block-331b9f4752ed80a39cc1e14efb54350c">重组的直接触发因素是Qwen明星研究负责人的突然离职。更深层原因在于中国AI公司在商业化方面面临挑战——中国消费者对软件订阅付费意愿较低，大多数中国模型是开源免费的，导致国内开发者与OpenAI、Anthropic等美国同行的收入差距悬殊。</div><div class="notion-text notion-block-331b9f4752ed80e8906df44cfc256714"><b>新产品发布：</b></div><div class="notion-text notion-block-331b9f4752ed80aba170d65ba2af4ed1">阿里巴巴同日宣布推出企业级智能体服务&quot;悟空&quot;（以中国神话中近乎全能的孙悟空命名），基于Qwen模型打造，内置数据安全机制。用户可通过网站或钉钉访问，后续将逐步连接Slack、Microsoft Teams和微信等平台，并整合淘宝和支付宝等商业服务。</div><div class="notion-text notion-block-331b9f4752ed8026bdcbf75ce96fb582">吴泳铭在内部备忘录中表示：&quot;ATH围绕一个核心使命构建：创造token、交付token、应用token。&quot;这一命名直接引用了计算计费单位，彰显公司对AI变现的明确诉求。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed802ea3f4f11965f92a31"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80bc9939dc9b116eac5e" data-id="331b9f4752ed80bc9939dc9b116eac5e"><span><div id="331b9f4752ed80bc9939dc9b116eac5e" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80bc9939dc9b116eac5e" title="OpenAI To Cut Back On Side Projects In Push To &#x27;Nail&#x27; Core Business"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/F3bqDo">OpenAI To Cut Back On Side Projects In Push To &#x27;Nail&#x27; Core Business</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8091a278d9b4f6a317a0"><b>6 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80e3a4c0ef10f6820caf">📋 OpenAI正计划进行重大战略转型，将重心聚焦于编程和企业用户。应用CEO Fidji Simo在全员大会上警告员工不要被&quot;支线任务&quot;分散注意力，并表示Anthropic的成功应成为&quot;警钟&quot;。此前OpenAI同时推进Sora、Atlas浏览器、硬件设备等多个项目的策略正面临来自竞争对手的巨大压力。</div><details class="notion-toggle notion-block-331b9f4752ed8007b130d9cb5decbad6"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8098a202f78e2933fc82">据《华尔街日报》报道，OpenAI高管正在制定重大战略调整计划，从&quot;什么都做&quot;转向聚焦编程和商业用户。</div><div class="notion-text notion-block-331b9f4752ed80c1b7a3c447c6ae57b4"><b>战略转型信号：</b></div><div class="notion-text notion-block-331b9f4752ed80169f03f6dd65b1fc36">应用CEO Fidji Simo在全员大会上直言：&quot;我们不能因为被支线任务分心而错过这个时刻。我们必须在生产力方面，特别是在商业前端的生产力方面做到极致。&quot;高层正在积极审视哪些领域应降低优先级，预计将在未来几周通知员工。</div><div class="notion-text notion-block-331b9f4752ed8093934bdaf76cada7fe"><b>Anthropic带来的压力：</b></div><div class="notion-text notion-block-331b9f4752ed802f9e26ed3d43277151">Anthropic凭借Claude Code和Cowork等产品在企业市场占据主导地位。这些&quot;智能体&quot;产品可自主执行复杂任务，在硅谷引起轰动，甚至引发了上个月的全球股市抛售。Anthropic押注更少、更聚焦的产品，避开了图像和视频生成等领域。Simo表示Anthropic的成功应该成为&quot;警钟&quot;。</div><div class="notion-text notion-block-331b9f4752ed800db441c9fdf1b5b400"><b>过去策略的问题：</b></div><div class="notion-text notion-block-331b9f4752ed80e09b16d3741a59acbc">去年OpenAI推出了Sora视频生成器、Atlas浏览器、新硬件设备和ChatGPT电商功能等一系列新产品。Altman将此比作在OpenAI内部&quot;押注一系列创业公司&quot;。但员工反映这种方式造成了方向不清，计算资源在团队间频繁临时调配，组织架构也变得复杂。例如Sora团队归属研究部门，却负责推出公司最高调的消费产品之一。</div><div class="notion-text notion-block-331b9f4752ed8037a314e5054a7cb59a"><b>编程领域的反攻：</b></div><div class="notion-text notion-block-331b9f4752ed80aa8770f0e7ac0dddf8">OpenAI上月发布新版Codex应用和面向专业工作的GPT 5.4模型后有所回升。Simo称Codex现在拥有超过200万周活用户，较年初增长近四倍。</div><div class="notion-text notion-block-331b9f4752ed80f79da8ea3f52ccd399"><b>IPO竞赛：</b></div><div class="notion-text notion-block-331b9f4752ed808dbad9ec310fa94c78">两家公司都在推进上市计划。OpenAI曾在部分讨论中提出可能在今年第四季度进行IPO。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80e89506d3d03895aa79"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed805b8aa5f3e2d66b0ad0" data-id="331b9f4752ed805b8aa5f3e2d66b0ad0"><span><div id="331b9f4752ed805b8aa5f3e2d66b0ad0" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed805b8aa5f3e2d66b0ad0" title="🧠 深度分析 / Deep Dives &amp; Analysis"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧠 深度分析 / Deep Dives &amp; Analysis</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8048b553ce7a0a362c2e" data-id="331b9f4752ed8048b553ce7a0a362c2e"><span><div id="331b9f4752ed8048b553ce7a0a362c2e" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8048b553ce7a0a362c2e" title="How Do You Want To Remember?"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://zakelfassi.com/how-do-you-want-to-remember?utm_source=tldrai">How Do You Want To Remember?</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8061b61fd5fa33c2ed20"><b>10 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8081b745d4081f9d8e3a">📋 一位开发者让AI智能体自己设计记忆系统，智能体自建评估框架、诊断盲点，将记忆召回率从60%提升至93%，成本仅2美元。关键发现是：系统能完美记住&quot;发生了什么&quot;，却无法记住&quot;为什么&quot;——这与人类组织中知识流失的模式惊人相似。</div><details class="notion-toggle notion-block-331b9f4752ed80f9bd5dcc2150c40fd2"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed805dbd22c3569fb5480a">作者Zak El Fassi运营着10个AI智能体约六周，使用基于Markdown文件树和SQLite嵌入索引的本地记忆系统（18,000个片段，604个文件，6,578个会话记录，共3.6GB）。一个&quot;侦察兵&quot;定时任务每29分钟从最近的会话中提取重要信息存入磁盘。</div><div class="notion-text notion-block-331b9f4752ed80eb8ed4fcd6f48324ce"><b>基线评估：</b></div><div class="notion-text notion-block-331b9f4752ed80788005c45de524e46c">作者让智能体自己设计了15个涵盖五周真实运营的测试问题，采用三级评分制。结果揭示了一个清晰的模式：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8099bddaf880d6fcdd7f"><li>技术事件（发生了什么）：100%准确</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80829b27eec36bf520ca"><li>交叉引用（关联A和B）：100%准确</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80609684daba59079175"><li>时间事件（什么时候发生）：100%准确</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80fd9dcce153326a5e1b"><li>人物上下文（谁+情境）：33%准确</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80c1b70dfdf23f203063"><li>决策理由（为什么决定X）：25%准确</li></ul><div class="notion-text notion-block-331b9f4752ed8061a687dd62d3337cde"><b>核心问题：</b></div><div class="notion-text notion-block-331b9f4752ed80d39755d50a0b4866bc">智能体的诊断一针见血：&quot;侦察兵只记录what，不记录why。&quot;每29分钟的记忆扫描捕获状态变化和时间戳，但决策背后的推理留在了原始会话记录中。这与人类组织中的知识流失模式完全一致——决定记录在Jira里，推理消失在没人会找到的Slack对话中。</div><div class="notion-text notion-block-331b9f4752ed80198351fc1f984470e4"><b>优化方案：</b></div><div class="notion-text notion-block-331b9f4752ed80ad9b9eddfaca9b23b1">智能体提出四项改进：</div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed80d9b5e0df3163d945bb" style="list-style-type:decimal"><li><a target="_blank" rel="noopener noreferrer" class="notion-link" href="http://在decisions.md">在decisions.md</a>中为每个条目添加&quot;为什么&quot;字段</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed80a0a1bdea57d5152256" style="list-style-type:decimal"><li>将每日日志压缩为每周摘要，减少文件数量，增加每个片段的语义密度</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-331b9f4752ed80bdb7efe3abd1a15318" style="list-style-type:decimal"><li>创建可搜索的人员文件</li></ol><ol start="4" class="notion-list notion-list-numbered notion-block-331b9f4752ed8048a487c5241f8bcf42" style="list-style-type:decimal"><li>从历史会话记录中回溯补充决策理由</li></ol><div class="notion-text notion-block-331b9f4752ed8044a09ee3e4e778d4bf">四个子智能体并行执行，45分钟完成，API费用约2美元。</div><div class="notion-text notion-block-331b9f4752ed802b8210dbd3b5e586f6"><b>改进结果：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80b6b0caeaf885b3622a"><li>总体准确召回率：60% → 93%</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80b185e9c92b083efa36"><li>完全遗漏：7% → 0%</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8095acafe3efe2483a7a"><li>决策理由：25% → 100%</li></ul><div class="notion-text notion-block-331b9f4752ed80fcaccdec356244a4a8">关键启示：无需更换模型或嵌入方案，仅通过重组磁盘上的文件结构，使系统已有的信息以搜索可达的方式组织，就实现了质的飞跃。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8012bc5ed89e91970002"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed8085b469fd23400231e3" data-id="331b9f4752ed8085b469fd23400231e3"><span><div id="331b9f4752ed8085b469fd23400231e3" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8085b469fd23400231e3" title="AI&#x27;s Oppenheimer Moment"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://a16z.com/ais-oppenheimer-moment/?utm_source=tldrai">AI&#x27;s Oppenheimer Moment</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80189fadca693223b410"><b>8 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8099b0c7ee26469c6690">📋 a16z合伙人Erik Torenberg以&quot;奥本海默时刻&quot;为类比，通过一个虚构的&quot;McBombalds核武器公司&quot;思想实验，深入探讨了当AI这样具有战略性影响的技术由私人公司控制时所引发的治理困境，以及Anthropic拒绝向美国政府开放AI访问的深层含义。</div><details class="notion-toggle notion-block-331b9f4752ed80c69703eef21b8e554b"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed806c8858e190bb30ed6e">这篇来自a16z的长文以《奥本海默》电影中科学家与杜鲁门总统会面的场景开篇，引出核心论点：如果AI真如Anthropic所认为的那样具有类似核武器的战略意义，那么谁应该控制它？</div><div class="notion-text notion-block-331b9f4752ed8047a055f6b0e926abc7"><b>McBombalds思想实验：</b></div><div class="notion-text notion-block-331b9f4752ed8003a3afe8e7ba75131c">文章构建了一个反事实场景：假设核武器不是由政府的曼哈顿计划开发，而是由一家名为&quot;McBombalds&quot;的风投支持的特拉华PBC公司开发。当杜鲁门总统想购买原子弹结束太平洋战争时，McBombalds的CEO奥本海默表示&quot;不太放心直接用于城市轰炸&quot;，只愿提供带有&quot;一旦检测到人口密集区就自动解除武装&quot;的限制版本。</div><div class="notion-text notion-block-331b9f4752ed8095922ed344e193bf8e">这个看似荒诞的场景，正是文章认为当前AI治理所处的现实：Anthropic的Dario Amodei认为AI具有核武器级别的影响力，同时拒绝向美国政府提供完全访问权限。</div><div class="notion-text notion-block-331b9f4752ed80e9b4fded241a6a8cb0"><b>现实背景：</b></div><div class="notion-text notion-block-331b9f4752ed808eb54dcd8f39958f56">文章指出，Anthropic与五角大楼的争议恰好发生在美以对伊战争爆发的前一天。这场战争的技术优势恰恰展示了最新AI工具对国家安全的意义。更重要的是，战争的根本理由是阻止伊朗获得核武器——接受核武器扩散的存在性威胁，同时将下一代超级武器的扩散视为普通私有财产问题，这本身就暴露了思维上的深层矛盾。</div><div class="notion-text notion-block-331b9f4752ed80ad8cc3c122175d2bc5"><b>核心辩论：</b></div><div class="notion-text notion-block-331b9f4752ed809cbe37c30c02e6ecf3">文章并不主张简单的政府控制，而是指出这个问题没有简单答案。核武器由政府开发并由政府控制，80年来虽然扩散了但未毁灭人类——但这并不意味着AI可以复制这个实验。私人公司控制具有全球影响力的技术带来的风险，与政府可能滥用这些技术的风险一样值得关注。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80c5b3e7c0bb619ad80d"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed808ba284d837ccf36b70" data-id="331b9f4752ed808ba284d837ccf36b70"><span><div id="331b9f4752ed808ba284d837ccf36b70" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed808ba284d837ccf36b70" title="Why Codex Security Skips SAST Reports"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://openai.com/index/why-codex-security-doesnt-include-sast/?utm_source=tldrai">Why Codex Security Skips SAST Reports</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8084b01fcfa15891c602"><b>6 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8053be23d2eb8b6d3edb">📋 OpenAI解释了Codex Security为何不从静态分析（SAST）报告入手，而是直接分析代码仓库的架构、信任边界和预期行为。核心洞察是：最难发现的安全漏洞不是数据流问题，而是&quot;防御看似存在但实际不起作用&quot;的语义性缺陷。</div><details class="notion-toggle notion-block-331b9f4752ed809dbc0bc44b04ebd68c"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8048a39ade27cc0e9137">OpenAI详细阐述了Codex Security的设计理念，解释了为何它采用了与传统SAST工具截然不同的方法。</div><div class="notion-text notion-block-331b9f4752ed806fb1b3fa976013639c"><b>SAST的局限性：</b></div><div class="notion-text notion-block-331b9f4752ed80dabeefe1826663902e">传统SAST工具遵循&quot;源→清理→汇&quot;的数据流追踪模型：识别不可信输入源，追踪数据在程序中的流动，标记未经消毒就到达敏感操作的情况。这个模型覆盖了大量真实漏洞，但核心问题在于：即使正确追踪了数据流，SAST仍然难以回答&quot;防御措施真的有效吗？&quot;</div><div class="notion-text notion-block-331b9f4752ed80b28d18c75f7678fbbe"><b>关键案例——验证后解码问题：</b></div><div class="notion-text notion-block-331b9f4752ed80e784eceab75cfe8a5d">一个Web应用接收JSON请求，提取redirect_url，用正则表达式对白名单进行验证，然后URL解码并传递给重定向处理器。数据流追踪能看到：不可信输入 → 正则检查 → URL解码 → 重定向。但关键问题不是&quot;检查是否存在&quot;，而是&quot;在后续转换之后，该检查是否仍然约束了值？&quot;</div><div class="notion-text notion-block-331b9f4752ed8066b412c75b9a624a1f">这正是CVE-2024-29041（Express框架开放重定向漏洞）的实际模式——数据流直观清晰，但漏洞存在于验证与解释之间的转换链断裂中。</div><div class="notion-text notion-block-331b9f4752ed80fda55cc901dd50545b"><b>Codex Security的方法：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed808aa22af165d53814ef"><li>从仓库本身出发，理解架构、信任边界和预期行为</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed805a8217e12d6f661d10"><li>遇到&quot;验证&quot;或&quot;消毒&quot;代码时，不将其视为复选框，而是尝试理解代码意图保证什么，然后尝试证伪该保证</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed806ca975c58b62c46ae4"><li>将问题简化为最小可测试切片，编写微型模糊测试器</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed802b83afc1214328eb91"><li>跨转换推理约束条件，而非独立对待每个检查</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8075a529ff67dc297f00"><li>在需要时使用z3求解器进行形式化验证，类似安全研究人员处理复杂输入约束问题的方式</li></ul><div class="notion-text notion-block-331b9f4752ed80c38658c291ed8a71f6">其目标是通过更强的证据减少人工分类工作量——在隔离环境中验证高信号问题后才呈现给人类。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80f3957cce5d4a5ddac4"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed8076a97fe7cd68f5293b" data-id="331b9f4752ed8076a97fe7cd68f5293b"><span><div id="331b9f4752ed8076a97fe7cd68f5293b" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed8076a97fe7cd68f5293b" title="🧑‍💻 工程与研究 / Engineering &amp; Research"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🧑‍💻 工程与研究 / Engineering &amp; Research</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80eab994dbbe93961764" data-id="331b9f4752ed80eab994dbbe93961764"><span><div id="331b9f4752ed80eab994dbbe93961764" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80eab994dbbe93961764" title="OpenShell"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://github.com/NVIDIA/OpenShell?utm_source=tldrai">OpenShell</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8065a3b2f81b064e7e53"><b>GitHub Repo</b></div><div class="notion-text notion-block-331b9f4752ed802fac82ea97da43906f">📋 NVIDIA开源的OpenShell为自主AI智能体提供安全、私密的沙箱执行环境，通过声明式YAML策略防止未授权文件访问、数据泄露和不受控的网络活动。项目内置集群调试、策略生成等智能体技能，目标是从单用户模式逐步发展为多租户企业部署。</div><details class="notion-toggle notion-block-331b9f4752ed8051b35ac22b365bb669"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed802ba48ae5bdc6650b5e">OpenShell是NVIDIA推出的一个开源项目，定位为&quot;自主AI智能体的安全私密运行时&quot;。</div><div class="notion-text notion-block-331b9f4752ed807bab3bf9265c1df5b3"><b>核心特性：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80f0b76ae82b7fdcdee4"><li>沙箱执行环境保护数据、凭证和基础设施</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80da9285e14e8e18186e"><li>声明式YAML策略系统控制文件访问、网络活动和数据传输</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80c6ba7ddc1d9b01435c"><li>最小化出站访问策略——每个沙箱启动时只有最小网络权限，通过YAML策略逐步开放</li></ul><div class="notion-text notion-block-331b9f4752ed805d9e5df7b242b10c1d"><b>内置工具生态：</b></div><div class="notion-text notion-block-331b9f4752ed80169ed1e48fdda64812">沙箱容器默认包含：Claude、OpenCode、Codex等AI代理工具；Python 3.13、Node 22等语言运行时；gh、git、vim等开发者工具；以及ping、dig等网络工具。</div><div class="notion-text notion-block-331b9f4752ed8056a0f1ccf493599bc8"><b>项目状态：</b></div><div class="notion-text notion-block-331b9f4752ed8091b993d4e3b5720bf2">当前处于Alpha阶段的&quot;单人模式&quot;——一个开发者、一个环境、一个网关。项目明确表示正在向多租户企业部署方向发展，但起点是让个人开发者先搭建自己的环境。</div><div class="notion-text notion-block-331b9f4752ed80d48b41cc0f5ce864c0"><b>安装和使用：</b></div><div class="notion-text notion-block-331b9f4752ed80ef944ac406d8644197">支持二进制安装或通过PyPI安装，一条命令即可创建沙箱并启动Claude、OpenCode或Codex等智能体。项目采用&quot;智能体优先&quot;的开发理念，内置了从集群调试到策略生成的智能体技能。</div><div class="notion-text notion-block-331b9f4752ed8003b496fb7bdba3eb8a">项目已获得1.2k GitHub星标，311次提交，48个Issues和10个PR，社区活跃度较高。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8046874dc0ab73eb6630"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed805595eff6231c4a5b23" data-id="331b9f4752ed805595eff6231c4a5b23"><span><div id="331b9f4752ed805595eff6231c4a5b23" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed805595eff6231c4a5b23" title="Introducing Mistral Small 4"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://mistral.ai/news/mistral-small-4?utm_source=tldrai">Introducing Mistral Small 4</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80b4bd1fcf80fee40486"><b>5 minute read</b></div><div class="notion-text notion-block-331b9f4752ed80eba215e5c0f4dffead">📋 Mistral发布Small 4模型，首次将Magistral（推理）、Pixtral（多模态）和Devstral（编程）三大旗舰能力统一到单一模型中。采用128专家MoE架构，总参数119B但每token仅激活6B，支持256k上下文窗口和可配置的推理深度。性能匹配或超越同级别模型，但输出长度更短。以Apache 2.0许可开源。</div><details class="notion-toggle notion-block-331b9f4752ed80de9473e32095fe3303"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed806eb061cdff147cbb57">Mistral Small 4是Mistral Small系列的重大升级，也是Mistral首个统一其三大旗舰模型能力的产品。</div><div class="notion-text notion-block-331b9f4752ed80869dded4d87a2bf9ec"><b>架构亮点：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80488190c887b5a86b36"><li><b>混合专家（MoE）架构</b>：128个专家，每个token激活4个</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80cb939ecaaaf38f13b9"><li><b>参数规模</b>：总计119B参数，每token激活6B（含嵌入和输出层约8B）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80f5b1cdf952662d21ba"><li><b>上下文窗口</b>：256k token</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80f6a775dbbfd4e9df36"><li><b>多模态支持</b>：同时接受文本和图像输入</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80d588aec28463d7bda3"><li><b>可配置推理深度</b>：通过reasoning_effort参数动态调整</li><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80d588aec28463d7bda3"><li><code class="notion-inline-code">none</code>：快速轻量响应，等同于Mistral Small 3.2的对话风格</li><li><code class="notion-inline-code">high</code>：深度逐步推理，等同于Magistral的详细程度</li></ul></ul><div class="notion-text notion-block-331b9f4752ed801d878fc7cd247eb71a"><b>性能表现：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80b69753c5c5ccc77559"><li>端到端完成时间减少40%（延迟优化配置）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed800db9f9d6e9873bf4bf"><li>每秒请求数提高3倍（吞吐优化配置）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807d9e2df02d72e64120"><li>在AA LCR基准上，以1.6K字符输出达到0.72分，而Qwen模型需要5.8-6.1K字符才能达到相当性能</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed807eb6f2c983ee78adb0"><li>在LiveCodeBench上超越GPT-OSS 120B，同时输出短20%</li></ul><div class="notion-text notion-block-331b9f4752ed800fb408c0b3f2739ff8"><b>部署要求：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8098bbe9fe01c0e56a6c"><li>最低：4x NVIDIA HGX H100或2x HGX H200或1x DGX B200</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80bea6e3ecf421f22633"><li>推荐：4x HGX H100或4x HGX H200或2x DGX B200</li></ul><div class="notion-text notion-block-331b9f4752ed80de8d4ce6576574bc61"><b>开源与生态：</b></div><div class="notion-text notion-block-331b9f4752ed80a1a3cecb6771998dba">采用Apache 2.0许可发布，支持vLLM、llama.cpp、SGLang、Transformers等框架。作为NVIDIA Nemotron联盟的创始成员发布。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80b585b6c0a9bcc02da5"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80bd840ddf11d407c948" data-id="331b9f4752ed80bd840ddf11d407c948"><span><div id="331b9f4752ed80bd840ddf11d407c948" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80bd840ddf11d407c948" title="Use Subagents And Custom Agents In Codex"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://simonwillison.net/2026/Mar/16/codex-subagents/?utm_source=tldrai">Use Subagents And Custom Agents In Codex</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed80cbad89db42ca53617c"><b>1 minute read</b></div><div class="notion-text notion-block-331b9f4752ed805eb449ec8c8c0750b4">📋 OpenAI Codex正式推出子智能体功能，提供&quot;explorer&quot;、&quot;worker&quot;和&quot;default&quot;三种默认子智能体，同时支持用户在~/.codex/agents/中以TOML文件定义自定义智能体。Simon Willison指出，子智能体模式已成为编程智能体的标配，Claude Code、Gemini CLI、Mistral Vibe、Cursor等平台都已支持。</div><details class="notion-toggle notion-block-331b9f4752ed8013ac43c1a15c2a70c5"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed8038a6a3f68bf3bc516e">Simon Willison报道了OpenAI Codex子智能体功能正式GA的消息。该功能此前以功能标志的形式预览了数周。</div><div class="notion-text notion-block-331b9f4752ed8090a4beeeb406a4e284"><b>默认子智能体：</b></div><div class="notion-text notion-block-331b9f4752ed804f8b15df1d521f2efe">Codex提供三种默认子智能体：&quot;explorer&quot;（探索器）、&quot;worker&quot;（工作器）和&quot;default&quot;（默认）。Simon认为&quot;worker&quot;主要用于并行运行大量小任务，但&quot;worker&quot;和&quot;default&quot;之间的区别并不十分明确。</div><div class="notion-text notion-block-331b9f4752ed808a8e4edc04dbb8da15"><b>自定义智能体：</b></div><div class="notion-text notion-block-331b9f4752ed808e9665f733f919f6ed">用户可以在<code class="notion-inline-code">~/.codex/agents/</code>目录下以TOML文件定义自定义智能体，指定自定义指令和特定模型（包括gpt-5.3-codex-spark以获得更快速度）。文档示例展示了在单条提示中协调多个自定义智能体的模式。</div><div class="notion-text notion-block-331b9f4752ed8048a233cff308ed7d17"><b>行业趋势：</b></div><div class="notion-text notion-block-331b9f4752ed80399453e693b34dc93e">Simon列举了目前已支持子智能体模式的平台，显示这已成为编程智能体领域的标准模式：OpenAI Codex、Claude Code、Gemini CLI（实验性）、Mistral Vibe、OpenCode、VS Code Copilot和Cursor。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed8023837ee897ca4885e2"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed80648e7bc24d58500868" data-id="331b9f4752ed80648e7bc24d58500868"><span><div id="331b9f4752ed80648e7bc24d58500868" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80648e7bc24d58500868" title="Leanstral"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://mistral.ai/news/leanstral?utm_source=tldrai">Leanstral</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed800f9db8c9e4734f4afa"><b>6 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8097aed5e93be14bdd8e">📋 Mistral发布Leanstral，首个面向Lean 4证明助手的开源编程智能体。该模型仅6B活跃参数，以Apache 2.0许可开源，在FLTEval基准上以极低成本（$36双次推理）超越Claude Sonnet 2.6分，且达到Opus级别性能的$290仅为后者$1,650的六分之一。</div><details class="notion-toggle notion-block-331b9f4752ed8065bdc1e15d8fb2daa9"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80e58dd6d6e6ba246a6c">Mistral推出了Leanstral，这是首个专为Lean 4设计的开源编程智能体。Lean 4是一种证明助手，能够表达从完全空间到Rust代码属性等复杂数学对象和软件规范。</div><div class="notion-text notion-block-331b9f4752ed8014bb9ee242a4cd2988"><b>设计愿景：</b></div><div class="notion-text notion-block-331b9f4752ed801694aad3f1b3a35a15">Mistral认为AI编程智能体的瓶颈正在从代码生成转向人工审查。他们设想新一代编程智能体不仅执行任务，还能对其实现进行形式化证明。Leanstral是朝这一愿景迈出的第一步。</div><div class="notion-text notion-block-331b9f4752ed8011ab59d14c49613b91"><b>技术特点：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80e7b21ada87b5d6fb96"><li>高度稀疏架构，仅6B活跃参数（总参数120B）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed805bb6a9fd6c21fd0e68"><li>针对证明工程任务优化</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80d592fdf290d5d0e9c2"><li>利用Lean作为完美验证器进行并行推理</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80d48ecdf1a280bb8a17"><li>支持通过MCP协议扩展，专门训练了与lean-lsp-mcp的最优配合</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80aba252c324707bda67"><li>Apache 2.0许可开源</li></ul><div class="notion-text notion-block-331b9f4752ed8029bee9e65bba592c5d"><b>性能评估（FLTEval基准）：</b></div><div class="notion-text notion-block-331b9f4752ed801f938ddd46f5bf8598">与开源模型对比：</div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80ca9d4adde79ad617bc"><li>GLM5-744B-A40B和Kimi-K2.5-1T-32B分别止步于16.6和20.1分</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8013b292d757c4b1fc8c"><li>Qwen3.5-397B-A17B需要4次推理才能达到25.4分</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8056bc59e200f1dbdf57"><li>Leanstral仅需2次推理（pass@2）即达到26.3分，且继续线性扩展至pass@16的31.9分</li></ul><div class="notion-text notion-block-331b9f4752ed80a6b060d997b73b7a55">与Claude系列对比：</div><table class="notion-simple-table notion-block-331b9f4752ed80d297bec75e27124a36"><tbody><tr class="notion-simple-table-row notion-simple-table-header-row notion-block-331b9f4752ed8077b642e5f70d457704"><td class="" style="width:120px"><div class="notion-simple-table-cell">模型</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">成本</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">分数</div></td></tr><tr class="notion-simple-table-row notion-block-331b9f4752ed80f1baa4ca2fbfc24a89"><td class="" style="width:120px"><div class="notion-simple-table-cell">Haiku</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">$184</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">23.0</div></td></tr><tr class="notion-simple-table-row notion-block-331b9f4752ed80fdb69ceb616bcc5ccc"><td class="" style="width:120px"><div class="notion-simple-table-cell">Sonnet</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">$549</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">23.7</div></td></tr><tr class="notion-simple-table-row notion-block-331b9f4752ed8028b940ff44527b44f3"><td class="" style="width:120px"><div class="notion-simple-table-cell">Opus</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">$1,650</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">39.6</div></td></tr><tr class="notion-simple-table-row notion-block-331b9f4752ed802eb2a4c8659412abfd"><td class="" style="width:120px"><div class="notion-simple-table-cell">Leanstral pass@2</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">$36</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">26.3</div></td></tr><tr class="notion-simple-table-row notion-block-331b9f4752ed808fbab0cb20df92eae6"><td class="" style="width:120px"><div class="notion-simple-table-cell">Leanstral pass@16</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">$290</div></td><td class="" style="width:120px"><div class="notion-simple-table-cell">31.9</div></td></tr></tbody></table><div class="notion-text notion-block-331b9f4752ed8040a043ec8c2db45087"><b>实际案例：</b></div><div class="notion-text notion-block-331b9f4752ed80b392c3fec3a54524f8">Leanstral成功处理了Lean 4.29.0-rc6中的一个实际兼容性问题——正确诊断出<code class="notion-inline-code">def</code>创建的严格定义阻止了<code class="notion-inline-code">rw</code>策略匹配底层结构，并提出将<code class="notion-inline-code">def</code>改为<code class="notion-inline-code">abbrev</code>的正确修复方案。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80bfbc50f2e6e49e9e6a"/><h3 class="notion-h notion-h2 notion-h-indent-0 notion-block-331b9f4752ed80958c71ec1e70158a48" data-id="331b9f4752ed80958c71ec1e70158a48"><span><div id="331b9f4752ed80958c71ec1e70158a48" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed80958c71ec1e70158a48" title="🎁 杂项 / Miscellaneous"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title">🎁 杂项 / Miscellaneous</span></span></h3><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed804caef5f7273cd2c594" data-id="331b9f4752ed804caef5f7273cd2c594"><span><div id="331b9f4752ed804caef5f7273cd2c594" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed804caef5f7273cd2c594" title="Apple&#x27;s Cheap AI Bet Could Pay Off Big"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/DbOr7l">Apple&#x27;s Cheap AI Bet Could Pay Off Big</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed807e86b0c356c825c10a"><b>5 minute read</b></div><div class="notion-text notion-block-331b9f4752ed8057878ad45281e04f1e">📋 苹果今年AI投资仅140亿美元，是四大超级云厂商7000亿美元的五十分之一。文章认为苹果并非失误，而是一场精心计算的赌注——押注AI模型将商品化和小型化，25亿活跃设备将承载云端原本服务的工作负载，M5芯片已能在MacBook上3秒内运行300亿参数模型。</div><details class="notion-toggle notion-block-331b9f4752ed80c59734e8ec91504fb6"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80e4958fed059f1e99c1">《华尔街日报》这篇评论文章深入分析了苹果看似&quot;落后&quot;的AI投资策略背后的商业逻辑。</div><div class="notion-text notion-block-331b9f4752ed804a809ec16a138e1b6c"><b>投资对比：</b></div><div class="notion-text notion-block-331b9f4752ed802584e8fbf2ceddaddd">亚马逊、Alphabet、Meta和微软今年合计投资7000亿美元用于AI基础设施。苹果仅140亿美元。Bloomberg预测亚马逊2026年自由现金流将自2022年以来首次转负，Alphabet的将暴跌近90%。四大超级云厂商正在借钱建设，而Jensen Huang预测到2030年AI基础设施总投资将达3-4万亿美元。</div><div class="notion-text notion-block-331b9f4752ed804aa9eff4ece2f5a7a0"><b>苹果的核心赌注：</b></div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed8029b873fff931548231" style="list-style-type:decimal"><li><b>AI模型将商品化和小型化</b>：M5芯片嵌入神经加速器在每个GPU核心中，使MacBook Pro能在3秒内运行300亿参数模型（18GB内存，无需联网、无需订阅、无需API密钥），关键技术是混合专家架构（30B参数但每次查询仅激活3B）</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed8028aeabd408d3eabd3e" style="list-style-type:decimal"><li><b>设备将吞噬云工作负载</b>：苹果拥有25亿活跃设备，预计到2032年大部分设备将运行Apple Intelligence，本地处理邮件摘要、写作助手、照片编辑等任务，数十亿日常查询将永远不触及服务器</li></ol><ol start="3" class="notion-list notion-list-numbered notion-block-331b9f4752ed8023b5c5dc61b59cd6d8" style="list-style-type:decimal"><li><b>客户关系是最终护城河</b>：AI堆栈中的定价权属于最接近终端用户的人</li></ol><div class="notion-text notion-block-331b9f4752ed807cbe5ec92b4f57a904"><b>对Meta的威胁：</b></div><div class="notion-text notion-block-331b9f4752ed805e8b45f0627909ab97">文章认为Meta是最暴露的公司——没有平台层、操作系统、云业务或设备。Meta今年花费高达1350亿美元建设消费者AI功能，而苹果在操作系统层面免费提供同等功能。Apple Intelligence在Meta应用之前截获用户意图，Siri在设备端解决的每个查询都是Instagram上不会开始的会话。</div><div class="notion-text notion-block-331b9f4752ed80c5b810fc4953dc9bad">苹果2025财年花费907亿美元回购股票，全部来自运营现金流。文章总结：苹果不是因为无知而少花钱，而是出于信念——AI的持久特许权属于谁拥有客户。</div></div></details><hr class="notion-hr notion-block-331b9f4752ed80b1b245ff80ad8fb132"/><h4 class="notion-h notion-h3 notion-h-indent-1 notion-block-331b9f4752ed804ea965e176b1daa4cc" data-id="331b9f4752ed804ea965e176b1daa4cc"><span><div id="331b9f4752ed804ea965e176b1daa4cc" class="notion-header-anchor"></div><a class="notion-hash-link" href="#331b9f4752ed804ea965e176b1daa4cc" title="Can Nvidia&#x27;s Dominance Survive The Sea Change Under Way In AI Computing?"><svg viewBox="0 0 16 16" width="16" height="16"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg></a><span class="notion-h-title"><a target="_blank" rel="noopener noreferrer" class="notion-link" href="https://links.tldrnewsletter.com/XMEuzp">Can Nvidia&#x27;s Dominance Survive The Sea Change Under Way In AI Computing?</a></span></span></h4><div class="notion-text notion-block-331b9f4752ed8037baf4d103a7b24d32"><b>6 minute read</b></div><div class="notion-text notion-block-331b9f4752ed807ba734e8dd9a5a3f62">📋 《华尔街日报》深度分析了NVIDIA面临的战略转折点：AI行业从训练转向推理，而GPU恰恰是为训练优化的。推理需要更高能效、更快互连和更大显存的不同硬件组合。NVIDIA去年以200亿美元收购了Groq的芯片技术和人才，并将在GTC上推出首个结合Groq推理芯片的计算平台。</div><details class="notion-toggle notion-block-331b9f4752ed8084b12cd70bbd40715a"><summary>📖 详细摘要</summary><div><div class="notion-text notion-block-331b9f4752ed80618211f57fbd02ce38">《华尔街日报》这篇文章详细探讨了NVIDIA在AI行业从训练时代转向推理时代所面临的挑战。</div><div class="notion-text notion-block-331b9f4752ed80e48f33e71331d62d24"><b>行业转折点：</b></div><div class="notion-text notion-block-331b9f4752ed80f08355e0aafeb49291">今年GTC大会首次不再以GPU为焦点，而是围绕推理计算展开。AI行业已明确进入新阶段——从训练大模型转向运行模型并从终端用户获利。Jensen Huang承认：&quot;推理等于我们客户的收入，因为智能体正在生成如此多的token，结果如此有效。&quot;</div><div class="notion-text notion-block-331b9f4752ed80578749ee0b319c6580"><b>推理计算的不同需求：</b></div><div class="notion-text notion-block-331b9f4752ed80c9ba4dd22d954c6697">推理需要与训练优化芯片不同的硬件组合：更高能效、更快互连和更大高带宽内存。NVIDIA当前畅销的Grace Blackwell服务器被用户反映耗电巨大，且内存不足以让AI模型快速高效地输出答案。</div><div class="notion-text notion-block-331b9f4752ed80929e07d3cd0c9a73f5"><b>竞争压力与利润率挑战：</b></div><div class="notion-text notion-block-331b9f4752ed80358f55d16a88d6f4af">MIT研究员、风投人Paul Kedrosky指出：&quot;NVIDIA处于一个尴尬时刻。很长时间以来，Jensen一直说&#x27;我们不需要专用推理芯片，扔一个Blackwell就行。&#x27;但这条路已经走不通了。&quot;他认为NVIDIA的毛利率（最近一季度73%）将不可避免地收缩：</div><ol start="1" class="notion-list notion-list-numbered notion-block-331b9f4752ed80fc9f1fc80a0bc105c0" style="list-style-type:decimal"><li>推理计算的商业模式强调效率和降低成本</li></ol><ol start="2" class="notion-list notion-list-numbered notion-block-331b9f4752ed8002abd1e54538a8441a" style="list-style-type:decimal"><li>更多芯片公司已找到更便宜的推理方案</li></ol><div class="notion-text notion-block-331b9f4752ed80978f27eb949bb275e4">Kedrosky形象地说：NVIDIA靠卖法拉利式的芯片成为首个4万亿美元公司，但现在世界需要的是普锐斯和Model Y。</div><div class="notion-text notion-block-331b9f4752ed804baddbf0f02774f36f"><b>NVIDIA的应对：</b></div><ul class="notion-list notion-list-disc notion-block-331b9f4752ed8020a9e9d2b1fe15fab0"><li>去年12月以200亿美元收购Groq的芯片技术和顶尖人才——Groq设计了一种专为推理优化的&quot;语言处理单元&quot;（LPU）</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed801e86ded87763b9de25"><li>本周GTC将推出首个结合Groq芯片的计算平台——将改良版Rubin GPU与Groq推理处理器组合</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed80948dfac5bcf0fea89f"><li>Meta已表示将在AI数据中心安装数千个NVIDIA Vera CPU</li></ul><ul class="notion-list notion-list-disc notion-block-331b9f4752ed801aadccd1337d0432f8"><li>推出Dynamo推理操作系统</li></ul></div></details><hr class="notion-hr notion-block-331b9f4752ed80bbb77fdddc44042049"/><div class="notion-text notion-block-331b9f4752ed806eb415f321f4e072e2"><em>生成于 2026-03-17 · 数据来源: TLDR AI Newsletter</em></div></main></div>]]></content:encoded>
        </item>
    </channel>
</rss>