2026-07-01 19 min
深入讲解 Antonio Gulli《Agentic Design Patterns》第 8–11 章的高级模式——Memory Management(短期上下文记忆 vs 长期向量库记忆,及 Google ADK 的 Session/State/Memory 三概念)、Learning and Adaptation(RL/监督/在线学习 + PPO 与 DPO 对齐算法 + SICA 自改代码 Agent 案例)、Model Context Protocol(MCP 客户端-服务器架构、Resources/Prompts/Tools 三元素、与 function calling 的关键区别、Agent 接口契约陷阱)、Goal Setting and Monitoring(Planning 的另一半,把 Agent 从被动执行者变成有目标、能自评的目的性系统),给出机制、适用场景、陷阱与组合关系
2026-07-01 22 min
系统梳理 Antonio Gulli《Agentic Design Patterns》一书的 21 种核心设计模式——从 Prompt Chaining、Routing、Parallelization 三大确定性工作流原语,到 Andrew Ng 经典的 Reflection/Tool Use/Planning/Multi-Agent 四大智能体模式,再到 Memory、MCP、RAG、A2A、Guardrails、Evaluation 等高级/生产/企业级模式;并交叉对照 Andrew Ng 四模式与 Anthropic「Building Effective Agents」五大工作流,给出一份「模式 × 解决什么问题 × 何时用 × 典型陷阱」的全景索引
2026-07-01 22 min
系统讲解 Antonio Gulli《Agentic Design Patterns》第 15–21 章的企业级模式——Inter-Agent Communication A2A(Google 协议,Agent 间发现与委派,与 MCP 的 agent-to-tool vs agent-to-agent 关键区分)、Resource-Aware Optimization(路由 Agent 按复杂度选模型 + OpenRouter 自动选/回退)、Reasoning Techniques(CoT/ToT/ReAct/PALMs/RLVR/Chain-of-Debates/Deep Research + 推理扩展定律)、Guardrails Safety(输入/输出/行为/工具多层防御 + NeMo Guardrails,2025 研究证实护栏可被绕过故需纵深防御)、Evaluation and Monitoring(指标+反馈环+LLM-as-Judge+轨迹评估+「高级承包商」模型)、Prioritization(四要素+多级+动态重排)、Exploration and Discovery(Google AI Co-Scientist 与 Agent Laboratory 两个真实系统 + 探索-利用困境),并指出贯穿 Part Four 的「推理质量 vs 成本延迟」张力
2026-07-01 18 min
速览 Antonio Gulli《Agentic Design Patterns》附录 A–G——A 高级提示技术(基础/结构化/推理/行动/高级/任务特定全谱系,含 context engineering 取代 prompt engineering 的趋势)、B 从 GUI 到真实环境(Agent-Computer Interface 含 Operator/Mariner/Computer Use/Browser Use + 多模态环境 + vibe coding)、C 框架概览(LangChain/LangGraph/ADK/CrewAI/AutoGen/LlamaIndex 等 12 框架对比)、D AgentSpace 无代码平台、E CLI Agent(Claude Code/Gemini CLI/Aider/Copilot CLI + Terminal-Bench)、F 推理引擎内幕(让六大模型自述推理步骤的收敛框架 + 模拟非符号逻辑的警示)、G Coding Agent(人主导的专家 Agent 团队框架,从 vibe coding 进化到结构化协作)
2026-07-01 14 min
深入讲解 Antonio Gulli《Agentic Design Patterns》前三章的三大确定性工作流原语——Prompt Chaining(把任务拆成串行 LLM 步骤、用结构化输出和「门控」串接)、Routing(分类后路由到专门子流程,含 LLM/嵌入/规则/ML 四种路由器实现)、Parallelization(并发跑互不依赖的步骤再汇总,含 Sectioning 与 Voting 两变体),逐一给出定义、机制、适用场景、典型陷阱与组合关系,并对照 Anthropic「Building Effective Agents」的同名工作流
2026-07-01 14 min
深入讲解 Antonio Gulli《Agentic Design Patterns》第 12–14 章的生产可靠性模式——Exception Handling and Recovery(错误检测-处理-恢复三阶段,并与 Reflection 组合的「失败即反思重试」)、Human-in-the-Loop(人工监督/干预/反馈/决策增强/协作/升级六方面,以及 scalability 是首要短板 + Human-on-the-loop 变体)、Knowledge Retrieval RAG(embedding/分块/混合检索/向量库管线 + GraphRAG 知识图谱变体 + Agentic RAG 主动推理变体),给出机制、适用场景、陷阱与「上生产前」的工程要点
2026-07-01 19 min
深入讲解 Antonio Gulli《Agentic Design Patterns》第 4–7 章——即 Andrew Ng 经典的四大智能体设计模式:Reflection(Producer–Reviewer 自我反思循环)、Tool Use / Function Calling(六步工具调用循环与「工具即委派」泛化)、Planning(目标导向、可动态重规划,附「解法已知 vs 未知」的关键判据)、Multi-Agent Collaboration(任务分解 + 六种通信模型 + 多种协作拓扑),逐一给出机制、适用场景、陷阱、与 Andrew Ng/Anthropic 的对照,以及 Andrew Ng 的成熟度排序(Reflection/Tool Use 可靠,Planning/Multi-Agent 难预测)
2026-06-30 32 min
系统梳理 2026 年 AI 视频生成——12 种生成模态(文生/图生/首尾帧/视频生视频/运镜/参考图/数字人/世界模型)、U-Net→DiT→Flow Matching 等技术范式、Sora 停服后中国厂商包揽榜首的排行榜(Seedance/Kling/Veo/Hailuo/Vidu)、Wan/HunyuanVideo/LTX-2/CogVideoX 开源选型与显存分级,以及 HF Space/硅基流动/本地 ComfyUI 与即梦·可灵·海螺等国内工具的免费实操路线
2026-06-30 24 min
系统梳理 2026 年「非生成式」的视频生产工具——以 HyperFrames 为代表的「代码渲染成视频」(Video-as-Code) 赛道:HTML/React/Canvas/几何 四种渲染范式、HyperFrames/Remotion/Motion Canvas/Manim/Revideo 五大框架横评(许可证/agent 友好度/定价)、HyperFrames 的 19 个 agent skills 与「让 AI 写代码而非生成像素」的新路线、Creatomate/Shotstack/JSON2Video 等模板/数据驱动 API,并与姊妹篇《AI 视频生成全景》形成「确定性渲染 vs 生成式幻觉」的对照
2026-06-30 13 min
拆解一期播客节目的标准结构(冷开场、片头、主题音乐、正片分段、转场音乐、背景音乐、回顾CTA、片尾、彩蛋、广告位),逐个分析「是否一定必要、为什么、作用是什么」,并给出按节目类型选结构的决策表与最小可行结构(MVP)
2026-06-29 29 min
系统梳理 2026 年 AI 音乐生成——「免费」的三种含义、Suno/Udio 诉讼后的版权红线、自回归/扩散/混合三条技术路线原理、ACE-Step 与 DiffRhythm/YuE/HeartMuLa 的开源选型,以及 HF Space 网页直用、免费 token 调 API 与本地部署的实操指南
2026-06-29 12 min
精读 Claude Code v2.1.88 与 OpenAI Codex CLI 两份源码,用一张表提炼两者在 8 个维度的 harness 设计对比、一张选型清单、5 条可迁移准则,以及一句话核心结论。
2026-06-29 13 min
盘点可免费下载、多数可商用的免版权音乐平台(Pixabay Music、YouTube 音频库、Mixkit、Freesound、Jamendo、FMA 等,含国内淘声网/耳聆网),讲清 CC0/CC-BY/NC 与 Content ID 概念,给出从搜索下载到署名的使用流程,以及通过 API key 调用 Freesound、Jamendo 批量获取的代码示例
2026-06-27 26 min
8 道经典 benchmark 横评 Pollinations 六个免费文生图模型(flux/zimage/gptimage/klein/nova-canvas/gptimage-large):zimage 全篇最强、中文思维导图大字唯一画对、秒级 GET 出图,质量不输 Agnes 还更快;gptimage-large 海报/英文最高保真。
2026-06-27 19 min
30 条视频实测 Pollinations 网关上的 ltx-2:同步 GET 直接吐 MP4,5s 成片约 30-99s(比 Agnes 快一个量级),duration 听话、图生视频锁得住角色;两个坑——audio 假开关(false 仍带音轨)、seed 无效(同 prompt 永远同画面);16:9 须显式传 width/height 才出(1344×768),额度按小时刷新、断点续跑。
2026-06-26 42 min
10 道经典 benchmark + 并发实测 Agnes AI 两个免费图片模型:中英文文字渲染、中文海报、图生图编辑都过关,密集小字与精确数量是短板。
2026-06-26 21 min
28 条 1080p 视频实测 Agnes 免费视频模型:画面勉强能用但文生锁不住角色,图生视频能锁定主体,1 分钟成片约等 1 小时,8 路并发 6.5× 加速。
2026-06-26 44 min
同一套 benchmark 横评智谱 cogview-3-flash / cogvideox-flash vs Agnes:基线过关但文字渲染中英都崩、图生视频 0/3 锁不住人,只有"快"占优。
2026-06-21 18 min
整理 LINUX DO「去AI味十大skill」榜单,按六大方法论派别拆解 humanizer、Humanizer-zh、nuwa-skill 等 10 个写作去味 Skill,提炼可复用的去 AI 味检查清单与改写对照表,并附场景选型与社区实测局限。
2026-06-19 5 min
影视飓风剪辑全能必修课系列笔记第一篇。导学课:剪映安装登录、素材包获取管理、四大界面区域、Final Cut Pro 快捷键预设、素材断连/格式/性能等常见问题排查、剪映云多设备同步。
2026-06-19 20 min
影视飓风剪辑课第一单元笔记。第1课初试成片全流程、第2课口播精剪与A/B-roll协同、第3课混剪与蒙太奇逻辑、第4课音乐音效设计、第5课导出管理。含时间线/轨道/智能剪口播/景别递进/匹配剪辑/库里肖夫效应/J-L Cut/分辨率帧率码率等要点。
2026-06-19 25 min
影视飓风剪辑课第三单元笔记。第10课综艺包装与文本跟踪、第11课平面跟踪运镜、第12课多机位采访剪辑、第13课剪辑思维与时钟理论(熬夜48小时拉片、动态计时器包装)、第14课Vlog样片日记(RGB曲线/色彩克隆)。
2026-06-18 12 min
新版 Codex 砍掉了 wire_api = "chat",直连 GLM/DeepSeek/MiMo 已不可行。用 CC Switch 起本地代理做 Responses↔Chat 协议翻译,三步把 Codex 接入国产模型。
2026-06-17 9 min
整理自 LINUX DO 讨论:未来最好用的 LLM 是最懂"角色扮演"(共情 + 上下文建模)的——用 Claude Code 当主 Agent 翻译意图、指挥 Codex 执行,是一种"人定方向 / 主 Agent 翻译编排 / 执行 Agent 落地"的三层协作架构。
2026-06-17 7 min
整理自 LINUX DO 讨论:vibecoding 的成败在于用软件工程方式管理 Agent——上下文切小、模块边界划清、用文档/Skill 沉淀项目记忆、先对齐再动手、每步可验收。
2026-06-17 11 min
转载自 LINUX DO:黑 GEO(生成式引擎优化)揭秘——如何通过伪造内容给大模型搜索结果"投毒",仅凭两三篇 AI 生成的软文就让虚构人物跻身"专家"榜首。
2026-06-17 39 min
转载自 LINUX DO:一位 AI 方向在读博士生系统分享与 AI 协作的实战经验——"当同事不当工具",涵盖日常使用、科研文献/绘图/写作、Code Agent、定期复盘与 AI 时代生存指南。
2026-06-15 21 min
系统梳理「文章转播客」技术全貌:4 阶段标准工作流、NotebookLM 逆向系统提示词、NotebookLlama/Podcastfy/Mozilla 等开源项目、商业工具横向对比与智谱/通义/MiniMax/讯飞中文生态方案
2026-06-15 23 min
聚焦「单人主播/独白式」播客的 AI 生成,系统梳理单人 vs 双人选型、标准工作流、提示词设计、长文本单音色一致性难点、开源与商业工具及中文生态方案
2026-06-12 23 min
深入讲解 Claude Code 动态工作流的脚本编排模型、运行机制与使用方式,并与 /goal 命令做全面对比。
2026-06-12 36 min
WWDC26 所有视频讲座的统一总结——涵盖 Keynote(#101)、Platforms State of the Union(#102)及 100+ 场技术会话,按 13 大主题分类,附全部会话编号速查表;不含 Group Lab 互动环节。
2026-06-12 10 min
WWDC26 开幕直播(Keynote、PSOTU)与全部 19 场 Group Lab(小组讨论)的要点合集,按天分组整理;补全官方目录中遗漏的场次,附编号与日期的存疑说明。
2026-06-12 4 min
WWDC26(2026 年 6 月 8–12 日)的读者导读——一句话头条、去哪看导航与 13 大主题速览,深度内容链接到《全部视频讲座总结》与《全部 Group Lab 要点》两篇。
2026-06-07 59 min
基于《Agentic Design Patterns》系统介绍 AI Agent 的 21 个核心设计模式,从基础到高级的完整知识体系
2026-06-06 18 min
基于 Sequoia AI Ascent 2026 多位嘉宾分享,梳理 AI 时代五大生存法则、被颠覆的人才经济学、OpenAI 商业哲学、软件 3.0 范式转移,以及人类在智能时代的定位思考。
2026-06-05 20 min
探索图像生成模型(Ideogram 4.0、FIBO、FLUX.2、DALL-E 3)为何转向使用结构化 JSON 格式的 caption 作为训练数据,以及这一趋势带来的收益。
2026-06-04 10 min
讲解自定义 subagent 的定义方式、frontmatter 字段、内置 subagent 类型、安全限制和最佳实践。
2026-06-04 8 min
讲解插件 bin 目录的 PATH 注入机制、脚本要求、常见设计模式及与 Skill 配合的方式。
2026-06-04 19 min
从内置功能和可编程扩展两个维度,全面梳理 Claude Code 除了 StatusLine 之外的有趣特性,涵盖移动编程、自动化调度、插件系统、MCP 集成等。
2026-06-04 13 min
全面讲解生命周期事件体系、hooks.json 配置、五种 Hook 类型、Matcher 过滤、输入输出格式及实战模式。
2026-06-04 9 min
讲解 LSP 集成配置、Claude 通过 LSP 获得的代码智能能力、已有 LSP 插件列表及创建自定义 LSP 插件的方法。
2026-06-04 10 min
讲解 MCP(Model Context Protocol)集成的四种传输类型、.mcp.json 配置方式、插件中 MCP 的使用及环境变量展开。
2026-06-04 9 min
讲解后台监听进程的配置方式、输出传递机制、触发条件、安全考虑及实战示例。
2026-06-04 8 min
讲解回答风格的定义方式、frontmatter 字段、内置风格、优先级机制及自定义风格的创建。
2026-06-04 9 min
介绍 Claude Code 插件系统的整体架构,包括插件定义、目录结构、plugin.json 配置、marketplace 分发机制以及插件生命周期管理。
2026-06-04 10 min
深入讲解 SKILL.md 的写法、frontmatter 配置字段、参数系统、动态命令注入以及 Skill 的类型选型和最佳实践。
2026-06-04 7 min
讲解终端视觉主题的定义方式、颜色 Token 体系、内置主题、热加载机制及自定义主题的创建。
2026-06-04 15 min
以 GLM StatusLine 插件为完整案例,展示从需求分析、能力选型、插件结构设计到核心脚本实现的完整开发过程。
2026-06-03 6 min
介绍如何为 Claude Code 配置自动压缩阈值,在使用 GLM/Z.AI 等 200K 上下文第三方模型时避免上下文超限问题。
2026-06-01 14 min
深入解析 GordenPPTSkill 项目的设计理念、技术架构、模板系统与编辑规则,探索基于 Claude Code Skill 的 PPT 非破坏性编辑自动化方案。
2026-05-29 16 min
基于罗素《幸福之路》的完整内容,系统梳理书中分析的不幸福原因与幸福来源,提炼获得幸福的核心方法。
2026-05-26 22 min
普通人不要只做"使用 AI 的人",而要成为"带着 AI 解决某类具体问题的人"。选一个小场景,持续积累作品、关系、信用和流程。
2026-05-20 19 min
谷歌 I/O 2026 开发者大会全部值得关注的发布内容梳理
2026-05-17 11 min
使用 faster-whisper BatchedInferencePipeline 生成字幕时遇到丢段,经历了怀疑 VAD、改用 model.transcribe、发现参数未传入、以为修好又丢段、最终发现 benchmark 指标量错了的完整排查过程
2026-05-16 30 min
BestBlogs Newsletter #95 学习笔记,梳理 Agent Engineering 从实验走向生产过程中的组织适应与个人价值重构。
2026-05-13 20 min
NVIDIA具身AI负责人Jim Fan阐述机器人技术如何复刻LLM成功路径,提出世界动作模型(WAM)、Ego-Scale数据飞轮和Dream Dojo神经模拟器三大策略,预测2040年前解锁科技树全部成就。
2026-05-13 20 min
OpenAI 总裁 Greg Brockman 与红杉资本对话的观读笔记,涵盖算力扩展、Scaling Laws、AGI 进展、Agent 工作流、人类注意力瓶颈及科学前沿等核心议题。
2026-05-13 21 min
红杉资本 AI Ascent 活动中 Andrej Karpathy 的访谈笔记,探讨软件 3.0 范式、参差不齐的智能、氛围编程与智能体工程的区别,以及人类在 AI 时代的不可替代性。
2026-05-13 19 min
Anthropic 的 Boris Cherny(Claude Code 创造者)在 Sequoia AI Ascent 2026 上分享 AI 编程的现状与未来,从 100% AI 代码接收到多智能体工作流的演进。
2026-05-13 20 min
红杉资本 AI Ascent 2025 活动中 DeepMind 创始人 Demis Hassabis 的访谈笔记,涵盖其跨界历程、DeepMind 创立、AlphaFold 突破、AI for Science、意识哲学以及 AGI 时间表预测。
2026-05-13 24 min
Flapping Airplanes 创始人 Ben 和 Asher Spector 在 Sequoia AI Ascent 2026 上探讨数据效率为何是 AI 渗透实体经济的关键,以及通过系统与算法协同设计突破瓶颈的方法。
2026-05-13 31 min
红杉资本 AI Ascent 2026 大会主题演讲深度笔记,涵盖技术浪潮演进、Agent 爆发、认知革命与未来展望
2026-05-13 20 min
ElevenLabs 联合创始人 Mati Staniszewski 在 Sequoia AI Ascent 2026 上分享语音 AI 的演进,从情感智能到音频通用人工智能,以及语音代理的应用前景。
2026-05-13 20 min
Unconventional AI CEO Naveen Rao 在 Sequoia AI Ascent 2026 上探讨 AI 计算的能源瓶颈,提出利用非线性动力学和非冯·诺依曼架构突破效率极限的方案。
2026-05-13 18 min
Oege de Moor 在 Sequoia AI Ascent 2026 上关于自主AI黑客崛起的演讲笔记,介绍 XBOW 如何在 HackerOne 登顶全球第一,以及网络安全面临的紧迫挑战。
2026-05-13 17 min
红杉资本 AI Ascent 活动中 AlphaChip 联合创始人 Anna Goldie 和 Azalia Mirhoseini 的演讲笔记,介绍新公司 Ricursive Intelligence 如何用 AI 颠覆芯片设计流程,从 Fabless 走向 Designless 时代。
2026-05-13 18 min
红杉资本 AI Ascent 活动中 StarCloud CEO Philip Johnston 的演讲笔记,论证太空数据中心的经济可行性,涵盖 88000 颗卫星星座规划、热耗散与辐射挑战、以及从推理到训练的太空计算路线图。
2026-05-13 17 min
红杉资本 AI Ascent 活动中 Waymo 联合 CEO Dmitri Dolgov 的访谈笔记,涵盖自动驾驶发展历程、Waymo 基础模型架构、端到端与结构化表征、安全文化及全球商业化展望。
2026-05-06 6 min
阅读 linux.do 上睡小觉分享的 AI 协作手册公开版,梳理其核心方法论与实践建议,以及评论区有价值讨论的笔记。
2026-05-02 31 min
全面梳理 10 个主流开源 TTS 语音合成模型,涵盖 VoxCPM2、Qwen3-TTS、CosyVoice3、GPT-SoVITS 等,对比参数规模、音质、克隆能力、部署难度与免费 API 渠道