【读书笔记】Sequoia AI Ascent 2026（十）：Mati Staniszewski — 语音如何成为 AI 的交互界面

2026-05-13 20 min

返回首页

早期创业故事与灵感起源

00:02 ElevenLabs 的人类视角：

深厚的友谊： Mati Staniszewski 分享了他与联合创始人 Piotr（一位波兰的发小）的深厚友谊。他们相识于高中，一起上课、旅行、学习和工作。这段长达十多年的默契是公司初创的基石（演讲者原话：“时间在我们这边，我们仍然是最好的朋友，这很奏效。”）。
波兰配音文化的启发： * 示例/类比： 在波兰，所有的外语电影（无论男女角色）传统上都是由单一配音员（Lektor）以单调的声音进行全程叙述。
演讲者用意： 这种糟糕的用户体验让人们只能自己去脑补电影中的情感。这一痛点成为了创办 ElevenLabs 的直接灵感，让他们意识到解决音频领域的情感和语调问题是一项巨大的机遇。
核心愿景： ElevenLabs 的目标是让所有人都能以同样的情感和语调说任何语言，打破有声书、新闻文章以及日常交流中的语言障碍。他们认为，在未来当人形机器人普及后，语音将成为这些技术的主要交互界面。

打造前沿模型 (Frontier Model) 的反直觉策略

02:11 在资本密集时代以非传统方式破局：

主持人提问：在如今打造前沿模型动辄需要数十亿美元的时代，ElevenLabs 在 2022 年是如何以不同的方式起步的？

天时与赛道选择（2022 年）： 当时正值 Crypto 和元宇宙的热潮，几乎没有人在研究 AI 领域的音频。即使有人研究 AI，也多集中在文本和视觉领域，音频被视为一个”冷门”。
技术门槛与数据挑战： 音频模型相对较小，需要的算力 (Compute) 比其他 AI 领域要少。然而，数据需求极高。解决音频问题的核心在于如何有效地转录 (Transcribe) 和标注 (Annotate) 海量音频数据，并且找到优秀的架构方法。
远程黑客式招聘： 公司最初在伦敦和华沙两地运作，采用完全远程的模式。
示例： 他们通过 GitHub 抓取 (Scraping) 的方式，不是根据候选人的简历或地理位置，而是纯粹基于候选人的开源代码贡献和实际作品来进行接触和招聘。这种方式帮助他们集结了世界顶级的音频研究人员。
极早商业化以反哺 R&D： 与许多烧钱的 AI 公司不同，ElevenLabs 非常迅速地推出了产品并实现了商业化变现 (Monetization)，保持健康的利润率，以此来资助模型研发的持续投入，保持开发的独立性。

ElevenLabs 的产品矩阵与研发演进

05:17 从单点突破到全栈音频模型：

文本到语音 (Text-to-Speech, TTS)： 第一个落地的模型，不仅能朗读，还能理解文本上下文并赋予正确的情感和语调（例如：快乐的句子用快乐的语气读，对话就用对话的语气）。
语音到文本 (Speech-to-Text, STT)： 为了解决视频配音 (Dubbing) 问题，他们增加了转录和翻译的环节，从而实现了完整的跨语言配音闭环。
实时语音引擎 (Voice Engine)： 随着大语言模型的推理速度加快，ElevenLabs 推出了实时流媒体音频模型，并将其与话权转换 (Turn-taking) 和编排 (Orchestration) 结合，打造出了可以交互的语音代理 (Voice Agent)。
音乐生成模型： 在解决情感表达后，他们攻克了音频领域最难的模态之一——音乐。如今 ElevenLabs 的模型矩阵涵盖了 TTS、STT、语音代理编排以及音乐生成。

惊艳时刻与未来技术突破

07:21 产品能力上的”顿悟时刻 (Wow Moments)”：

个人声音克隆： Mati 听到自己带有独特口音的声音被完美克隆时的震撼。
AI 学会笑： 第一次让 AI 发出自然的笑声和停顿，这是让体验变得”更像人类”的关键，并成功登上了 Hacker News 的榜首。
Matthew McConaughey 跨语种演讲： * 示例： 著名演员 Matthew McConaughey 的通讯信被翻译成西班牙语和葡萄牙语，他的家人第一次听到”他”用这些语言发音。
08:33 即将推出的两项重大突破：

情感智能 (Emotional Intelligence) 语音交互： 模型不仅能输出情感，还能感知对方。如果用户感到压力，AI 会用安抚的语气；如果用户语速慢，AI 也会放慢语速同步。
音频通用人工智能 (Audio General Intelligence)： 将多个音频模型整合进一个音频流中。例如：模型可以先用正常的说话声进行旁白，停顿后，用同一种声音直接开始唱歌。

语音代理 (Voice Agents) 的应用与被低估的机遇

09:42 颠覆传统交互场景：

从客户支持到创收场景 (Revenue Generating)： 语音代理不再局限于传统的按键式客服，而是走向了销售（Inbound/Outbound Sales）。
示例 (Deliveroo)： 外卖平台 Deliveroo 用语音代理打电话给餐厅确认营业时间，从而自动更新骑手、司机和顾客的应用信息。
示例 (德国电信)： 顾客不再填写表单，而是直接与语音代理对话完成服务咨询和购买。由于是自然对话，系统能捕捉到比表单丰富得多的客户背景信息。
被低估的领域：公民支持与医疗/教育：
乌克兰政府的公民热线： 由于战争前线缺乏网络接入政府 App，乌克兰部署了语音代理。公民可以通过打电话了解前线情况、获取教育资源，甚至接收主动的安全预警。
24/7 交互式名师辅导 (Education)：
示例与类比： 想象你可以戴着耳机，随时向理查德·费曼学习物理，或者向 Andrej Karpathy 请教 AI。
Masterclass 的合作案例： 与 Masterclass 合作推出的互动课程。你可以一边做饭一边让戈登·拉姆齐 (Gordon Ramsay) 对你大吼大叫来提升厨艺；或者你可以通过与前 FBI 谈判专家克里斯·沃斯 (Chris Voss) 进行实战电话模拟谈判来学习谈判技巧。

时代浪潮下的反直觉公司管理经验

14:02 年收入过亿的 400 人团队如何保持高效：

极小团队模式： 尽管拥有超 1 亿美元的新增 ARR（年度经常性收入）和 400 名员工，每个研究、产品、市场或人力团队都被严格限制在极小的规模（通常少于 10 人），保持扁平化。
非技术团队嵌入工程师 (Engineers in non-technical teams)：
在 HR、GTM（走向市场）、法务等团队中配备工程师。这些工程师帮助非技术人员使用 AI 工具编写自动化代码，并对这些 AI 生成的代码进行安全、基础设施和输出质量的审查 (Review)。
法务条款的”积分制 (Scoring System)“创新：
示例： 在处理销售合同（如赔偿条款、责任上限）时，为了避免每次都向 CEO 汇报，他们为不同规模的客户设定了”积分系统”。销售团队可以在一定积分额度内自主向客户让步（Give clauses），全程自动化。
无头衔制 (No Titles)： 公司没有传统职级头衔，完全以个人产生的影响力为导向进行优化。

现场问答环节 (Q&A)

17:13 Q1：关于代理谈判 (Agents Negotiating) 及其未来形态

真正的 AI 谈判还在早期（多为询价下单）。但他们看到有初创公司使用代理给多个场地方打电话比价，再根据预算进行第二轮通话。未来情感智能将在此发挥关键作用（何时停顿、如何传达信息）。
代理与代理对话 (Agent-to-Agent)： * 示例： 在黑客松中，两个代理互相打电话。它们一旦检测到对方也是 AI，就自动切换到了另一种语言或更高频、更高效的信息传输协议，不再使用人类的有声语言（“beep boop” 式的底层通信）。

19:26 Q2：当代理完成大量工作后，人与人对话的价值何在？

语音是释放智能的瓶颈： 随着周围机器人和设备的增多，语音将成为调度和指挥这些智能核心的刚需。
人与人互动的溢价： 随着 AI 生成内容的泛滥，真实的人类互动（如线下活动、现场音乐会）的价值将会飙升。
信任验证 (Trust Encoding)： 未来的信任范式将反转。如今我们用工具去检测”什么是 AI 生成的”；未来，任何信息默认都会被假定为”AI 伪造的”，人类只有通过嵌入式的水印和加密验证，才能证明内容是”真实的你”所发出的。

21:17 Q3：音频领域是否存在”智能参差 (Jagged Intelligence)“现象？

（注：参差智能指模型在某些复杂任务上表现极佳，但在某些简单任务上却意外失败）。
在客服和初步销售场景中，模型工作非常可靠。但在真正深刻的情感交互上，模型的响应速度和情感共鸣仍有欠缺。
音乐领域： 目前 AI 能生成非常好的背景/商业制作音乐 (Production Music)，但即便有艺术家的提示，也还无法生成统治音乐排行榜 (Top charts) 的现象级单曲。

23:37 Q4：音频模型的护城河 (Moats) 是什么？大厂和初创公司的差异？

重要引述： “我最近有幸见到了黄仁勋 (Jensen Huang)，他评论我们的模型时说：‘语音到文本 (STT) 是纯粹的技术，而文本到语音 (TTS) 是一门艺术，而你们都是艺术家。’ 这让我们终生成为了英伟达的客户。”
护城河在于：

数据的”How”： 不仅是收集说了”什么”，而是给声音打标签——这需要雇佣上千名声乐教练、音乐家对情感、声音特质进行极其细致的幕后标注（在未来 12-24 个月内产生深远价值）。
产品化与生态整合： 模型只是技术栈的一小部分。真正的壁垒在于如何将模型与企业知识库融合、与底层通信系统 (Telephony system) 整合以降低延迟，并建立拥有数十万用户上传克隆声音的创作者生态。

视觉参考描述

视频未展示任何演示文稿 (PPT)。开场画面为黑色背景，带有白色虚线构成的抽象等高线/波浪图案，左侧有垂直的坐标轴（类似示波器或参数轴）。右侧带有活动主题文字”AI Ascent”以及演讲者字幕”Mati Staniszewski / ElevenLabs”。剩余部分均为舞台上两人的对谈镜头。

高层级摘要

在这场深入的对谈中，ElevenLabs 联合创始人 Mati Staniszewski 分享了公司从波兰糟糕的配音文化中汲取灵感，最终成长为领先的 AI 语音平台的创业历程。他探讨了音频模型发展的未来——从最初的纯文本转语音，走向具备情感智能、能进行复杂编排的实时语音引擎，并最终迈向音频通用人工智能。同时，他还分享了在当下 AI 浪潮中，通过极小的工程化跨职能团队实现高效管理的商业洞见。他预见了一个语音交互无处不在的未来，在这个未来中，“真实人类声音”的认证将比识别 AI 更加重要。

关键要点列表 (Top 12 Insights)

情感是破局点： ElevenLabs 的初衷不仅仅是生成语音，而是跨越语言障碍复制人类的”情感和语调”。
反共识的切入时机： 2022 年大厂在扎堆元宇宙，ElevenLabs 抓住了算力需求相对较低但痛点极大的音频生态空窗期。
基于作品的极客式招聘： 通过抓取 GitHub 代码而非看简历来寻找顶级音频研究人员，构建全远程顶尖团队。
尽早商业化： 尽早推出产品获取收入，用健康的现金流保持模型研发的独立性。
从工具到通用智能： 音频 AI 正在向 Audio General Intelligence 演进（同一个模型连续无缝地旁白、停顿、唱歌）。
情感智能代理的到来： 下一代 Voice Agent 能够感知用户的压力和情绪，并相应地调整自己的语速和语调进行安抚或共鸣。
B 端应用向”创收中心”转移： 语音代理不再只是售后客服，正在被广泛应用于电话销售、信息主动收集（如外卖平台核对商家时间）中。
沉浸式互动的崛起： AI 语音让教育从”看视频”变成”与虚拟名人（如戈登·拉姆齐）实时双向互动”。
管理创新： 400 人公司维持”极小团队”架构（10 人以下），并在法务、HR 等非技术团队中安插工程师以开发 AI 自动化工具。
代理间通信协议： 未来 AI Agent 互通电话时，将放弃人类语音，转而采用更高频、高压缩比的机器信息传输协议。
未来的”保真”信任范式反转： 未来将默认所有数字内容都是 AI 生成的假货，人类需要靠复杂的认证体系来证明自己是真人。
护城河在于艺术与细节： TTS（文本转语音）不仅是技术，更是艺术。护城河来源于上千名声乐专家对”声音情绪”的深层次精细标注。

技术术语词汇表

TTS (Text-to-Speech)： 文本转语音技术。将输入的文本文字转化为对应的人类自然语音。
STT (Speech-to-Text)： 语音转文本技术。识别一段音频并将其转录为可读的文字（如字幕生成）。
Frontier Model (前沿模型)： 指在人工智能领域处于技术最尖端、能力最强、通常需要大量算力训练的基础模型。
Voice Agent (语音代理/语音助手)： 一种能通过口语与用户进行多轮实时交互的人工智能系统，不仅能发声，还能结合推理能力理解意图并执行任务。
Audio General Intelligence (音频通用人工智能)： 一种高度发达的统一音频模型概念，能在单一流中处理和生成所有音频模态（如说话、环境音、唱歌），而无需切换不同的模型。
Orchestration (编排)： 在 AI 系统中，指将多个子系统或模型（如语音识别、推理、语音合成）进行协调管理，以实现低延迟的对话和自然的话权交替（Turn-taking）。
Jagged Intelligence (参差智能)： 由 AI 专家提出的一种现象，指大模型的能力分布非常不均匀——在某些极其复杂的任务上表现惊人，却在一些直觉性的简单任务上失败。
ARR (Annual Recurring Revenue)： 年度经常性收入。衡量订阅制商业模式（SaaS）公司财务健康和规模的关键指标。

读书笔记 AI前沿