【读书笔记】Sequoia AI Ascent 2026(十):Mati Staniszewski — 语音如何成为 AI 的交互界面
早期创业故事与灵感起源
00:02 ElevenLabs 的人类视角:
深厚的友谊: Mati Staniszewski 分享了他与联合创始人 Piotr(一位波兰的发小)的深厚友谊。他们相识于高中,一起上课、旅行、学习和工作。这段长达十多年的默契是公司初创的基石(演讲者原话:“时间在我们这边,我们仍然是最好的朋友,这很奏效。”)。
波兰配音文化的启发: * 示例/类比: 在波兰,所有的外语电影(无论男女角色)传统上都是由单一配音员(Lektor)以单调的声音进行全程叙述。
演讲者用意: 这种糟糕的用户体验让人们只能自己去脑补电影中的情感。这一痛点成为了创办 ElevenLabs 的直接灵感,让他们意识到解决音频领域的情感和语调问题是一项巨大的机遇。
核心愿景: ElevenLabs 的目标是让所有人都能以同样的情感和语调说任何语言,打破有声书、新闻文章以及日常交流中的语言障碍。他们认为,在未来当人形机器人普及后,语音将成为这些技术的主要交互界面。
打造前沿模型 (Frontier Model) 的反直觉策略
02:11 在资本密集时代以非传统方式破局:
主持人提问:在如今打造前沿模型动辄需要数十亿美元的时代,ElevenLabs 在 2022 年是如何以不同的方式起步的?
天时与赛道选择(2022年): 当时正值 Crypto 和元宇宙的热潮,几乎没有人在研究 AI 领域的音频。即使有人研究 AI,也多集中在文本和视觉领域,音频被视为一个”冷门”。
技术门槛与数据挑战: 音频模型相对较小,需要的算力 (Compute) 比其他 AI 领域要少。然而,数据需求极高。解决音频问题的核心在于如何有效地转录 (Transcribe) 和标注 (Annotate) 海量音频数据,并且找到优秀的架构方法。
远程黑客式招聘: 公司最初在伦敦和华沙两地运作,采用完全远程的模式。
示例: 他们通过 GitHub 抓取 (Scraping) 的方式,不是根据候选人的简历或地理位置,而是纯粹基于候选人的开源代码贡献和实际作品来进行接触和招聘。这种方式帮助他们集结了世界顶级的音频研究人员。
极早商业化以反哺 R&D: 与许多烧钱的 AI 公司不同,ElevenLabs 非常迅速地推出了产品并实现了商业化变现 (Monetization),保持健康的利润率,以此来资助模型研发的持续投入,保持开发的独立性。
ElevenLabs 的产品矩阵与研发演进
05:17 从单点突破到全栈音频模型:
- 文本到语音 (Text-to-Speech, TTS): 第一个落地的模型,不仅能朗读,还能理解文本上下文并赋予正确的情感和语调(例如:快乐的句子用快乐的语气读,对话就用对话的语气)。
- 语音到文本 (Speech-to-Text, STT): 为了解决视频配音 (Dubbing) 问题,他们增加了转录和翻译的环节,从而实现了完整的跨语言配音闭环。
- 实时语音引擎 (Voice Engine): 随着大语言模型的推理速度加快,ElevenLabs 推出了实时流媒体音频模型,并将其与话权转换 (Turn-taking) 和编排 (Orchestration) 结合,打造出了可以交互的语音代理 (Voice Agent)。
- 音乐生成模型: 在解决情感表达后,他们攻克了音频领域最难的模态之一——音乐。如今 ElevenLabs 的模型矩阵涵盖了 TTS、STT、语音代理编排以及音乐生成。
惊艳时刻与未来技术突破
07:21 产品能力上的”顿悟时刻 (Wow Moments)”:
- 个人声音克隆: Mati 听到自己带有独特口音的声音被完美克隆时的震撼。
- AI 学会笑: 第一次让 AI 发出自然的笑声和停顿,这是让体验变得”更像人类”的关键,并成功登上了 Hacker News 的榜首。
- Matthew McConaughey 跨语种演讲: * 示例: 著名演员 Matthew McConaughey 的通讯信被翻译成西班牙语和葡萄牙语,他的家人第一次听到”他”用这些语言发音。
08:33即将推出的两项重大突破:
- 情感智能 (Emotional Intelligence) 语音交互: 模型不仅能输出情感,还能感知对方。如果用户感到压力,AI 会用安抚的语气;如果用户语速慢,AI 也会放慢语速同步。
- 音频通用人工智能 (Audio General Intelligence): 将多个音频模型整合进一个音频流中。例如:模型可以先用正常的说话声进行旁白,停顿后,用同一种声音直接开始唱歌。
语音代理 (Voice Agents) 的应用与被低估的机遇
09:42 颠覆传统交互场景:
从客户支持到创收场景 (Revenue Generating): 语音代理不再局限于传统的按键式客服,而是走向了销售(Inbound/Outbound Sales)。
示例 (Deliveroo): 外卖平台 Deliveroo 用语音代理打电话给餐厅确认营业时间,从而自动更新骑手、司机和顾客的应用信息。
示例 (德国电信): 顾客不再填写表单,而是直接与语音代理对话完成服务咨询和购买。由于是自然对话,系统能捕捉到比表单丰富得多的客户背景信息。
被低估的领域:公民支持与医疗/教育:
乌克兰政府的公民热线: 由于战争前线缺乏网络接入政府 App,乌克兰部署了语音代理。公民可以通过打电话了解前线情况、获取教育资源,甚至接收主动的安全预警。
24/7 交互式名师辅导 (Education):
示例与类比: 想象你可以戴着耳机,随时向理查德·费曼学习物理,或者向 Andrej Karpathy 请教 AI。
Masterclass 的合作案例: 与 Masterclass 合作推出的互动课程。你可以一边做饭一边让戈登·拉姆齐 (Gordon Ramsay) 对你大吼大叫来提升厨艺;或者你可以通过与前 FBI 谈判专家克里斯·沃斯 (Chris Voss) 进行实战电话模拟谈判来学习谈判技巧。
时代浪潮下的反直觉公司管理经验
14:02 年收入过亿的 400 人团队如何保持高效:
极小团队模式: 尽管拥有超 1 亿美元的新增 ARR(年度经常性收入)和 400 名员工,每个研究、产品、市场或人力团队都被严格限制在极小的规模(通常少于 10 人),保持扁平化。
非技术团队嵌入工程师 (Engineers in non-technical teams):
在 HR、GTM(走向市场)、法务等团队中配备工程师。这些工程师帮助非技术人员使用 AI 工具编写自动化代码,并对这些 AI 生成的代码进行安全、基础设施和输出质量的审查 (Review)。
法务条款的”积分制 (Scoring System)“创新:
示例: 在处理销售合同(如赔偿条款、责任上限)时,为了避免每次都向 CEO 汇报,他们为不同规模的客户设定了”积分系统”。销售团队可以在一定积分额度内自主向客户让步(Give clauses),全程自动化。
无头衔制 (No Titles): 公司没有传统职级头衔,完全以个人产生的影响力为导向进行优化。
现场问答环节 (Q&A)
17:13 Q1:关于代理谈判 (Agents Negotiating) 及其未来形态
- 真正的 AI 谈判还在早期(多为询价下单)。但他们看到有初创公司使用代理给多个场地方打电话比价,再根据预算进行第二轮通话。未来情感智能将在此发挥关键作用(何时停顿、如何传达信息)。
- 代理与代理对话 (Agent-to-Agent): * 示例: 在黑客松中,两个代理互相打电话。它们一旦检测到对方也是 AI,就自动切换到了另一种语言或更高频、更高效的信息传输协议,不再使用人类的有声语言(“beep boop” 式的底层通信)。
19:26 Q2:当代理完成大量工作后,人与人对话的价值何在?
- 语音是释放智能的瓶颈: 随着周围机器人和设备的增多,语音将成为调度和指挥这些智能核心的刚需。
- 人与人互动的溢价: 随着 AI 生成内容的泛滥,真实的人类互动(如线下活动、现场音乐会)的价值将会飙升。
- 信任验证 (Trust Encoding): 未来的信任范式将反转。如今我们用工具去检测”什么是 AI 生成的”;未来,任何信息默认都会被假定为”AI 伪造的”,人类只有通过嵌入式的水印和加密验证,才能证明内容是”真实的你”所发出的。
21:17 Q3:音频领域是否存在”智能参差 (Jagged Intelligence)“现象?
- (注:参差智能指模型在某些复杂任务上表现极佳,但在某些简单任务上却意外失败)。
- 在客服和初步销售场景中,模型工作非常可靠。但在真正深刻的情感交互上,模型的响应速度和情感共鸣仍有欠缺。
- 音乐领域: 目前 AI 能生成非常好的背景/商业制作音乐 (Production Music),但即便有艺术家的提示,也还无法生成统治音乐排行榜 (Top charts) 的现象级单曲。
23:37 Q4:音频模型的护城河 (Moats) 是什么?大厂和初创公司的差异?
- 重要引述: “我最近有幸见到了黄仁勋 (Jensen Huang),他评论我们的模型时说:‘语音到文本 (STT) 是纯粹的技术,而文本到语音 (TTS) 是一门艺术,而你们都是艺术家。’ 这让我们终生成为了英伟达的客户。”
- 护城河在于:
- 数据的”How”: 不仅是收集说了”什么”,而是给声音打标签——这需要雇佣上千名声乐教练、音乐家对情感、声音特质进行极其细致的幕后标注(在未来 12-24 个月内产生深远价值)。
- 产品化与生态整合: 模型只是技术栈的一小部分。真正的壁垒在于如何将模型与企业知识库融合、与底层通信系统 (Telephony system) 整合以降低延迟,并建立拥有数十万用户上传克隆声音的创作者生态。
视觉参考描述
视频未展示任何演示文稿 (PPT)。开场画面为黑色背景,带有白色虚线构成的抽象等高线/波浪图案,左侧有垂直的坐标轴(类似示波器或参数轴)。右侧带有活动主题文字”AI Ascent”以及演讲者字幕”Mati Staniszewski / ElevenLabs”。剩余部分均为舞台上两人的对谈镜头。
高层级摘要
在这场深入的对谈中,ElevenLabs 联合创始人 Mati Staniszewski 分享了公司从波兰糟糕的配音文化中汲取灵感,最终成长为领先的 AI 语音平台的创业历程。他探讨了音频模型发展的未来——从最初的纯文本转语音,走向具备情感智能、能进行复杂编排的实时语音引擎,并最终迈向音频通用人工智能。同时,他还分享了在当下 AI 浪潮中,通过极小的工程化跨职能团队实现高效管理的商业洞见。他预见了一个语音交互无处不在的未来,在这个未来中,“真实人类声音”的认证将比识别 AI 更加重要。
关键要点列表 (Top 12 Insights)
- 情感是破局点: ElevenLabs 的初衷不仅仅是生成语音,而是跨越语言障碍复制人类的”情感和语调”。
- 反共识的切入时机: 2022 年大厂在扎堆元宇宙,ElevenLabs 抓住了算力需求相对较低但痛点极大的音频生态空窗期。
- 基于作品的极客式招聘: 通过抓取 GitHub 代码而非看简历来寻找顶级音频研究人员,构建全远程顶尖团队。
- 尽早商业化: 尽早推出产品获取收入,用健康的现金流保持模型研发的独立性。
- 从工具到通用智能: 音频 AI 正在向 Audio General Intelligence 演进(同一个模型连续无缝地旁白、停顿、唱歌)。
- 情感智能代理的到来: 下一代 Voice Agent 能够感知用户的压力和情绪,并相应地调整自己的语速和语调进行安抚或共鸣。
- B端应用向”创收中心”转移: 语音代理不再只是售后客服,正在被广泛应用于电话销售、信息主动收集(如外卖平台核对商家时间)中。
- 沉浸式互动的崛起: AI 语音让教育从”看视频”变成”与虚拟名人(如戈登·拉姆齐)实时双向互动”。
- 管理创新: 400人公司维持”极小团队”架构(10人以下),并在法务、HR 等非技术团队中安插工程师以开发 AI 自动化工具。
- 代理间通信协议: 未来 AI Agent 互通电话时,将放弃人类语音,转而采用更高频、高压缩比的机器信息传输协议。
- 未来的”保真”信任范式反转: 未来将默认所有数字内容都是 AI 生成的假货,人类需要靠复杂的认证体系来证明自己是真人。
- 护城河在于艺术与细节: TTS(文本转语音)不仅是技术,更是艺术。护城河来源于上千名声乐专家对”声音情绪”的深层次精细标注。
技术术语词汇表
- TTS (Text-to-Speech): 文本转语音技术。将输入的文本文字转化为对应的人类自然语音。
- STT (Speech-to-Text): 语音转文本技术。识别一段音频并将其转录为可读的文字(如字幕生成)。
- Frontier Model (前沿模型): 指在人工智能领域处于技术最尖端、能力最强、通常需要大量算力训练的基础模型。
- Voice Agent (语音代理/语音助手): 一种能通过口语与用户进行多轮实时交互的人工智能系统,不仅能发声,还能结合推理能力理解意图并执行任务。
- Audio General Intelligence (音频通用人工智能): 一种高度发达的统一音频模型概念,能在单一流中处理和生成所有音频模态(如说话、环境音、唱歌),而无需切换不同的模型。
- Orchestration (编排): 在 AI 系统中,指将多个子系统或模型(如语音识别、推理、语音合成)进行协调管理,以实现低延迟的对话和自然的话权交替(Turn-taking)。
- Jagged Intelligence (参差智能): 由 AI 专家提出的一种现象,指大模型的能力分布非常不均匀——在某些极其复杂的任务上表现惊人,却在一些直觉性的简单任务上失败。
- ARR (Annual Recurring Revenue): 年度经常性收入。衡量订阅制商业模式(SaaS)公司财务健康和规模的关键指标。