import Timeline from ’../../components/Timeline.astro’; import ArchitectureDiagram from ’../../components/ArchitectureDiagram.astro’; import DataChart from ’../../components/DataChart.astro’; import TeamMember from ’../../components/TeamMember.astro’; import InfoBox from ’../../components/InfoBox.astro’;
export const timelineData = [ { date: “2023年初”, title: “项目启动”, description: “GPT-4.5项目开始规划,为新计算集群做准备” }, { date: “2023年中”, title: “初步实验阶段”, description: “进行大量风险验证运行,测试架构和方法” }, { date: “2024年”, title: “全面训练阶段”, description: “在大规模计算集群上进行正式训练” }, { date: “2025年初”, title: “模型完成”, description: “GPT-4.5训练完成并进入内部测试” }, { date: “2025年Q2”, title: “发布”, description: “GPT-4.5正式发布,用户反应超出预期” } ];
export const efficiencyData = [ { category: “人类学习”, efficiency: 1, color: “#34D399” }, { category: “GPT-4.5”, efficiency: 100000, color: “#3B82F6” }, { category: “GPT-4”, efficiency: 250000, color: “#8B5CF6” }, { category: “GPT-3.5”, efficiency: 500000, color: “#EC4899” } ];
本报告深入分析了OpenAI发布的一段视频,其中Sam Altman与核心技术人员(Alex Paino、Amin Tootoonchian、Daniel Selsam)讨论了代号为”GPT-4.5”的模型预训练过程。不同于典型的产品发布会,这次讨论聚焦于前沿AI模型开发背后的研究、工程挑战和经验教训。
对话揭示了几个关键主题:
- 用户对GPT-4.5的反应远超内部预期,显示出明显的能力跃升
- 预训练过程规模庞大且复杂,跨越数年时间,涉及数百人员和大量计算资源
- 机器学习(ML)研究与系统工程之间的关键协同作用
- 从”计算受限”向”数据受限”的转变
- 大规模训练面临的固有不可预测性和调试困难(以”torch.sum bug”为例)
- 对数据效率和容错能力提升的持续追求
这次讨论强调,开发此类模型是一项多层面的长期工作,需要精心规划、风险降低、持续适应和跨学科深度协作,同时推动算法理解和基础设施能力的边界。尽管在数据效率等方面存在局限,团队对未来进展仍持乐观态度,认为扩展法则和算法创新将继续推动发展。
引言:解密GPT-4.5
视频片段以OpenAI首席执行官Sam Altman设定的不寻常前提开始:不是宣布新产品推出,而是聚焦于一个重要模型(具体称为”GPT-4.5”)背后的研究和开发历程。这一框架标志着向技术透明度的转变,旨在揭示创建最先进大型语言模型(LLMs)过程中常常不透明的环节。
Altman强调了这次讨论的关键动机:用户对GPT-4.5假设性发布后出人意料的积极反应。他指出,尽管OpenAI为这个模型感到自豪,但用户反馈表明其性能飞跃远超内部预期。用户描述的体验与GPT-4有着深刻的不同,虽然他们常常难以准确表达改进的确切性质,但能够认识到其重要性。公众对于这种飞跃是如何实现的强烈好奇,促使OpenAI召集了负责创建该模型的核心团队成员。
<p className="mt-4">这次讨论的目标是深入探讨构建"像这样的巨型模型"所需的研究、经验教训和纯粹的努力。</p>
核心参与者
<div className="space-y-4">
<TeamMember
name="Alex Paino"
role="技术人员"
specialty="预训练数据专家,负责GPT-4.5预训练运行的ML方面"
avatar="/images/team/alex-paino.jpg"
/>
<TeamMember
name="Amin Tootoonchian"
role="首席系统架构师"
specialty="负责监督OpenAI的系统和网络基础设施,对大规模训练至关重要"
avatar="/images/team/amin-tootoonchian.jpg"
/>
<TeamMember
name="Daniel Selsam"
role="技术人员"
specialty="专注于数据效率和算法改进,解决如何最大化利用可用数据的挑战"
avatar="/images/team/daniel-selsam.jpg"
/>
</div>
大模型预训练的规模与时间线
对话一开始就确立了所涉及的巨大规模。当被问及创建这样一个模型需要什么时,Alex Paino简洁地回答:“很多人,很多时间,很多计算。“
时间线概述
Paino详细说明,GPT-4.5项目实际上始于其潜在发布前约两年。这一延长的时间线不仅仅是为了训练运行本身,还包括了广泛的准备阶段。
资源预期
启动项目的一个重要驱动因素是知道一个新的、规模更大的计算集群将变得可用。这凸显了硬件进步与AI模型扩展之间的共生关系——一方面的进步既促进又需要另一方面的进步。
准备阶段
这一多年期准备涉及:
- 广泛规划:定义目标、潜在架构和资源需求
- 风险降低:运行小规模实验来验证假设并识别潜在障碍(“大型风险验证运行”)。这一点至关重要,因为全规模训练运行成本高昂且耗时;失败代价巨大
- 功能验证:在内部说服团队包含特定功能或架构变更
- 全栈集成:制定涵盖整个技术栈的综合计划,从底层系统和网络(Amin的领域)到ML算法和数据策略(Alex和Daniel的领域)
训练运行
即使在广泛准备之后,实际的训练运行也被描述为”非常大的努力”,需要大量的操作监督和持续努力。
讨论的这一初始部分强调,预训练前沿模型不是一个快速过程,而是一项战略性的长期投资,需要对硬件可用性的前瞻性和广泛的多学科准备工作。
机器学习与系统工程的相互作用
首席系统架构师Amin Tootoonchian强调了ML和系统团队从一开始(“inception”)就合作的基本重要性。这不是一个ML设计模型而系统实现它的顺序过程;相反,它是一个持续的共同设计努力。
共同设计的必要性
模型的设计(ML方面)和基础设施的能力(系统方面)深度交织。模型中的架构选择影响系统需求(例如,网络带宽、内存),反之,系统限制约束了哪些模型架构可行或高效训练。
ML与系统团队的共同设计流程
ML团队
设计模型架构、算法和训练方法
- 定义数据需求
- 设计损失函数
- 优化训练算法
<div className="bg-white rounded-lg p-4 shadow-sm transform md:translate-y-4">
<h4 className="font-bold text-purple-600">协作区域</h4>
<p>共同解决挑战和优化</p>
<ul className="list-disc pl-5 mt-2 text-sm">
<li>系统架构影响ML设计</li>
<li>ML需求驱动系统创新</li>
<li>实时调整和适应</li>
</ul>
</div>
<div className="bg-white rounded-lg p-4 shadow-sm">
<h4 className="font-bold text-indigo-600">系统团队</h4>
<p>构建和优化基础设施</p>
<ul className="list-disc pl-5 mt-2 text-sm">
<li>设计网络拓扑</li>
<li>优化内存使用</li>
<li>确保容错和可伸缩性</li>
</ul>
</div>
处理不完美和不确定性
Tootoonchian坦率地承认,尽管进行了精心规划和预测,他们”几乎总是带着许多未解决的问题进入发布阶段”。这部分是由于开发节奏快,目标是在最新计算资源一旦可用就立即利用它们。这个过程不是完美执行一个完美计划,而是拥有一个强大的流程来识别和解决训练运行期间的意外问题。
预测与现实
初始系统性能预测与运行期间遇到的现实之间往往存在显著差距。系统团队的角色涉及不断工作以”缩小差距”——诊断瓶颈、修复硬件/软件故障,以及即时优化性能。
权衡
在以已知(但可能可控)问题更早发布模型与显著延迟以实现更完美稳定的系统状态之间存在固有的张力。OpenAI似乎倾向于发布并迭代,接受一定程度的操作复杂性。
这一观点强调,构建大型AI模型既是工程和操作挑战,也是科学挑战。管理复杂、容易失败的大规模分布式系统的能力至关重要。
扩展挑战与调试复杂性:torch.sum Bug案例
讨论深入探讨了扩展训练运行时遇到的实际困难,特别是诊断失败的挑战。
规模放大罕见问题
在较小规模(如在几十个GPU上训练)时可能在统计上不显著或不可观察的问题,在运行在数万或数十万GPU上时可能变得频繁甚至”灾难性”。在运行数万亿步的巨型集群上,一个百万步中发生一次的罕见硬件故障或微妙软件bug会变成持续中断。
案例研究:torch.sum Bug
Tootoonchian提供了一个引人注目的真实案例:
<h4 className="font-bold mt-4 text-slate-700">症状</h4>
<p>团队在GPT-4.5训练运行期间观察到许多表面上不同的正确性问题和崩溃。这些问题难以隔离和重现。</p>
<h4 className="font-bold mt-4 text-slate-700">调试过程</h4>
<p>多位工程师和团队花费了相当多的时间("很多IC时间")调查这些问题,探索各种与硬件故障、数据损坏或OpenAI自身代码库中的bug相关的假设。</p>
<h4 className="font-bold mt-4 text-slate-700">假设池</h4>
<p>团队讨论包括对几个开放线索中最可能的根本原因进行投票。</p>
<h4 className="font-bold mt-4 text-slate-700">出人意料的罪魁祸首</h4>
<p>根据团队的初步评估,最不可能的假设竟然是正确的:PyTorch库中torch.sum函数的一个微妙bug。这个bug依赖于数据,只在与输入数据模式相关的特定、不频繁条件下触发,导致非法内存访问。</p>
<h4 className="font-bold mt-4 text-slate-700">解决方案与影响</h4>
<p>一旦被识别并修复(通过修补上游库或实现变通方法),这个单一bug解决了团队一直在追查的所有主要未解决的正确性问题。</p>
</div>
<div className="md:w-1/3">
<div className="bg-white p-4 rounded-lg shadow-sm">
<h4 className="font-bold text-center mb-2 text-slate-800">torch.sum Bug调试流程</h4>
<img src="/images/diagrams/debugging-flow.svg" alt="调试流程图" className="w-full" />
<p className="text-xs text-center mt-2 text-slate-500">从症状观察到根因分析的调试过程</p>
</div>
<div className="bg-white p-4 rounded-lg shadow-sm mt-4">
<h4 className="font-bold text-center mb-2 text-slate-800">关键教训</h4>
<ul className="list-disc pl-5 text-sm space-y-2">
<li>症状可能具有误导性</li>
<li>根本原因可能隐藏在外部依赖中</li>
<li>由于计算量大,不频繁的问题成为主要障碍</li>
<li>需要强大的监控和诊断工具</li>
<li>系统性问题解决方法至关重要</li>
</ul>
</div>
</div>
失败率
虽然没有给出GPT-4.5的精确数字,但Tootoonchian确认失败(需要重启或干预)是显著的,尤其是在新硬件世代或新软件堆栈的运行早期阶段。系统状态不断改善,但早期阶段在操作上通常”相当痛苦”。
数据效率与算法前沿
Daniel Selsam和Alex Paino将焦点转向算法和数据方面,特别是数据效率这一新兴瓶颈。
从计算受限到数据受限的转变
长期以来,训练更大模型的主要限制是原始计算能力的可用性。然而,该领域(至少对于OpenAI的前沿模型如GPT-4.5)正在进入一个高质量、多样化数据的可用性成为更重要约束的领域。计算资源继续快速增长,可能超过有用新训练数据的生成速度。
数据效率
Selsam将其确定为未来研究的关键领域。挑战在于开发能够从相同数量的数据中更有效学习的算法。
与人类的比较
人类被视为数据效率的基准,与当前LLM相比,从相对有限的接触中学习大量知识。Selsam估计差距可能是10万至100万倍或更多,将当前模型描述为在语言任务数据效率方面”天文学地遥远”。
无监督学习作为压缩
Dan Selsam提供了关于为什么无监督预训练(如下一个token预测)如此有效的有趣观点。他将其与压缩概念和为数据找到最简单的潜在解释联系起来(链接到诸如Solomonoff归纳和Kolmogorov复杂度等思想)。通过强制模型在广泛多样的数据集上准确预测下一个token,它隐式学习语法、事实、推理模式和关于世界的抽象,因为这些是”压缩”和预测数据的最有效方式。
扩展法则的魔力
团队重申了扩展法则的力量——模型性能(通常通过测试损失或困惑度测量)随着计算、数据大小和模型大小的增加而可预测地改进的观察。
<p className="mt-4">至关重要的是,更低的测试损失(更好的压缩/预测)与广泛的下游能力和涌现智能的改进一致相关,即使是那些没有明确训练的能力。</p>
<p className="mt-4">这种"神奇"属性允许他们通过从较小运行中推断来预测更大模型的能力,为投资大规模训练努力提供信心基础。</p>
<p className="mt-4">Selsam指出,这种扩展特性在GPT-4.5上表现良好。</p>
</div>
<div className="bg-white rounded-lg p-4 shadow-sm">
<img src="/images/diagrams/scaling-laws.svg" alt="扩展法则图表" className="w-full" />
<p className="text-xs text-center mt-2 text-slate-500">模型测试损失随计算量、参数数量和数据量的变化</p>
<div className="mt-4 p-3 bg-amber-50 rounded-lg">
<h4 className="font-bold text-amber-800">扩展法则的影响</h4>
<ul className="list-disc pl-5 mt-2 text-sm space-y-1">
<li>允许预测更大模型性能</li>
<li>指导资源分配决策</li>
<li>帮助识别最佳投资点</li>
<li>解释涌现能力的出现</li>
</ul>
</div>
</div>
未来方向与展望
对话以对未来需求和可能性的思考结束。
未来扩展的关键需求
数据效率 (Dan)
重申为首要任务。寻找算法突破以缩小与人类学习效率的差距。
容错能力 (Amin)
管理更大、可能更长时间训练运行在可能不太可靠的未来硬件上的必要条件。需要系统和工作负载(ML)之间的共同设计。
改进系统 (Amin)
更好的网络传输层,可以优雅地处理故障而不需要应用程序级干预。继续需要平衡系统(计算、内存、网络)。更多内存带宽"永远不会有害"。
算法创新 (Alex)
寻找更好的方法来利用有限数据,特别是针对特定领域或能力。
一千万GPU的问题
当被问及人类是否会在单个同步运行中同时使用1000万个GPU训练模型时,共识是微妙的:
关于极端规模训练的专家观点
Alex Paino
认为这种规模的某种训练是可能的,但它可能与当前的预训练范式不同。它可能看起来"完全不同"。
<div className="flex flex-col md:flex-row gap-4 items-start">
<div className="md:w-16 w-12">
<img src="/images/team/amin-tootoonchian-circle.jpg" alt="Amin Tootoonchian" className="rounded-full w-full" />
</div>
<div>
<h4 className="font-bold text-purple-700">Amin Tootoonchian</h4>
<p>建议这种规模可能需要"半同步"方法,承认在如此庞大的系统中维持同步和容错的巨大挑战,可能会挑战"自然法则"(或至少是当前的工程实践)。</p>
</div>
</div>
<div className="flex flex-col md:flex-row gap-4 items-start">
<div className="md:w-16 w-12">
<img src="/images/team/daniel-selsam-circle.jpg" alt="Daniel Selsam" className="rounded-full w-full" />
</div>
<div>
<h4 className="font-bold text-green-700">Daniel Selsam</h4>
<p>暗示这种大规模可能通过更分散的方法而不是单一整体预训练运行实现。</p>
</div>
</div>
持续乐观
尽管面临挑战,但明显存在乐观的潜流。扩展法则的可预测性提供了坚实基础,对算法改进(尤其是数据效率)和系统共同设计的关注提供了前进的道路。规模产生的能力”魔力”继续推动该领域发展。
结论
OpenAI关于GPT-4.5预训练的讨论为开发前沿AI模型背后的复杂、资源密集和高度协作过程提供了宝贵见解。它强调了几个关键点:
大规模投入
构建GPT-4.5这样的模型需要多年规划周期、数百名专家、庞大计算资源和重要财务投资。
系统-ML共同设计
成功取决于机器学习研究和系统工程团队从构思到执行的深度整合和持续协作。
应对复杂性和不确定性
大规模训练涉及处理不可预见问题、调试微妙罕见bug(如torch.sum示例)和动态调整计划。完美的先验规划是不可能的。
扩展法则的力量与神秘
规模(计算、数据、参数)与性能(测试损失、涌现能力)之间可预测关系仍是核心驱动力,即使涌现智能的确切机制尚未完全理解。通过压缩(下一个token预测)的预训练非常有效。
瓶颈转变
虽然计算历来是主要约束,但高质量数据和模型从中学习的效率(数据效率)正成为越来越关键的瓶颈。
未来挑战
持续进步可能依赖于数据效率算法创新、增强系统容错能力,以及管理更大规模的潜在新训练范式(如半同步或更分散方法)。
通过分享这些见解,OpenAI提供了对大规模AI开发的严峻现实和激动人心前沿的一瞥,强调进步是研究、工程和运营领域持续、多方面努力的结果。