Ray Serve LLM 通过 24 倍提升增强分布式推理

Ray Serve LLM 通过新的直接流式传输、HAProxy 集成和 vLLM 后端升级，吞吐量提高了 24 倍，推动了 LLM 推理的发展。

Ray Serve LLM Enhances Distributed Inference with 24x Boost

Ray Serve LLM 是一个专为分布式大语言模型 (LLM) 推理而定制的框架，它宣布了一系列突破性的优化，可在解码繁重的工作负载上提供高达 24 倍的吞吐量。这些更新是与 Google Kubernetes Engine (GKE) 合作开发的，解决了关键性能瓶颈，并使 Ray Serve LLM 成为可扩展、低延迟 LLM 部署领域的领导者。

三大架构升级正在推动性能飞跃：

直接流：这项创新在 Ray 2.56 中引入，将路由决策与响应流解耦，从而大大减少延迟。通过启用 HAProxy 建立与目标副本的直接 HTTP 连接，消除了与中间路由层相关的开销。这提高了每个输出令牌的时间 (TPOT) 效率，特别是对于解码繁重的任务。
vLLM Ray Executor 后端 V2：改进后的后端利用异步调度和改进的流程管理来优化推理管道。默认情况下，后端包含在 vLLM 0.21.0 中，有助于更好地利用资源并减少编排开销。
HAProxy 集成：基于 C 语言的 HAProxy 入口负载均衡器与禁用 TCP 数据报缓冲（Nagle 算法）等优化相结合，显着提高了吞吐量和流性能。这些更新可在 Ray 的最新容器镜像中找到。

基准凸显了这些更新的变革性影响。在输入序列长度 (ISL) 为 8,000 且输出序列长度 (OSL) 为 50 的预填充繁重工作负载中，Ray Serve LLM 实现的吞吐量比其基准高出 4.4 倍。在解码繁重的工作负载（ISL 50、OSL 500）上，它实现了惊人的 24 倍改进。真实的代理多回合场景，模拟编码代理交互，确认 Ray Serve LLM 现在在首次令牌时间 (TTFT) 和吞吐量等关键指标上匹配或优于 vLLM 路由器。

对于跨多 GPU 和多节点集群扩展法学硕士的企业来说，这些更新将改变游戏规则。 Ray Serve LLM 的独特架构允许预填充解码分解，这意味着提示处理（预填充）和令牌生成（解码）阶段可以独立扩展。这种灵活性与 Ray 的容错性和可观察性功能相结合，使其成为生产级 LLM 服务的多功能选择。

Ray Serve LLM 的直接流式传输和增强型 vLLM 后端特别适合需要高并发和低延迟的工作负载。例如，在使用八个 Qwen3-0.6B 副本的测试中，Ray Serve LLM 在 TTFT 中匹配或优于 vLLM 路由器（例如，在预填充繁重的场景中为 355 毫秒与 389 毫秒）和解码繁重的工作负载（165 毫秒与 190 毫秒）。效率的提高源于HAProxy的直接连接和减少的路由开销。

随着 LLM 推理需求的增长，这些优化巩固了 Ray Serve LLM 在市场中的地位。历史上，竞争框架一直在努力平衡大规模吞吐量、容错性和资源效率。通过解决这些挑战，Ray Serve LLM 为开发人员提供了一个与引擎无关的单一平台，能够处理从隔离扩展到复杂的多副本部署的所有事务。

开发人员可以在 Ray 2.56 中试验这些功能，并利用更新的容器映像，例如 rayproject/ray-llm:2.56-py312-cu130，其中包括最新的优化。有关实施、基准测试和配置的更多详细信息，请访问官方公告。

凭借这些进步，Ray Serve LLM 已准备好为下一代分布式 AI 应用提供动力，使企业能够以前所未有的效率和可靠性部署大规模 LLM。

书签