Xinference v2.4.0 重磅发布 (2026-03-29)

新版本带来了多项核心功能升级与性能优化,全面提升了模型推理的稳定性和部署的灵活性。

核心高光更新

可观测性升级

全面支持 OpenTelemetry 作为可观测平台,提供更深入的系统运行指标监控与追踪分析。

ARM 架构支持

新增 aarch64 镜像 支持,完美适配 NVIDIA DGX Spark 等 ARM CPU 架构机器的部署需求。

企业版专属优化

企业版针对 1.0 版本进行了深度优化和体验增强,带来更稳定、高效的商业级应用表现。

社区建设

热烈祝贺 @leslie2046 凭借卓越的代码贡献,正式晋升为 Xinference 核心 Maintainer!🎉

详细更新日志

新特性 (New Features)

  • FEAT引入 OTEL (OpenTelemetry) - @leslie2046 (#4666)
  • FEAT[UI] 添加 Xagent 链接 - @yiboyasss (#4693)
  • FEAT[UI] 移除 featured/all 切换,优先显示推荐模型 - @yiboyasss (#4694)
  • FEATvllm: 支持 v0.18.0 版本 - @llyycchhee (#4718)
  • FEAT添加 GPU 负载监控指标 - @leslie2046 (#4712)
  • FEAT升级基础镜像至 0.17.1 并增加 aarch64 镜像支持 - @zwt-1234 (#4726)
  • FEATci: 修复 aarch64 构建问题 - @zwt-1234 (#4735)

功能增强 (Enhancements)

  • ENH更新模型 "qwen3.5" JSON 配置 - @qinxuye (#4689), @llyycchhee (#4707)
  • ENH更新 llm 模型 JSON 配置 - @XprobeBot (#4710, #4713)
  • ENH适配 vllm > 0.16.0 中 Embedding 模型的 normalize 参数 - @la1ty (#4729)
  • BLD调整 Requirements 依赖版本 - @zwt-1234 (#4736, #4737, #4738)
  • REF并行化 supervisor 模型注册列表加载 - @leslie2046 (#4690)

问题修复 (Bug Fixes)

  • BUG修复异步客户端 FormData 处理及响应生命周期问题 - @qinxuye (#4687)
  • BUG修复 MLX 后端在最终输出中累积中间生成步骤的问题 - @nasircsms (#4617)
  • FIXworker: 通过 .pth 文件将父环境 site-packages 注入子虚拟环境 - @nasircsms (#4692)
  • BUG修复多卡启动 qwen3.5 时的错误 - @llyycchhee (#4700)
  • FIX为 qwen3.5 增加 tool call 支持及相关修复 - @llyycchhee (#4703, #4709)
  • FIX修复 qwen3.5 推理过程解析问题 - @llyycchhee (#4719)
  • FIXqwen3.5: 在非流式模式下支持类 XML 格式的 tool call - @amumu96 (#4715)
  • FIX修复 gpu_utilization 为 None 时导致的 WebUI 崩溃问题 - @leslie2046 (#4728)

文档 (Documentation)

  • DOC补充 v2.3.0 版本发布说明 - @qinxuye (#4688)
  • DOC在 README 中添加 Xagent 相关说明 - @qinxuye (#4699)