Xinference v2.5.0 发布

探索全新的模型支持、增强的 Web UI 配置管理以及更可靠的系统恢复能力。

✅ 本次亮点

🧠

新模型支持

  • Qwen3-TTS 系列(0.6B / 1.7B,Base / CustomVoice / VoiceDesign)
  • Gemma-4
🖥

Web UI 配置增强

  • 支持在浏览器本地保存多个模型部署配置(localStorage)
  • 更方便在不同模型 / 参数组合之间切换与复用
🔁

模型副本恢复增强

  • Supervisor 重启后支持自动重连并恢复模型副本状态
  • 提升系统可靠性与容错能力

🌐 社区版更新

📦 安装方式

pip 安装:pip install 'xinference==2.5.0'

Docker:拉取最新版镜像,或在容器中使用 pip 更新

🆕 新模型支持

  • Qwen3-TTS-12Hz-0.6B / 1.7B(Base / CustomVoice / VoiceDesign)
  • Gemma-4

新特性

  • sglang 支持 Qwen3.5
  • 新增 Qwen3-TTS 音频模型支持
  • WebUI 支持本地保存模型部署配置
  • Supervisor 重启后支持模型副本自动恢复

🛠 功能增强

  • 自动检测 PyTorch CUDA 版本,用于虚拟环境配置
  • 新增轻量级 worker 心跳机制(liveness detection)
  • 优化模型部署进度与 worker 状态展示
  • 持续更新模型 JSON 配置

🐞 Bug 修复

  • 修复认证凭证比较的安全问题(CWE-208)
  • 修复 Qwen3 reranker 在 vLLM 下精度问题
  • 修复 Qwen3.5 streaming API tag 错误
  • 修复 Jinja 模板中 `{% break %}` 解析问题(如 Kimi K2.5)
  • 修复 qwen3-vl embedding 在 vLLM 下的问题

📚 文档更新

  • 新增 v2.4.0 发布说明

🏢 企业版更新

🔧 1.0.2 版本发布

大量稳定性修复与优化

🎉 其他

👏 恭喜 @ZhikaiGuo960110 晋升为 Xinference Maintainer 🎉