Xinference v2.5.0 发布

探索全新的模型支持、增强的 Web UI 配置管理以及更可靠的系统恢复能力。

✅ 本次亮点

🧠

新模型支持

Qwen3-TTS 系列（0.6B / 1.7B，Base / CustomVoice / VoiceDesign）
Gemma-4

🖥

Web UI 配置增强

支持在浏览器本地保存多个模型部署配置（localStorage）
更方便在不同模型 / 参数组合之间切换与复用

🔁

模型副本恢复增强

Supervisor 重启后支持自动重连并恢复模型副本状态
提升系统可靠性与容错能力

🌐 社区版更新

📦 安装方式

pip 安装：pip install 'xinference==2.5.0'

Docker：拉取最新版镜像，或在容器中使用 pip 更新

🆕 新模型支持

Qwen3-TTS-12Hz-0.6B / 1.7B（Base / CustomVoice / VoiceDesign）
Gemma-4

✨ 新特性

sglang 支持 Qwen3.5
新增 Qwen3-TTS 音频模型支持
WebUI 支持本地保存模型部署配置
Supervisor 重启后支持模型副本自动恢复

🛠 功能增强

自动检测 PyTorch CUDA 版本，用于虚拟环境配置
新增轻量级 worker 心跳机制（liveness detection）
优化模型部署进度与 worker 状态展示
持续更新模型 JSON 配置

🐞 Bug 修复

修复认证凭证比较的安全问题（CWE-208）
修复 Qwen3 reranker 在 vLLM 下精度问题
修复 Qwen3.5 streaming API tag 错误
修复 Jinja 模板中 `{% break %}` 解析问题（如 Kimi K2.5）
修复 qwen3-vl embedding 在 vLLM 下的问题

📚 文档更新

新增 v2.4.0 发布说明

🏢 企业版更新

🔧 1.0.2 版本发布

大量稳定性修复与优化

🎉 其他

👏 恭喜 @ZhikaiGuo960110 晋升为 Xinference Maintainer 🎉