✅ 本次亮点
🧠
新模型支持
- Qwen3-TTS 系列(0.6B / 1.7B,Base / CustomVoice / VoiceDesign)
- Gemma-4
🖥
Web UI 配置增强
- 支持在浏览器本地保存多个模型部署配置(localStorage)
- 更方便在不同模型 / 参数组合之间切换与复用
🔁
模型副本恢复增强
- Supervisor 重启后支持自动重连并恢复模型副本状态
- 提升系统可靠性与容错能力
🌐 社区版更新
📦 安装方式
pip 安装:pip install 'xinference==2.5.0'
Docker:拉取最新版镜像,或在容器中使用 pip 更新
🆕 新模型支持
- Qwen3-TTS-12Hz-0.6B / 1.7B(Base / CustomVoice / VoiceDesign)
- Gemma-4
✨ 新特性
- sglang 支持 Qwen3.5
- 新增 Qwen3-TTS 音频模型支持
- WebUI 支持本地保存模型部署配置
- Supervisor 重启后支持模型副本自动恢复
🛠 功能增强
- 自动检测 PyTorch CUDA 版本,用于虚拟环境配置
- 新增轻量级 worker 心跳机制(liveness detection)
- 优化模型部署进度与 worker 状态展示
- 持续更新模型 JSON 配置
🐞 Bug 修复
- 修复认证凭证比较的安全问题(CWE-208)
- 修复 Qwen3 reranker 在 vLLM 下精度问题
- 修复 Qwen3.5 streaming API tag 错误
- 修复 Jinja 模板中 `{% break %}` 解析问题(如 Kimi K2.5)
- 修复 qwen3-vl embedding 在 vLLM 下的问题
📚 文档更新
- 新增 v2.4.0 发布说明
🏢 企业版更新
🔧 1.0.2 版本发布
大量稳定性修复与优化
🎉 其他
👏 恭喜 @ZhikaiGuo960110 晋升为 Xinference Maintainer 🎉