🚀 Xinference v2.1.0 更新日志
欢迎升级体验 Xinference v2.1.0!本次更新带来了多项模型支持与功能增强。
✅ 本次亮点
🧠 GLM-4.7 / GLM-4.7-Flash 支持
新增对 GLM-4.7 及 GLM-4.7-Flash 的完整支持,进一步扩展 GLM 系列模型生态。
🎤 Qwen3-ASR 系列上线
新增 Qwen3-ASR-0.6B 和 Qwen3-ASR-1.7B,完整支持 Qwen3-ASR 语音识别模型,覆盖轻量与高性能两类场景。
🖼️ FLUX.2-Klein 系列支持
新增 FLUX.2-Klein-4B 和 FLUX.2-Klein-9B,强化图像生成与编辑能力,持续完善 FLUX 生态支持。
🔁 MinerU2.5-2509-1.2B 调整
对 MinerU2.5-2509-1.2B 模型进行更新与调整,优化模型配置与适配流程。
🌐 社区版更新
📦 安装方式
- pip 安装:
pip install 'xinference==2.1.0'
- Docker:拉取最新版镜像,或在容器中使用 pip 更新
🆕 新模型支持
- GLM-4.7
- GLM-4.7-Flash
- Qwen3-ASR-0.6B / 1.7B
- FLUX.2-Klein-4B / 9B
🛠 功能增强
- 更新 DeepSeek-V3.2 / DeepSeek-V3.2-Exp 模型配置
- 优化镜像构建依赖(约束
setuptools < 82)
- 重构 API 层结构:
- 提取 Pydantic 请求 Schema
- 路由注册模块化拆分,代码结构更清晰
🐞 Bug 修复
- 修复 vLLM embedding 模型报错问题
- 修复 vLLM reranker 评分异常
- 修复 vLLM reranker GPU 释放异常
- 兼容 vLLM async tokenizer 处理逻辑
- 修复 CI 中 setuptools 相关问题
📚 文档更新
🏢 企业版更新
- 🔧 稳定性增强:包含多项底层优化与问题修复,提升整体运行稳定性与企业级部署可靠性。