🚀 Xinference v2.1.0 更新日志

欢迎升级体验 Xinference v2.1.0！本次更新带来了多项模型支持与功能增强。

✅ 本次亮点

            🧠 GLM-4.7 / GLM-4.7-Flash 支持
            新增对 GLM-4.7 及 GLM-4.7-Flash 的完整支持，进一步扩展 GLM 系列模型生态。
        

            🎤 Qwen3-ASR 系列上线
            新增 Qwen3-ASR-0.6B 和 Qwen3-ASR-1.7B，完整支持 Qwen3-ASR 语音识别模型，覆盖轻量与高性能两类场景。
        

            🖼️ FLUX.2-Klein 系列支持
            新增 FLUX.2-Klein-4B 和 FLUX.2-Klein-9B，强化图像生成与编辑能力，持续完善 FLUX 生态支持。
        

            🔁 MinerU2.5-2509-1.2B 调整
            对 MinerU2.5-2509-1.2B 模型进行更新与调整，优化模型配置与适配流程。
        

🌐 社区版更新

📦 安装方式

pip 安装：pip install 'xinference==2.1.0'

Docker：拉取最新版镜像，或在容器中使用 pip 更新

🆕 新模型支持

GLM-4.7
GLM-4.7-Flash
Qwen3-ASR-0.6B / 1.7B
FLUX.2-Klein-4B / 9B

🛠 功能增强

更新 DeepSeek-V3.2 / DeepSeek-V3.2-Exp 模型配置
优化镜像构建依赖（约束 setuptools < 82）
重构 API 层结构：
- 提取 Pydantic 请求 Schema
- 路由注册模块化拆分，代码结构更清晰

🐞 Bug 修复

修复 vLLM embedding 模型报错问题
修复 vLLM reranker 评分异常
修复 vLLM reranker GPU 释放异常
兼容 vLLM async tokenizer 处理逻辑
修复 CI 中 setuptools 相关问题

📚 文档更新

新增 v2.0.0 发布说明

🏢 企业版更新

🔧 稳定性增强：包含多项底层优化与问题修复，提升整体运行稳定性与企业级部署可靠性。