✅ 本次亮点
🧠
新增模型支持
- • Qwen3-4B Instruct / Thinking
- • MiniCPM-V 4.5
⚙️
VLLM 引擎增强
- • 支持多模型加载(multi-model)
- • 支持 AWQ 8bit 量化
- • CUDA 12.8 镜像中 VLLM 升级至 0.10.2
🖼️
OpenAI Image Edit API 支持
可直接兼容 images/edits 接口,提升图像编辑与生成类模型的兼容性。
🌐 社区版更新
📦 安装方式
pip
pip install 'xinference==1.11.0.post1'
Docker
拉取最新版镜像或在容器中使用 pip 更新
🆕 新模型支持
Qwen3-4B
Instruct / Thinking 版本
MiniCPM-V 4.5
视觉语言模型
✨ 新特性
OpenAI image edit API 支持
VLLM 支持多模型加载(含 Omni、图像、视频、音频模型)
VLLM 支持 AWQ 8bit 量化
CUDA 12.8 镜像升级 VLLM 至 0.10.2
🛠 功能增强与修复
修复 UI 中 n_gpu_layers=-1 时按钮失效的问题
修复 CI 构建及 CUDA 12.8 Dockerfile 问题
同步多模态模型 JSON(音频、图像、视频、LLM)
🏢 企业版更新
🚀 Kubernetes Operator 初步支持
支持模型副本自动调度与生命周期管理,为集群化推理提供统一接口
🔒 稳定性增强
修复了一些已知问题,整体运行更加稳定可靠