Xinference v1.11.0.post1

更新日志 Release Notes · xinference.cn

本次亮点

🧠

新增模型支持

  • • Qwen3-4B Instruct / Thinking
  • • MiniCPM-V 4.5
⚙️

VLLM 引擎增强

  • • 支持多模型加载(multi-model)
  • • 支持 AWQ 8bit 量化
  • • CUDA 12.8 镜像中 VLLM 升级至 0.10.2
🖼️

OpenAI Image Edit API 支持

可直接兼容 images/edits 接口,提升图像编辑与生成类模型的兼容性。

🌐 社区版更新

📦 安装方式

pip pip install 'xinference==1.11.0.post1'
Docker 拉取最新版镜像或在容器中使用 pip 更新

🆕 新模型支持

Qwen3-4B

Instruct / Thinking 版本

MiniCPM-V 4.5

视觉语言模型

新特性

OpenAI image edit API 支持

VLLM 支持多模型加载(含 Omni、图像、视频、音频模型)

VLLM 支持 AWQ 8bit 量化

CUDA 12.8 镜像升级 VLLM 至 0.10.2

🛠 功能增强与修复

修复 UI 中 n_gpu_layers=-1 时按钮失效的问题

修复 CI 构建及 CUDA 12.8 Dockerfile 问题

同步多模态模型 JSON(音频、图像、视频、LLM)

🏢 企业版更新

🚀 Kubernetes Operator 初步支持

支持模型副本自动调度与生命周期管理,为集群化推理提供统一接口

🔒 稳定性增强

修复了一些已知问题,整体运行更加稳定可靠