radaisystems/triton-fastapi Docker Image Overview

radaisystems/triton-fastapi

集成Nvidia Triton Inference Server与FastAPI的Docker镜像，用于简化机器学习模型部署、提供高性能推理服务及快速构建API接口，支持多框架模型管理与高效请求处理。

0 次下载activeradaisystems镜像

🚀专业版镜像服务，面向生产环境设计

中文简介版本下载

🚀专业版镜像服务，面向生产环境设计

Nvidia Triton Serving 与 FastAPI 集成镜像文档

镜像概述

本Docker镜像集成了Nvidia Triton Inference Server（以下简称Triton）与FastAPI，旨在简化机器学习（ML）模型的生产级部署流程，同时提供快速构建API接口的能力。通过整合Triton的高性能推理服务与FastAPI的异步API开发框架，该镜像可一站式解决模型管理、推理服务部署及业务接口开发需求，适用于需要高效模型服务与灵活API集成的场景。

核心功能与特性

Triton Inference Server 核心能力

多框架支持：兼容TensorFlow、PyTorch、ONNX、TensorRT等主流ML框架模型，无需修改模型即可直接部署。
动态模型管理：支持模型热加载、版本控制及A/B测试，无需重启服务即可更新模型。
性能优化：内置动态批处理、模型并行/数据并行、推理缓存等机制，提升GPU/CPU资源利用率。
监控与可观测性：提供Prometheus指标接口，支持推理性能、请求延迟等关键指标监控。

FastAPI 核心能力

异步高性能：基于Starlette框架，支持异步请求处理，吞吐量优于传统同步API框架。
自动API文档：内置Swagger UI与ReDoc，自动生成交互式API文档，简化接口调试与对接。
类型提示与验证：支持Python类型提示，自动进行请求参数验证，减少开发错误。
轻量灵活：极简核心设计，易于扩展，可快速集成业务逻辑。

集成特性

无缝协作：FastAPI作为前端接口层接收业务请求，自动路由至Triton进行推理计算，降低服务集成复杂度。
统一部署流程：通过Docker容器化，简化环境依赖管理，确保开发与生产环境一致性。
多协议支持：同时提供HTTP/gRPC接口（Triton原生）与RESTful API（FastAPI），适配不同业务接入需求。

使用场景与适用范围

典型应用场景

企业级ML模型服务部署：需管理多版本、多框架模型，同时对外提供标准化API接口的场景。
快速原型验证：数据科学家或算法团队需快速将训练好的模型转化为可调用API，验证业务效果。
推理服务与业务系统集成：需将ML推理能力嵌入现有业务系统，通过API实现低耦合对接。
多模型统一管理：需集中管理多个异构模型（如分类、检测、NLP模型），并提供统一访问入口。

适用用户

ML工程师与数据科学家：简化模型部署流程，快速验证模型效果。
后端开发人员：无需深入ML框架细节，即可集成推理能力至业务系统。
企业IT团队：统一管理模型服务与API接口，降低运维复杂度。

使用方法与配置说明

前置要求

运行环境需支持Docker（19.03+）及nvidia-docker（用于GPU加速，可选）。
模型文件需按Triton模型仓库规范组织（详见Triton模型仓库结构）。

基础使用（Docker Run）

bash
docker run -d \
  --name triton-fastapi-server \
  -p 8000:8000  # FastAPI端口 \
  -p 8001:8001  # Triton HTTP端口 \
  -p 8002:8002  # Triton gRPC端口 \
  -v /path/to/local/models:/models  # 挂载本地模型仓库 \
  -e TRITON_MODEL_REPOSITORY=/models \
  -e FASTAPI_HOST=0.0.0.0 \
  -e FASTAPI_PORT=8000 \
  --gpus all  # 如需GPU加速（可选） \
  nvidia-triton-fastapi:latest

Docker Compose 配置示例

yaml
version: '3.8'
services:
  triton-fastapi:
    image: nvidia-triton-fastapi:latest
    container_name: triton-fastapi-server
    ports:
      - "8000:8000"  # FastAPI接口
      - "8001:8001"  # Triton HTTP推理接口
      - "8002:8002"  # Triton gRPC推理接口
    volumes:
      - ./models:/models  # 本地模型仓库路径
    environment:
      - TRITON_MODEL_REPOSITORY=/models  # Triton模型仓库路径（容器内）
      - FASTAPI_HOST=0.0.0.0  # FastAPI绑定地址
      - FASTAPI_PORT=8000  # FastAPI服务端口
      - TRITON_LOG_LEVEL=info  # Triton日志级别（debug/info/warn/error）
      - FASTAPI_RELOAD=false  # 开发模式自动重载（生产环境建议关闭）
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all  # 使用所有GPU
              capabilities: [gpu]

核心配置参数说明

环境变量

变量名	说明	默认值
`TRITON_MODEL_REPOSITORY`	Triton模型仓库在容器内的路径	`/models`
`FASTAPI_HOST`	FastAPI服务绑定地址	`0.0.0.0`
`FASTAPI_PORT`	FastAPI服务端口	`8000`
`TRITON_HTTP_PORT`	Triton HTTP服务端口	`8001`
`TRITON_GRPC_PORT`	Triton gRPC服务端口	`8002`
`TRITON_LOG_LEVEL`	Triton日志级别（debug/info/warn/error）	`info`
`FASTAPI_RELOAD`	FastAPI开发模式自动重载	`false`

模型仓库结构要求

模型需按Triton规范组织，示例结构如下：

/models
  /resnet50  # 模型名称
    /1  # 版本号
      model.onnx  # 模型文件（支持ONNX/TensorFlow SavedModel/PyTorch等）
      config.pbtxt  # 模型配置文件（定义输入输出、批处理策略等）
  /bert  # 另一个模型
    /1
      model.pt
      config.pbtxt

验证服务可用性

FastAPI接口文档：访问 http://<容器IP>:8000/docs，查看自动生成的API文档并测试接口。
Triton健康检查：访问 http://<容器IP>:8001/v2/health/ready，返回{"ready": true}表示Triton服务就绪。
推理请求测试：通过FastAPI接口或直接调用Triton接口发送推理请求，验证模型推理功能。