server - Triton 推理服务器提供优化的云和边缘推理解决方案。

Created at: 2018-10-05 05:10:30

Language: Python

编号: https://github.com/triton-inference-server/server

License: BSD-3-Clause

海卫一推理服务器

最新版本：你当前位于主分支上，该分支跟踪下一个版本的开发进度。当前版本是 2.24.0 版，对应于 NVIDIA GPU 云（NGC）上的 22.07 容器版本。

Triton推理服务器是一种开源推理服务软件，可简化AI推理。Triton使团队能够从多个深度学习和机器学习框架部署任何AI模型，包括张量RT，张量流，PyTorch，ONNX，OpenVINO，蟒蛇，RAPIDS FIL等。Triton 支持跨云、数据中心、边缘和嵌入式设备（NVIDIA GPU、x86 和 ARM CPU）或 AWS 推理进行推理。Triton 为许多查询类型提供优化的性能，包括实时、批处理、融合和音频/视频流。

主要功能包括：

支持多个深度学习框架
支持多种机器学习框架
并发模型执行
动态批处理
有状态模型的序列批处理和隐式状态管理
提供后端 API，允许添加自定义后端和预/后处理操作
使用集成或业务逻辑脚本（BLS）对管道进行建模
基于社区开发的KServe协议的 HTTP/REST 和 GRPC 推理协议
C API 和 Java API 允许 Triton 直接链接到你的应用程序，用于边缘和其他进程内用例
指示 GPU 利用率、服务器吞吐量、服务器延迟等的指标

需要企业支持？NVIDIA 全球支持适用于带有 NVIDIA AI 企业软件套件的海卫一推理服务器。

通过3个简单的步骤为模特提供服务

# Step 1: Create the example model repository 
git clone -b r22.07 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh

# Step 2: Launch triton from the NGC Triton container
docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models nvcr.io/nvidia/tritonserver:22.07-py3 tritonserver --model-repository=/models

# Step 3: Sending an Inference Request 
# In a separate console, launch the image_client example from the NGC Triton SDK container
docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:22.07-py3-sdk
/workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg

# Inference should return the following
Image '/workspace/images/mug.jpg':
    15.346230 (504) = COFFEE MUG
    13.224326 (968) = CUP
    10.422965 (505) = COFFEEPOT

有关此示例的其他信息，请阅读快速入门指南。快速入门指南还包含如何在仅 CPU 系统上启动 Triton 的示例。海卫一新手，想知道从哪里开始？观看入门视频。

示例和教程

查看 NVIDIA 启动板，免费访问一组动手实验室，其中包含托管在 NVIDIA 基础设施上的 Triton 推理服务器。

热门模型（如 ResNet、BERT 和 DLRM）的特定端到端示例位于 GitHub 上的 NVIDIA 深度学习示例页面中。NVIDIA 开发人员专区包含其他文档、演示文稿和示例。

文档

构建和部署

构建和使用 Triton 推理服务器的推荐方法是使用 Docker 映像。

使用 Docker 容器安装海卫一推理服务器（推荐)
安装没有 Docker 容器的海卫一推理服务器
构建自定义海卫一推理服务器 Docker 容器
从源代码构建海卫一推理服务器
构建适用于 Windows 10 的海卫一推理服务器
在 GCP、AWS 和 NVIDIA 舰队司令部上部署具有 Kubernetes 和 Helm 的海卫一推理服务器的示例

使用海卫一

为海卫一推理服务器准备模型

使用 Triton 提供模型服务的第一步是将一个或多个模型放入模型存储库中。根据模型的类型以及要为模型启用的 Triton 功能，你可能需要为模型创建模型配置。

配置和使用海卫一推理服务器

阅读快速入门指南，在 GPU 和 CPU 上运行海卫一推理服务器
海卫一支持多个执行引擎，称为后端，包括张量RT，张量流，PyTorch，ONNX，开放VINO，蟒蛇等
并非Triton支持的每个平台都支持上述所有后端。查看后端平台支持列表，了解目标平台上支持哪些后端。
了解如何使用性能分析器和模型分析器优化性能
了解如何在 Triton 中管理加载和卸载模型
使用基于 HTTP/REST 的协议或 gRPC 协议直接向海卫一发送请求

客户支持和示例

Triton 客户端应用程序向 Triton 发送推理和其他请求。Python 和 C++ 客户端库提供了 API 来简化此通信。

查看C++、蟒蛇和 Java 的客户端示例
配置 HTTP 和通用数据保护协议客户端选项
将输入数据（例如jpeg图像）直接发送到HTTP请求正文中的Triton，而无需任何其他元数据

扩展海卫一

Triton 推理服务器的架构专为模块化和灵活性而设计

为你的使用案例自定义 Triton 推理服务器容器
在 C/C++ 或 Python 中创建自定义后端
创建分离的后端和模型，这些后端和模型可以为请求发送多个响应，也可以不为请求发送任何响应
使用 Triton 存储库代理添加在加载和卸载模型时运行的功能，例如身份验证、解密或转换
在杰森和喷气背包上部署海卫一
在 AWS 推理上使用海卫一

其他文档

贡献

对海卫一推理服务器的贡献非常受欢迎。要贡献，请查看贡献指南。如果你有一个后端，客户端，示例或类似的贡献没有修改Triton的核心，那么你应该在贡献存储库中提交PR。

报告问题，提出问题

我们感谢有关此项目的任何反馈，问题或错误报告。在 GitHub 中发布问题时，请按照堆栈溢出文档中概述的过程进行操作。确保发布的示例是：

最小 - 使用尽可能少的代码，仍然会产生相同的问题
完整 – 提供重现问题所需的所有部件。检查是否可以剥离外部依赖项并仍然显示问题。我们花在重现问题上的时间越少，我们修复问题的时间就越多
可验证 – 测试你将要提供的代码，以确保它重现问题。删除与你的请求/问题无关的所有其他问题。

详细信息

有关更多信息，请参阅 NVIDIA 开发者 Triton 页面。