server - Triton 推理服务器提供优化的云和边缘推理解决方案。

Created at: 2018-10-05 05:10:30
Language: Python
License: BSD-3-Clause

海卫一推理服务器

许可证

最新版本:你当前位于主分支上,该分支跟踪下一个版本的开发进度。当前版本是 2.24.0 版,对应于 NVIDIA GPU 云 (NGC) 上的 22.07 容器版本。


Triton推理服务器是一种开源推理服务软件,可简化AI推理。Triton使团队能够从多个深度学习和机器学习框架部署任何AI模型,包括张量RT,张量流,PyTorch,ONNX,OpenVINO,蟒蛇,RAPIDS FIL等。Triton 支持跨云、数据中心、边缘和嵌入式设备(NVIDIA GPU、x86 和 ARM CPU)或 AWS 推理进行推理。Triton 为许多查询类型提供优化的性能,包括实时、批处理、融合和音频/视频流。

主要功能包括:

需要企业支持?NVIDIA 全球支持适用于带有 NVIDIA AI 企业软件套件的海卫一推理服务器。

通过3个简单的步骤为模特提供服务

# Step 1: Create the example model repository 
git clone -b r22.07 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh

# Step 2: Launch triton from the NGC Triton container
docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models nvcr.io/nvidia/tritonserver:22.07-py3 tritonserver --model-repository=/models

# Step 3: Sending an Inference Request 
# In a separate console, launch the image_client example from the NGC Triton SDK container
docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:22.07-py3-sdk
/workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg

# Inference should return the following
Image '/workspace/images/mug.jpg':
    15.346230 (504) = COFFEE MUG
    13.224326 (968) = CUP
    10.422965 (505) = COFFEEPOT

有关此示例的其他信息,请阅读快速入门指南。快速入门指南还包含如何在仅 CPU 系统上启动 Triton 的示例。海卫一新手,想知道从哪里开始?观看入门视频

示例和教程

查看 NVIDIA 启动板,免费访问一组动手实验室,其中包含托管在 NVIDIA 基础设施上的 Triton 推理服务器。

热门模型(如 ResNet、BERT 和 DLRM)的特定端到端示例位于 GitHub 上的 NVIDIA 深度学习示例页面中。NVIDIA 开发人员专区包含其他文档、演示文稿和示例。

文档

构建和部署

构建和使用 Triton 推理服务器的推荐方法是使用 Docker 映像。

使用海卫一

为海卫一推理服务器准备模型

使用 Triton 提供模型服务的第一步是将一个或多个模型放入模型存储库中。根据模型的类型以及要为模型启用的 Triton 功能,你可能需要为模型创建模型配置

配置和使用海卫一推理服务器

客户支持和示例

Triton 客户端应用程序向 Triton 发送推理和其他请求。Python 和 C++ 客户端库提供了 API 来简化此通信。

扩展海卫一

Triton 推理服务器的架构专为模块化和灵活性而设计

其他文档

贡献

对海卫一推理服务器的贡献非常受欢迎。要贡献,请查看贡献指南。如果你有一个后端,客户端,示例或类似的贡献没有修改Triton的核心,那么你应该在贡献存储库中提交PR。

报告问题,提出问题

我们感谢有关此项目的任何反馈,问题或错误报告。在 GitHub 中发布问题时,请按照堆栈溢出文档中概述的过程进行操作。确保发布的示例是:

  • 最小 - 使用尽可能少的代码,仍然会产生相同的问题
  • 完整 – 提供重现问题所需的所有部件。检查是否可以剥离外部依赖项并仍然显示问题。我们花在重现问题上的时间越少,我们修复问题的时间就越多
  • 可验证 – 测试你将要提供的代码,以确保它重现问题。删除与你的请求/问题无关的所有其他问题。

详细信息

有关更多信息,请参阅 NVIDIA 开发者 Triton 页面