TensorRT模型轉換及部署，FP32/FP16/INT8精度區分

時間 2020-07-20

標籤 tensorrt 模型轉換部署 fp32 fp16 int8 int 精度區分简体版

原文原文鏈接

TensorRT 1、簡介 TensorRT 是一個深度學習模型線上部署的優化引擎，即 GPU Inference Engine。Tensor 表明張量，即數據流動以張量的方式，如4維張量 [N, C, H, W]。RT表示 runtime。通常狀況如上圖，線下構建網絡結構，訓練好模型，而後在實際業務中線上部署到對實時性要求較高（latency敏感）的場景，如通常的嵌入式設備，雲端等等。實際應用

>>阅读原文<<