TensorRT模型轉換及部署,FP32/FP16/INT8精度區分

TensorRT 1、簡介 TensorRT 是一個深度學習模型線上部署的優化引擎,即 GPU Inference Engine。Tensor 表明張量,即數據流動以張量的方式,如4維張量 [N, C, H, W]。RT表示 runtime。 通常狀況如上圖,線下構建網絡結構,訓練好模型,而後在實際業務中線上部署到對實時性要求較高(latency敏感)的場景,如通常的嵌入式設備,雲端等等。實際應用
相關文章
相關標籤/搜索