Tổng quan
TensorRT-LLM được xây dựng dựa trên framework TensorRT của NVIDIA dành riêng cho LLM inference. Tính năng: - chuyển đổi model (Pytorch) sang TensorRT graph và tối ưu computation trên đó - hỗ trợ 2 kiểu dữ liệu: FP4 (Blackwell) và FP8 (Hopper) - Inflight bactching (continuous batching hay iteration-level batching) và paged attention cho phép tận dụng tối đa khả năng tính toán trên nhiều request đồng thời - hỗ trợ tốt multi-GPU và multi-Node inference - Speculative Decoding (EAGLE, MTP and NGram) - KV Cache Management: Paged KV cache theo block để tối ưu không gian lưu trữ KVCache - Chunked Prefill - LoRA Support - Disaggregated Serving: tách biệt 2 phase prefill và decoding trên các GPU khác nhau để tối ưu tài nguyên TensorRT-LLM trong production luôn được tích hợp như là một inference backend với các inference server khác như Tritonserver hay NVIDIA Dynamo. Read more: - https://nvidia.github.io/TensorRT-LLM/features/disagg-serving.html - https://nvidia.github.io/TensorRT-LLM/features/kvcache.html - https://nvidia.github.io/TensorRT-LLM/features/long-sequence.html - https://nvidia.github.io/TensorRT-LLM/features/overlap-scheduler.html - https://nvidia.github.io/TensorRT-LLM/features/paged-attention-ifb-scheduler.html - https://nvidia.github.io/TensorRT-LLM/features/parallel-strategy.html - https://nvidia.github.io/TensorRT-LLM/features/quantization.html - https://nvidia.github.io/TensorRT-LLM/features/speculative-decoding.html - https://nvidia.github.io/TensorRT-LLM/features/sparse-attention.html
Liên kết
- Kiến trúc NVIDIA Dynamo trên Kubernetes - runtime phân tán bọc TensorRT-LLM trong production
- Quá trình inference của Large Language Model - TensorRT-LLM tối ưu các phép tính của inference trên GPU