Optimization & Deployment
การปรับให้รันจริง - ONNX, TensorRT, Quantization สำหรับ Production
เทคนิคการปรับแต่งประสิทธิภาพ
ONNX (Open Neural Network Exchange)
- มาตรฐานการแลกเปลี่ยนโมเดล AI
- รองรับหลาย Framework
- การแปลงโมเดลระหว่าง Platform
- ONNX Runtime สำหรับ Inference
TensorRT
- SDK สำหรับ NVIDIA GPU
- การปรับแต่งโมเดลสำหรับ GPU
- Layer Fusion และ Kernel Auto-tuning
- Mixed Precision Training
Quantization
- INT8 Quantization - ลดขนาดโมเดล 4 เท่า
- Dynamic Quantization - ไม่ต้องใช้ข้อมูล Calibration
- Static Quantization - ใช้ข้อมูลตัวอย่างสำหรับ Calibration
- QAT (Quantization Aware Training) - ฝึกโมเดลพร้อม Quantization
การปรับแต่งสำหรับ Hardware
- GPU Optimization - CUDA, TensorRT
- CPU Optimization - Intel MKL-DNN, OpenVINO
- Mobile Optimization - TensorFlow Lite, Core ML
- Edge Devices - NVIDIA Jetson, Intel NUC
เครื่องมือและแพลตฟอร์ม
- PyTorch → ONNX → TensorRT Pipeline
- TensorFlow → TensorRT Integration
- OpenVINO Model Optimizer
- Apache TVM
- NVIDIA Triton Inference Server