
TFLite 뽀개기 (3) - Quantization
·
AI Engineering/TensorFlow
1. Quantization 내용은 python, Tensorflow-gpu 2.x, keras model 에 한정되어 있음을 알려드립니다. 이전 글에서 TFLite model로 Inference까지 해봤습니다. 이번에는 TFLite model을 경량화 시키는 방법을 알려드릴게요. 경량화 방법은 TFLite에서 제공하는 Quantization이며 경량화의 효과는 다음과 같습니다. Smaller storage size 모델 사이즈를 줄여 user의 device에 적은 storage을 occupy함. Less memory usage 작은 모델로 만들어 RAM memory를 적게 occupy함. Reducing latency 좀 더 빠르게 inference할 수 있게 함. 하지만 마냥 장점만 가져갈 수는 없죠..