AI paper review/Mobile-friendly
YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors 논문 리뷰
오늘은 현시점에서 YOLO계열 중 가장 성능이 좋은 YOLOv7 논문 리뷰해보겠습니다. 1. Introduction 논문 제목을 보았을 때 가장 먼저 눈에 띄는 것은 "bag-of-freebies"일텐데요. 이게 무엇이냐!? bag-of-freebies란? inference시에 추가적인 cost비용 없이 네트워크의 성능을 향상하기 위한 방법 (e.g. reparameterization, data augmentation, bbox regression, label smoothing) 그래서 저자들은 inference cost를 증가시키지 않는 training optimization 방법들을 제안하여 성능을 올리는 것을 목적으로 합니다.(해당 optimization은 cost가 들 수 있음) 그래서 해당 방..
[MobileOne] An Improved One millisecond Mobile Backbone 논문 리뷰
2022년 6월 Apple에서 mobile friendly한 모델을 제안하는 논문인 An Improved One millisecond Mobile Backbone 을 리뷰해보도록 하겠습니다. 1. Introduction 저자들은 실제 mobile에서 latency(inference speed)를 최적화시키는 것을 목표로 하고 있으며 기존의 논문들이 제안했던 mobile-friendly하다는 모델들에 대해 아래와 같은 단점을 지적하였습니다. FLOPs와 parameter수가 (상대적으로) 작다고 하여 실제 latency가 빠르지 않음 skip-connection과 branching은 많은 memory access cost를 발생시키므로 latency가 최적화되지 않음 그래서 저자들은 (1) mobile d..
EfficientFormer: Vision Transformers at MobileNet Speed 논문 리뷰
2022년 Snap Inc. 에서 게재한 논문인 EfficentFormer 논문을 리뷰합니다. 1. Introduction 해당 논문은 주요 내용은 다음과 같습니다. "Vision Transformer(ViT)가 high performance를 내면서 (mobile device에서) mobilenet만큼 빨라질 수 있을까"에 대한 의문점에서 시작 기본적으로 VIT는 accuracy 성능은 좋은데 lightweight CNN(e.g. MobileNet)보다 느리다는 단점을 가짐 그 의문점을 풀기 위해 기존 ViT의 inefficient한 구조에 대해 분석 Efficient한 구조를 갖는 dimension-consistent한 ViT 모델(EfficientFormer) 을 제안 특히나, 해당 논문은 FLO..
Lite Pose 논문 리뷰
이번 글에서는 CVPR 2022에 accept된 논문인 Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation 을 리뷰하도록 하겠습니다. 해당 논문은 기존 2D Human Pose Estimation task를 수행하는 모델들이 high computational cost를 가진다는 문제점을 해결하고자 합니다. 그래서 Lite Pose라는 모델을 제안하여 low latency와 small parameter numbers를 가지면서 좋은 성능(mAP)을 얻어냈다는 성과를 보여주었습니다. 1. Introduction Lite Pose는 기존의 bottom-up 방식의 architecture인 (Higher)HRNet의 단점을 보완한 모델입니..
MobileViT 논문 리뷰
ICML 2022에 accept된 Apple직원분들의 논문인 MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER 을 리뷰해보겠습니다! 1. Introduction MobileViT는 mobile과 같은 하드웨어의 자원이 제한된 곳에서 사용할 수 있도록 만든 작고(Light-weight) 빠른(low-latency) ViT(Visual Transformer) 모델입니다. 위와 같은 성능을 도출하기위해 MobileViT는 CNN과 ViT의 장점을 결합하였다고 합니다. CNN의 장점 spatial(local) inductive bias data augmentation에 덜 민감 ViT의 장점 input-adaptive..
EfficientNetv2 논문 리뷰
ICML 2021에 accept된 구글 논문인 EfficientNetV2: Smaller Models and Faster Training을 리뷰해보겠습니다! 1. Introduction EfficientNet의 후속모델로 EfficientNetv2는 기존 모델보다 다음과 같은 목적성을 이룰려고 하고 이루게 됩니다. More efficient Training time More efficient Parameter number More efficient Accuracy 실제로 아래그림은 EfficientNetv2의 결과인데 보면 위의 목적성을 모두 잘 이뤗네요. 역시 구글.. 그럼 EfficientNetv2의 어떤 contribution이 있었기에 이런 결과를 도출해냈을까요? (1) EfficientNet을 ..