AI paper review

반응형

    [MobileOne] An Improved One millisecond Mobile Backbone 논문 리뷰

    2022년 6월 Apple에서 mobile friendly한 모델을 제안하는 논문인 An Improved One millisecond Mobile Backbone 을 리뷰해보도록 하겠습니다. 1. Introduction 저자들은 실제 mobile에서 latency(inference speed)를 최적화시키는 것을 목표로 하고 있으며 기존의 논문들이 제안했던 mobile-friendly하다는 모델들에 대해 아래와 같은 단점을 지적하였습니다. FLOPs와 parameter수가 (상대적으로) 작다고 하여 실제 latency가 빠르지 않음 skip-connection과 branching은 많은 memory access cost를 발생시키므로 latency가 최적화되지 않음 그래서 저자들은 (1) mobile d..

    EfficientFormer: Vision Transformers at MobileNet Speed 논문 리뷰

    2022년 Snap Inc. 에서 게재한 논문인 EfficentFormer 논문을 리뷰합니다. 1. Introduction 해당 논문은 주요 내용은 다음과 같습니다. "Vision Transformer(ViT)가 high performance를 내면서 (mobile device에서) mobilenet만큼 빨라질 수 있을까"에 대한 의문점에서 시작 기본적으로 VIT는 accuracy 성능은 좋은데 lightweight CNN(e.g. MobileNet)보다 느리다는 단점을 가짐 그 의문점을 풀기 위해 기존 ViT의 inefficient한 구조에 대해 분석 Efficient한 구조를 갖는 dimension-consistent한 ViT 모델(EfficientFormer) 을 제안 특히나, 해당 논문은 FLO..

    Learning Features with Parameter-free Layers 논문 리뷰

    이번에는 ICLR 2022에 accept된 Naver clova 논문인 Learning Features with Parameter-free Layers 을 리뷰하도록 하겠습니다. 해당 논문은 accuracy성능은 유지하면서 latency을 상당히 줄일 수 있는 (operation)layer를 제안하는 데 기여하였습니다. 1. Introduction 기존의 많은 논문들이 efficient한 operation 또는 layer들을 제안하였습니다. 여기서 efficient의 의미는 accuracy성능은 향상시키거나 유지하면서 적은 parameter와 낮은 latency를 도달할 수 있다라는 것입니다. (기존의 efficient한 operation 또는 layer는 뒤에서 더 자세히 설명드리겠습니다.) 해당 논문..

    Lite Pose 논문 리뷰

    이번 글에서는 CVPR 2022에 accept된 논문인 Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation 을 리뷰하도록 하겠습니다. 해당 논문은 기존 2D Human Pose Estimation task를 수행하는 모델들이 high computational cost를 가진다는 문제점을 해결하고자 합니다. 그래서 Lite Pose라는 모델을 제안하여 low latency와 small parameter numbers를 가지면서 좋은 성능(mAP)을 얻어냈다는 성과를 보여주었습니다. 1. Introduction Lite Pose는 기존의 bottom-up 방식의 architecture인 (Higher)HRNet의 단점을 보완한 모델입니..

    MobileViT 논문 리뷰

    ICML 2022에 accept된 Apple직원분들의 논문인 MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER 을 리뷰해보겠습니다! 1. Introduction MobileViT는 mobile과 같은 하드웨어의 자원이 제한된 곳에서 사용할 수 있도록 만든 작고(Light-weight) 빠른(low-latency) ViT(Visual Transformer) 모델입니다. 위와 같은 성능을 도출하기위해 MobileViT는 CNN과 ViT의 장점을 결합하였다고 합니다. CNN의 장점 spatial(local) inductive bias data augmentation에 덜 민감 ViT의 장점 input-adaptive..

    EfficientNetv2 논문 리뷰

    ICML 2021에 accept된 구글 논문인 EfficientNetV2: Smaller Models and Faster Training을 리뷰해보겠습니다! 1. Introduction EfficientNet의 후속모델로 EfficientNetv2는 기존 모델보다 다음과 같은 목적성을 이룰려고 하고 이루게 됩니다. More efficient Training time More efficient Parameter number More efficient Accuracy 실제로 아래그림은 EfficientNetv2의 결과인데 보면 위의 목적성을 모두 잘 이뤗네요. 역시 구글.. 그럼 EfficientNetv2의 어떤 contribution이 있었기에 이런 결과를 도출해냈을까요? (1) EfficientNet을 ..

반응형