해당 글은 Netflix의 VMAF post를 참고 및 번역하였으며 VMAF의 이해와 사용 방법에 대해 적어보려 합니다. 목차는 다음과 같습니다.
목차
- Video Quality Metric이란?
- 기존의 Video Quality Metric 방법들과 문제점
- VMAF란?
- VMAF의 사용 방법
1. Video Quality Metric 이란?
우리는 .png, .jpg와.mp4와 같은 이미지/비디오 파일을 많이 봐왔을 것입니다. 해당 확장자를 가진 파일들은 원본 이미지/비디오 파일을 의미하는 것이 아닌 encoding된 파일을 의미합니다. 원본 파일의 모든 픽셀값을 그대로 local/cloud storage에 저장하는 것은 용량에 부하가 크기 때문에 해당 문제를 해결하기 위해 encoding이라는 압축방법을 사용하며 encoding된 파일을 담는 그릇 개념의 확장자가 .mp4입니다. (encoding은 코덱으로 진행가능하며 대표적인 방법으로는 H.264, H.265 가 있습니다.)
Encoding 즉, 압축을 하는 방법은 여러가지 일텐데 각 방법들이 압축을 잘하고 있는지(인간의 눈에 맞춰진 압축인지) 비교 및 확인하려면 어떻게 해야 할까요? 바로 그 확인을 Video Quality Metric을 통해 하게됩니다. 그렇기 때문에 Video Quality Metric이 정확해야 각 encoding방법들이 효과적인지 판단하는 지표가 됩니다.
1.1 Dataset
Video Quality Metric을 측정하기 위한 데이터가 필요할 텐데요. 그래서 Netflix에서는 자신들이 가진 다양한 장르와 다양한 화질의 비디오를 이용해 dataset을 구성하였습니다. 정확히 총 34개의 clip으로 이루어진 reference video로 dataset을 구성하였으며 자세한 특성은 다음과 같습니다.
- Dataset(videos)에는 high-level features와 low-level features가 모두 포함됨
- High-level features: animation, indoor/outdoor, camera motion, face close-up, people, water, number of objects
- Low-level features: film grain noise, brightness, contrast, texture, motion, color variance, color richness, sharpness
- H.264/AVC로 encoding 및 decoding
- 384x288 ~ 1920x1080사이의 다양한 해상도 사용
- 375 kbps ~ 20,000 kbps사의 bitrates를 가짐
- 해당 codec을 거친 video을 distorted videos라 명명
- 총 300개의 distorted video생성
1.2 Differential Mean Opinion Score (DMOS)
기존의 Video Quality Metric들과 제안하는 VMAF가 실제 인간이 보는 시선과 같은 지 확인하기 위해 사람들에게 distorted video가 reference video로부터 얼마나 손상(impairment)되었는 지 측정하도록 하였습니다. 손상이 클수록 0점에 가깝고 작을수록 100점에 가깝도록 기록하였습니다. 여러 사람의 해당 기록을 모아 평균하여 점수로 표현한 것이 DMOS이며 이는 ground truth(label)로 사용됩니다.
2. 기존의 Video Quality Metric 방법들과 문제점
기존에 자주 쓰이는 Video Quality Metric은 아래와 같습니다.
- PSNR(Peak signal to noise ratio)
- 최대 전력에 대한 잡음의 전력을 의미하며 distorted video와 reference video의 차이(MSE)을 잡음이라 정의하여 구함
- 값의 차이만 구하기 때문에 실제 사람의 인지 시각을 정확히 반영하지 못함
- SSIM(Structural Similarity Index)
- 시각적 화질 차이를 평가하기위한 방법으로 Luminance, Contrast, Structural 이 3가지 측면에서 품질을 평가함.
- Multiscale FastSSIM
- PSNR-HVS
위의 metric들은 실제 사람이 평가한 DMOS와 비교했을 때 문제점을 갖습니다.
2.1 Qualitative Comparison
DMOS와 PSNR을 정성적으로 비교해보았습니다. 아래와 같이 4개의 distorted video가 존재할 때 위쪽의 두 video은 PSNR이 31dB가 측정되었고 아래 두 개의 video는 PSNR이 34dB로 측정되었습니다.
사람이 보기에 왼쪽의 Crowd 사진에서는 위아래 사진이 별 차이가 없기 때문에 위 사진이 DMOS가 82, 아래가 96이 기록되었습니다. 하지만 오른쪽 fox 사진은 사람이 보기에도 차이가 분명하기 때문에 위 사진은 DMOS가 27, 아래가 58로 기록되어 큰 차이를 보입니다. 즉, PSNR의 값차이가 DMOS차이와 사진에 따라 다를 수 있으므로 적절한 video quality metric이 아님을 알 수 있습니다.
2.2 Quantative Comparison
여기서는 위의 각각의 4가지 metric을 DMOS와의 상관관계를 측정하였으며 다수의 distorted video을 대상으로 진행하였습니다. 각각의 video quality metric이 optimal 하다고 하면 DMOS와 정비례 관계가 되어야 합니다.
하지만 위 그림처럼 각각의 기존 metric들은 DMOS와 정비례 관계가 아님을 알 수 있으며 이는 적절한 video quality metric 또한 아님을 말합니다.
추가로 video의 성격을 나누어 DMOS와 각각의 metric을 측정하였을 경우에도 정비례가 관계가 아닙니다. (video의 성격은 아래와 같이 High Noise, CG Animation, TV Drama로 구분하였습니다.) 예를 들어 PSNR의 경우 TV Drama에 대해 32~36 dB사이의 값 안에서만 측정되어 비슷한 quality의 동영상들이라고 말하고 있지만 실제 사람들이 측정한 DMOS경우 20~100까지의 폭넓은 범위를 가지며 각기 다른 화질의 비디오들이라고 판단하게 됩니다.
3. VMAF란?
Video Multimethod Assessment Fusion (VMAF)는 Netflix에서 개발한 video quality metric으로 ML을 이용합니다. 기존의 여러 개의 video quality metric들을 가중치의 합(weighted sum)을 하여 나온 score를 VMAF라고 합니다. 여기서 각각의 기존 video quality metric을 elementary metric이라고 명시합니다.
그럼 여기서 궁금증은 3개로 나뉠 것이고 그에 대한 답은 아래와 같습니다.
- 왜 weighted sum을 하는가?
- 기존의 각각의 elementary metric은 각각 장단점을 가지고 있기 때문에 weighted sum을 통해 장점만 보존하여 점수를 도출하도록 함
- 어떻게 weigthed sum을 하는가?
- 각 elementary metric의 learninable parameter가 하나씩 곱해질 것이고 이는 Support Vector Machine (SVM) regressor으로부터 학습을 함
- SVM학습을 위한 dataset 구성을 위해 위의 언급해드린 dataset을 train, test dataset으로 나누고 ground truth(label)은 사람이 측정한 값인 DMOS로 함
- VMAF에 사용되는 기존의 elementary metric은 무엇인가?
- VMAF(0.3.1)기준으로 총 3가지를 사용함 → [Visual Infromation Fidelity(VIF), Detail Loss Metric (DLM), Motion]
- VIF: reference video에 존재하는 정보량과 distorted video의 정보량을 비교하여 품질을 평가 (두 비디오가 공유하는 엔트로피를 계산)
- DLM: video의 content visibility나 사람의 집중도를 방해하는 redundant impairment를 평가
- Motion: 인접하는 frame간의 temporal difference(시간상의 다름?)을 측정
위와 같은 방식으로 VMAF를 구성하고 Section 2번과 같이 DMOS와 VMAF가 정비례를 가지는 지 확인하는 실험을 하였습니다. 기존의 PSNR-HVS와 비교했을 때 확연히 VMAF가 DMOS와의 정비례 관계를 가지는 것을 확인가능합니다. 그리고 이는 VMAF score가 사람의 인지하는 화질과 매우 유사하고 잘 반영하고 있다고 말 할수 있습니다. 또한 video의 성격을 나누어 측정하였을 때에도 정비례 관계를 가집니다.
'Computer Science' 카테고리의 다른 글
VMAF Optimization과 VMAF NEG 이해 (0) | 2024.02.01 |
---|---|
Per-shot Encoding 설명 (0) | 2023.02.06 |
Per-title Encoding 설명 (0) | 2022.12.03 |
Python (2) Dict와 Set 차이 (0) | 2022.05.22 |
Python (1) List와 Tuple 차이 (0) | 2022.05.20 |