ILSVRC and Dataset¶

ILSVRC¶

(작성 예정)

Top-1과 Top-5의 의미¶

ILSVRC에서 모델의 성능을 판단하는 기준으로 Top-1과 Top-5가 있다. 그렇다면 이것은 무슨 의미일까?

예를 들어 고양이를 분류하는 모델이 있다고 했을 때, 이 모델에 고양이 이미지를 입력하여 결과를 예측했더니 1000개의 종류에 대해 다음과 같이 각 Class를 분류할 확률이 나왔다고 하자.

Class	확률
살쾡이	40%
고양이	38%
표범	10%
호랑이	5%
개	3%
···
돼지	0.1%

위 결과에서 Top-1은 “살쾡이”고, Top-5는 “살쾡이, 고양이, 표범, 호랑이, 개”이다. 즉, 모델에 이미지를 입력하여 예측한 뒤 예측 결과를 내림차순 정렬 했을 때, 가장 높은 결과를 나타내는 상위 1개의 결과가 Top-1이고 상위 5개의 결과가 Top-5이다.

Model	Top-1	Top-5
A	40.7%	18.2%
B	38.1%	16.4%
C	39.0%	16.6%

실제로 여러 가지 CNN Architecture의 논문을 보면 그 성능을 위 표와 같이 표현한다. 위 표에서 Top-1은 모델로 예측한 Top-1이 실제 Class와 다른 비율을 의미한다. Top-5는 모델로 예측한 Top-5 중에 실제 Class가 없는 비율을 의미한다. 즉, Top-1, Top-5 값이 작을수록 더 좋은 모델이라고 할 수 있다. 그리고 Top-1을 예측하는 것이 더 어렵기 때문에 Top-1값들이 Top-5값들보다 훨씬 큰 것을 확인할 수 있다.

Dataset¶

ImageNet¶

(작성 예정)

CIFAR-10¶

CIFAR-10 영상 데이터는 토론토 대학교의 Alex Krizhevsky, Vinod Niar, Geoffrey Hinton이 수집한 데이터이고, 그 크기가 작아 Computer vision이나 Machine learning 초기 알고리즘의 구조 검증에 많이 사용된다.

32x32 크기의 작은 영상 데이터 집합이며, Training 이미지 5만장과 Test 이미지 1만장으로 구성되어 있다. 총 10개의 Class가 있고, 각 Class에는 Training과 Test 영상을 합쳐 총 6천장의 이미지가 있다. 10개의 Class에 대한 예는 다음 그림과 같다.

출처: 라온피플 (Laon People)

Reference¶

라온피플 (Laon People) - ResNet [3]