ILSVRC and Dataset¶
ILSVRC¶
(작성 예정)
Top-1과 Top-5의 의미¶
ILSVRC에서 모델의 성능을 판단하는 기준으로 Top-1과 Top-5가 있다. 그렇다면 이것은 무슨 의미일까?
예를 들어 고양이를 분류하는 모델이 있다고 했을 때, 이 모델에 고양이 이미지를 입력하여 결과를 예측했더니 1000개의 종류에 대해 다음과 같이 각 Class를 분류할 확률이 나왔다고 하자.
Class |
확률 |
---|---|
살쾡이 |
40% |
고양이 |
38% |
표범 |
10% |
호랑이 |
5% |
개 |
3% |
··· |
|
돼지 |
0.1% |
위 결과에서 Top-1은 “살쾡이”고, Top-5는 “살쾡이, 고양이, 표범, 호랑이, 개”이다. 즉, 모델에 이미지를 입력하여 예측한 뒤 예측 결과를 내림차순 정렬 했을 때, 가장 높은 결과를 나타내는 상위 1개의 결과가 Top-1이고 상위 5개의 결과가 Top-5이다.
Model |
Top-1 |
Top-5 |
---|---|---|
A |
40.7% |
18.2% |
B |
38.1% |
16.4% |
C |
39.0% |
16.6% |
실제로 여러 가지 CNN Architecture의 논문을 보면 그 성능을 위 표와 같이 표현한다. 위 표에서 Top-1은 모델로 예측한 Top-1이 실제 Class와 다른 비율을 의미한다. Top-5는 모델로 예측한 Top-5 중에 실제 Class가 없는 비율을 의미한다. 즉, Top-1, Top-5 값이 작을수록 더 좋은 모델이라고 할 수 있다. 그리고 Top-1을 예측하는 것이 더 어렵기 때문에 Top-1값들이 Top-5값들보다 훨씬 큰 것을 확인할 수 있다.
Dataset¶
ImageNet¶
(작성 예정)
CIFAR-10¶
CIFAR-10 영상 데이터는 토론토 대학교의 Alex Krizhevsky, Vinod Niar, Geoffrey Hinton이 수집한 데이터이고, 그 크기가 작아 Computer vision이나 Machine learning 초기 알고리즘의 구조 검증에 많이 사용된다.
32x32 크기의 작은 영상 데이터 집합이며, Training 이미지 5만장과 Test 이미지 1만장으로 구성되어 있다. 총 10개의 Class가 있고, 각 Class에는 Training과 Test 영상을 합쳐 총 6천장의 이미지가 있다. 10개의 Class에 대한 예는 다음 그림과 같다.
Reference¶
라온피플 (Laon People) - ResNet [3]