성능 평가 방법 조사 내용

OCR 성능 평가

참고 자료

PopEval

추천 시스템 성능 평가

참고 자료

추천시스템 평가 지표 - 1 (Precision@K / Recall@K)

머신러닝 분야는 모델 구축만큼 성능평가가 중요함
추천시스템 또한 머신러닝의 비지도학습에 속하기 때문에, 성능평가가 중요
추천시스템에서는 Precision/Recall@K, MAP, NDCG@K 등 다양한 성능 평가지표가 존재함
추천 시스템에서 일반적으로 많이 사용되는 Precision@k / Recall@k 에 대한 개념을 알아보고 채택

Precision@k / Recall@k 개념

1. Precision@k 정의

Precision은 예측값 중 옳게 예측한 비율을 의미
추천 시스템에서 Precision은 모델이 추천한 아이템 중에 사용자가 관심있는 아이템의 비율을 의미
Precision@k는 k개 추천 결과에 대한 Precision을 계산한 것으로, 모델이 추천한 아이템 k개 중에 실제 사용자가 관심있는 아이템의 비율을 의미
Average of Precision@k는 Precision@k의 평균으로 AP@K와 다름
아래 논문에 따르면, Average of Precision@k는 각 추천에 대한 Precision@k에 대한 평균을 의미하고, AP@K는 서로 다른 k에 대한 Precision의 평균을 의미

2. Recall@k 정의

Recall은 실제 옳은 것 중에서 옳다고 예측한 것의 비율을 의미
추천 시스템에서 Recall은 사용자가 실제로 관심있는 아이템 중에 모델이 추천한 아이템의 비율을 의미
Recall@k는 k개 추천 결과에 대한 Recall을 계산한 것으로, 사용자가 관심있는 모든 아이템 중에서 모델의 추천한 아이템 k개가 얼마나 포함되는지 비율을 의미

3. Precision@K / Recall@K 예시

k=5이고, 사용자가 관심있는 아이템 수가 6개일 때,
Precision@5=0.6 (사용자가 관심있는 추천 아이템 수(=3) / 추천한 아이템 수(=5))
Recall@5 =0.5 (사용자가 관심있는 추천 아이템 수(=3) / 사용자가 실제로 관심있는 모든 아이템 수(=6))