R4TINGS 🢖 Workbook 🢖 3.7 요약(Summary)

3.7 요약(Summary)

이번 장에서는 데이터 전처리 과정을 통해 평점 데이터를 정규화하고 이진화하는 방법에 대하여 살펴보았습니다. 데이터 정규화는 정규화(Normalization) 외에도 척도화(Scaling) 또는 재척도화( Re-scaling), 표준화(Standardization), 일반화(Regularization) 등 유의어들을 총칭하기도 합니다. 여기에서는 이 유의어들의 총칭을 정규화라고 하고 정규화 안에서 매우 혼동되기 쉬운 세 가지 유의어인 척도화, 표준화, 정규화(벡터 정규화)에 대하여 살펴보았습니다. 또한, 임곗값을 사용하는 이진화 방법인 임계 이진화에 대하여도 살펴보았습니다.

척도화
표준화(벡터)
정규화(임계)
이진화

다음으로 전체 평점 혹은 사용자나 아이템 간의 평점 성향의 차이를 고려하거나 고유 특성을 두드러지게 하는 방법을 살펴보았습니다. 여기에서는 사용자 $u$가 아이템 $i$에 매긴 평점 $r_{ui}$를 $m$명의 사용자(행)와 $n$개의 아이템(열)로 가지는 $m \times n$행렬인 사용자-아이템 평점 매트릭스인 $R$로, 정규화 또는 이진화된 $m \times n$ 행렬인 사용자-아이템 평점 매트릭스는 $R'$로 정의하였습니다. 전체 평점 대상인 경우에는 사용자 $u$가 아이템 $i$에 매긴 전체 평점 집합 $R$을 대상으로 하지만, 사용자 그룹 평점인 경우에는 사용자 $u$가 평점을 매긴 아이템 집합 ${I_u}$의 평점을, 아이템 그룹 평점인 경우에는 아이템 $i$에 매겨진 사용자 집합 ${U_i}$의 평점을 대상으로 하였습니다.

전체 평점
사용자 그룹 평점
아이템 그룹 평점

마지막으로 평점 데이터를 정규화 및 이진화하는 방법을 살펴보았습니다.

평균 중심화
Z점수화
최소-최대화
소수 스케일링화
임계 이진화

표. 정규화와 이진화 방법

구분	입력	적용 기준	출력
평균 중심화	원본 평점 데이터(정수/실수형)	전체/사용자/아이템	정규화된 평점 데이터(실수형)
Z점수화	원본 평점 데이터(정수/실수형)	전체/사용자/아이템	정규화된 평점 데이터(실수형)
최소-최대화	원본 평점 데이터(정수/실수형)	전체/사용자/아이템	정규화된 평점 데이터(실수형)
소수 스케일링	원본 평점 데이터(정수/실수형)	전체	정규화된 평점 데이터(실수형)
임계 이진화	원본 평점 데이터(정수/실수형)	전체	이진화된 평점 데이터(이진형)

이번 장에서는 대표적인 평점 정규화와 이진화 방법에 대하여 살펴보았습니다. 다음 장에서는 평점 데이터를 사용하여 사용자-사용자 또는 아이템-아이템 간 유사도를 계산하는 방법을 주제로 살펴볼 것입니다.

^{무비렌즈 비교 차트 정규화 챠트 추가? 마지막 아님 각 섹션 말미에?}

^{한글:
822
영어:
105
숫자:
2}

Do you have a problem, want to share feedback, or discuss further ideas? Feel free to leave a comment here! Please follow Rust's code of conduct. This comment thread directly maps to a discussion on GitHub, so you can also comment there if you prefer.

Instead of authenticating the giscus application, you can also comment directly on GitHub.

3.7 요약(Summary)

추천 시스템: 워크북