3.7 요약(Summary)
이번 장에서는 데이터 전처리 과정을 통해 평점 데이터를 정규화하고 이진화하는 방법에 대하여 살펴보았습니다. 데이터 정규화는 정규화(Normalization) 외에도 척도화(Scaling) 또는 재척도화( Re-scaling), 표준화(Standardization), 일반화(Regularization) 등 유의어들을 총칭하기도 합니다. 여기에서는 이 유의어들의 총칭을 정규화라고 하고 정규화 안에서 매우 혼동되기 쉬운 세 가지 유의어인 척도화, 표준화, 정규화(벡터 정규화)에 대하여 살펴보았습니다. 또한, 임곗값을 사용하는 이진화 방법인 임계 이진화에 대하여도 살펴보았습니다.
- 척도화
- 표준화(벡터)
- 정규화(임계)
- 이진화
다음으로 전체 평점 혹은 사용자나 아이템 간의 평점 성향의 차이를 고려하거나 고유 특성을 두드러지게 하는 방법을 살펴보았습니다. 여기에서는 사용자 $u$가 아이템 $i$에 매긴 평점 $r_{ui}$를 $m$명의 사용자(행)와 $n$개의 아이템(열)로 가지는 $m \times n$행렬인 사용자-아이템 평점 매트릭스인 $R$로, 정규화 또는 이진화된 $m \times n$ 행렬인 사용자-아이템 평점 매트릭스는 $R'$로 정의하였습니다. 전체 평점 대상인 경우에는 사용자 $u$가 아이템 $i$에 매긴 전체 평점 집합 $R$을 대상으로 하지만, 사용자 그룹 평점인 경우에는 사용자 $u$가 평점을 매긴 아이템 집합 ${I_u}$의 평점을, 아이템 그룹 평점인 경우에는 아이템 $i$에 매겨진 사용자 집합 ${U_i}$의 평점을 대상으로 하였습니다.
- 전체 평점
- 사용자 그룹 평점
- 아이템 그룹 평점
마지막으로 평점 데이터를 정규화 및 이진화하는 방법을 살펴보았습니다.
- 평균 중심화
- Z점수화
- 최소-최대화
- 소수 스케일링화
- 임계 이진화
표. 정규화와 이진화 방법
구분 | 입력 | 적용 기준 | 출력 |
---|---|---|---|
평균 중심화 | 원본 평점 데이터(정수/실수형) | 전체/사용자/아이템 | 정규화된 평점 데이터(실수형) |
Z점수화 | 원본 평점 데이터(정수/실수형) | 전체/사용자/아이템 | 정규화된 평점 데이터(실수형) |
최소-최대화 | 원본 평점 데이터(정수/실수형) | 전체/사용자/아이템 | 정규화된 평점 데이터(실수형) |
소수 스케일링 | 원본 평점 데이터(정수/실수형) | 전체 | 정규화된 평점 데이터(실수형) |
임계 이진화 | 원본 평점 데이터(정수/실수형) | 전체 | 이진화된 평점 데이터(이진형) |
이번 장에서는 대표적인 평점 정규화와 이진화 방법에 대하여 살펴보았습니다. 다음 장에서는 평점 데이터를 사용하여 사용자-사용자 또는 아이템-아이템 간 유사도를 계산하는 방법을 주제로 살펴볼 것입니다.
무비렌즈 비교 차트 정규화 챠트 추가? 마지막 아님 각 섹션 말미에?
추천 시스템: 워크북
Comments
Do you have a problem, want to share feedback, or discuss further ideas? Feel free to leave a comment here! Please follow Rust's code of conduct. This comment thread directly maps to a discussion on GitHub, so you can also comment there if you prefer.
Instead of authenticating the giscus application, you can also comment directly on GitHub.