곧장 수 많은 공식으로 들어가는 설명들이 많은 것도 이런 혼동이 초래되는 이유 중 하나다. 그래서 구식으로 분류와 클러스터링을 설명해보려 한다. 엑셀 스프레드시트를 활용한 설명이다.
분류의 작동 원리
졸업할 확률이 높은 학생, 중퇴할 확률이 높은 학생을 예상한다고 가정하자. 카운셀러를 배정할 수 있도록 각각을 플래그로 표시해야 한다. 즉 고위험과 저위험이라는 레이블을 만들어야 한다. 분류를 사용해 이를 처리하려면 이미 졸업한 학생들이라는 트레이닝 데이터 세트가 필요하다.
일단 알고리즘은 잊고, 이 스프레드시트를 보자.
시트 데이터를 보면 GPA, 정학 횟수(suspensions), 퇴학 처분을 받은 적이 있는지(expelled)에 대한 패턴이 있다. 머리 속에서 상관관계를 만들고, 일부 예외를 정리할 수 있다.
이제 다음 데이터를 가지고 졸업할 확률이 높은 사람을 결정할 수 있는가? 결정할 수 있다면, 분류 알고리즘처럼 처리한 것이다.
클러스터링의 작동 원리
이제 클러스터링을 알아보자. 이 데이터 세트에는 레이블이 없다. 컴퓨터가 동류로 판단되는 학생들을 찾아 그룹화 하기 원할 뿐이다.
이 데이터에도 일정 패턴이 있다는 점을 알 수 있을 것이다. 첫 열과 마지막 열은 그룹화 목적에서는 의미가 없을 수도 있다. 그러나 앞 3개의 열이 ‘1 1 1’로 시작하는 몇 몇 항목을 찾을 수 있을 것이다. 정확히는 ‘1 1 1’ 다음에 ‘0 0 0’, ‘1 1 1’로 구성된 것들이 있다. 이 행을 하나의 클러스터로 그룹화 한다.
여기에 반대되는 패턴도 찾을 수 있다. 또 다른 클러스터이다.
‘1 1 1 0 0 0 1 1’식으로 유사하게 일치하는 것도 찾을 수 있다(이 예제 데이터에는 없다). 이를 그룹화할 수 있는데, 이것 역시 클러스터다.
이런 연산을 처리하는 알고리즘은 다양하다. 분류와 클러스터링 외 다른 연산을 하는 알고리즘도 있다. 그러나 기본적으로는 엑셀에서 할 수 있는 일이다. editor@itworld.co.kr