Scikit-learn의 CountVectorizer를 이용한 “뉴스 그룹 분류”

이 포스트는 이전 포스트(Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”)에서 이어집니다. 군집화 우리는 이전 포스트에서 “관련 게시물 찾기”를 하였습니다. 새로운 게시물이 들어왔을 때 Label이 붙어있지 않은 데이터 집합 중 가장 가까운 게시물을 찾는 작업을 알아보았습니다. 기존의 데이터가 그리 많지 않다면 이런 식으로 새로운 게시물과 기존 데이터 전체를 비교를 하면 되겠지만 만약 더보기…

Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”

비지도학습 머신러닝에는 크게 지도학습과 비지도학습이 있습니다. 데이터 자체 뿐만 아니라 데이터가 가리키는 정보(Label)를 함께 입력하여 학습시키는 것을 지도학습이라고 합니다. 이와 반대로 비지도학습에는 Label이 없습니다. 데이터 자체만을 전달할 뿐이죠. 비지도학습은 스스로 Label을 찾아냅니다. 데이터 자체에서 패턴을 찾아내어 일종의 Label을 만드는 것입니다. 이번 포스트에서는 ‘관련된 게시물 찾기’를 통해 비지도학습이 어떻게 이루어지는지 알아보겠습니다. 더보기…