Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”

비지도학습 머신러닝에는 크게 지도학습과 비지도학습이 있습니다. 데이터 자체 뿐만 아니라 데이터가 가리키는 정보(Label)를 함께 입력하여 학습시키는 것을 지도학습이라고 합니다. 이와 반대로 비지도학습에는 Label이 없습니다. 데이터 자체만을 전달할 뿐이죠. 비지도학습은 스스로 Label을 찾아냅니다. 데이터 자체에서 패턴을 찾아내어 일종의 Label을 만드는 것입니다. 이번 포스트에서는 ‘관련된 게시물 찾기’를 통해 비지도학습이 어떻게 이루어지는지 알아보겠습니다. 더보기…