Scikit-learn: 회귀를 이용한 주택 가격 예상

회귀 한번 돌아(일주하여) 원래로 돌아오는 것. 회귀의 개념을 처음 통계에 도입한 사람은 영국의 유전학자 갤톤(Galton. F.)이다. 그는 부모와 자식간의 신장을 조사하여, 일반적으로 장신인 부모의 아이는 장신이지만, 그 평균신장은 부모만큼 크지 않다는 것을 밝혀냈다. 다시 말하면 아이의 신장은 항상 일반적인 평균으로 되돌아가는 경향이 있다고 하여, 이것을 평균의 회귀현상이라 하였다. <fn>http://terms.naver.com/entry.nhn?docId=369855&cid=42413&categoryId=42413</fn> 회귀의 개념은 꽤나 재미있습니다. 항상 평균으로 되돌아가는 […]

Scikit-learn의 CountVectorizer를 이용한 “뉴스 그룹 분류”

이 포스트는 이전 포스트(Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”)에서 이어집니다. 군집화 우리는 이전 포스트에서 “관련 게시물 찾기”를 하였습니다. 새로운 게시물이 들어왔을 때 Label이 붙어있지 않은 데이터 집합 중 가장 가까운 게시물을 찾는 작업을 알아보았습니다. 기존의 데이터가 그리 많지 않다면 이런 식으로 새로운 게시물과 기존 데이터 전체를 비교를 하면 되겠지만 만약 기존의 데이터가 이미 많은 상태라면 […]

Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”

비지도학습 머신러닝에는 크게 지도학습과 비지도학습이 있습니다. 데이터 자체 뿐만 아니라 데이터가 가리키는 정보(Label)를 함께 입력하여 학습시키는 것을 지도학습이라고 합니다. 이와 반대로 비지도학습에는 Label이 없습니다. 데이터 자체만을 전달할 뿐이죠. 비지도학습은 스스로 Label을 찾아냅니다. 데이터 자체에서 패턴을 찾아내어 일종의 Label을 만드는 것입니다. 이번 포스트에서는 ‘관련된 게시물 찾기’를 통해 비지도학습이 어떻게 이루어지는지 알아보겠습니다. 새로운 게시물이 입력되었을 때 Label이 […]

Scikit-learn을 활용한 최근접 이웃 분류: 씨앗 데이터셋

최근접 이웃 분류 이번 포스트에서는 최근접 이웃 분류(일명 knn)에 관해 간단하게 알아보도록 하겠습니다. 최근접 이웃 분류란 해당 데이터 포인트에서 가장 가까운 곳에 위치한 데이터 포인트의 라벨을 예상값으로 하는 알고리즘입니다. Scikit-learn을 이용하여 교차 검증을 거쳐 최근접 이웃 분류를 해보도록 하겠습니다. 우선 import 부터 선언하겠습니다. import numpy as np from sklearn.neighbors import KNeighborsClassifier 우리가 사용할 데이터셋은 ‘씨앗 […]

Scikit-learn의 Iris 데이터셋 분류하기

Iris Dataset 분류하기 Scikit-learn의 기본적인 dataset 중에 4가지 특성으로 아이리스 꽃을 분류하는 예제가 있습니다, 01. 데이터 로드 #-*- coding: cp949 -*- #-*- coding: utf-8 -*- import math import matplotlib.pyplot as plt import numpy as np from sklearn.datasets import load_iris data = load_iris()   02. 데이터 구조 파악하기 data는 하나의 클래스 객체인데 dict의 형식을 따르고 있는 […]