Scikit-learn: 회귀를 이용한 주택 가격 예상

회귀 한번 돌아(일주하여) 원래로 돌아오는 것. 회귀의 개념을 처음 통계에 도입한 사람은 영국의 유전학자 갤톤(Galton. F.)이다. 그는 부모와 자식간의 신장을 조사하여, 일반적으로 장신인 부모의 아이는 장신이지만, 그 평균신장은 부모만큼 크지 않다는 것을 밝혀냈다. 다시 말하면 아이의 신장은 항상 일반적인 평균으로 되돌아가는 경향이 있다고 하여, 이것을 평균의 회귀현상이라 하였다. <fn>http://terms.naver.com/entry.nhn?docId=369855&cid=42413&categoryId=42413</fn> 회귀의 개념은 더보기…

Scikit-learn의 CountVectorizer를 이용한 “뉴스 그룹 분류”

이 포스트는 이전 포스트(Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”)에서 이어집니다. 군집화 우리는 이전 포스트에서 “관련 게시물 찾기”를 하였습니다. 새로운 게시물이 들어왔을 때 Label이 붙어있지 않은 데이터 집합 중 가장 가까운 게시물을 찾는 작업을 알아보았습니다. 기존의 데이터가 그리 많지 않다면 이런 식으로 새로운 게시물과 기존 데이터 전체를 비교를 하면 되겠지만 만약 더보기…

Scikit-learn의 CountVectorizer를 이용한 “관련 게시물 찾기”

비지도학습 머신러닝에는 크게 지도학습과 비지도학습이 있습니다. 데이터 자체 뿐만 아니라 데이터가 가리키는 정보(Label)를 함께 입력하여 학습시키는 것을 지도학습이라고 합니다. 이와 반대로 비지도학습에는 Label이 없습니다. 데이터 자체만을 전달할 뿐이죠. 비지도학습은 스스로 Label을 찾아냅니다. 데이터 자체에서 패턴을 찾아내어 일종의 Label을 만드는 것입니다. 이번 포스트에서는 ‘관련된 게시물 찾기’를 통해 비지도학습이 어떻게 이루어지는지 알아보겠습니다. 더보기…

Scikit-learn을 활용한 최근접 이웃 분류: 씨앗 데이터셋

최근접 이웃 분류 이번 포스트에서는 최근접 이웃 분류(일명 knn)에 관해 간단하게 알아보도록 하겠습니다. 최근접 이웃 분류란 해당 데이터 포인트에서 가장 가까운 곳에 위치한 데이터 포인트의 라벨을 예상값으로 하는 알고리즘입니다. Scikit-learn을 이용하여 교차 검증을 거쳐 최근접 이웃 분류를 해보도록 하겠습니다. 우선 import 부터 선언하겠습니다. import numpy as np from sklearn.neighbors import 더보기…

Scikit-learn의 Iris 데이터셋 분류하기

Iris Dataset 분류하기 Scikit-learn의 기본적인 dataset 중에 4가지 특성으로 아이리스 꽃을 분류하는 예제가 있습니다, 01. 데이터 로드 #-*- coding: cp949 -*- #-*- coding: utf-8 -*- import math import matplotlib.pyplot as plt import numpy as np from sklearn.datasets import load_iris data = load_iris()   02. 데이터 구조 파악하기 data는 하나의 클래스 더보기…

large-icon

[Tensorflow] 10 Convolutional Neural Networks(CNN) 학습하기

  이론 01. Convoluted Neural Network(CNN) 이해하기 Convoluted Neural Network(CNN)의 핵심은 사진을 학습한다는 것입니다. Input으로 Label이 붙은 이미지 파일을 주고 수많은 이미지를 학습시켜 추후에 새로운 이미지가 입력되었을 때 정확히 Label을 붙이는 것을 목적으로 합니다. 예를 들어 강아지, 고양이, 새 등 여러 동물들의 이미지를 보여주고 새로운 강아지의 이미지를 입력하였을 때 학습된 더보기…

large-icon

[Tensorflow] 09 딥러닝에서 Vanishing gradient, Overfitting 해결하기

01. Geoffrey Hinton 이전 시간에도 보았듯이 딥러닝에서 깊이가 깊어질수록 Vanishing gradient로 인해 오히려 학습이 안되는 이유를 살펴보았습니다. 이에 덧붙여 그 해결방법으로 Sigmoid 함수였던 Activation function을 바꿔주면 된다고 언급하였습니다. Hinton 교수님은 이를 포함하여 딥러닝이 일시적으로 한계에 봉착한 이유 4가지를 정리하였습니다.  (1) Our labeled datasets were thousands of times too small. (2) 더보기…

large-icon

[Tensorflow] 08 Deep Neural Nets의 기본 학습하기

01. Deep Neural Nets 이번 포스트에서는 Deep neural nets의 기본 개념을 알아보겠습니다. 위 그림은 우리 몸 속 곳곳에 있는 신경세포를 도식화 해놓은 것입니다. Cell body의 수많은 Dendrites로부터 Input을 받고 길게 뻗어있는 꼬리인 Axon을 통해 신호를 전달합니다. Axon terminal은 그 다음 신경세포 혹은 근육 등과 연결되어 있어 이후 단계에 Output 신호를 더보기…

인간의 두가지 마음 : 이성, 감성

인간의 두가지 마음 : 이성, 감성 인간은 두가지 정서적 성향을 지니고 있습니다. 이성과 감성, 이것이 그 둘입니다. 이성은 논리력, 사고력 따위로 구성되어 있으며 지적활동을 할 때 쓰이는 영역입니다. 이와 반대로 감성은 사랑, 우정, 미움, 증오, 질투심 등의 감정이 일어날 때 활성화되는 영역이라 할 수 있습니다. 인간은 매일매일 이 둘을 적절히 더보기…

사람은 왜 사는가?

사람은 왜 사는가? 아마 오래전부터 풀리지 않는 의문일 것이다. 매일매일을 존재하지만 그 이유조차 모르는 우리 인간이라는 종은 어찌보면 불쌍하게까지 느껴진다. 누군가는 목표가 있어서 산다고 말한다. 꿈이 있고 하고 싶은 것이 있어 그것을 이루기 위해 산다고 말한다. 그것을 위해 노력하는 과정이 삶이라고 말한다. 허나 나는 그런 목표가 없다.물론 과거의 어느 시점에 더보기…