역학의 지표: 유병률(prevalence)과 발생률(incidence)

유병률과 발생률   1. 유병률 지표 Prevalence  1) Point prevalence(시점유병률) 이 지표는 현재 시점에서 병에 걸린 사람들이 얼마나 되는지를 나타낸다. 주의할 점은 분모에는 질병의 발생이 가능한(at risk) 사람들만 포함하야여 한다는 점이다. 쉽게 말해, Cervical cancer를 논함에 있어 Hysterectomy를 받은 환자들은 분모에 포함되면 안된다. 아래의 예시처럼 면역력이 존재하는 경우 역시 분모에서 빠져야 한다. 현재 질병에 […]

율의 표준화(직접/간접 표준화)

율의 표준화(직접/간접 표준화) 한 인구 집단의 사망률(mortality)에 영향을 주는 요소는 매우 많다. 나이, 성별, 거주지역, 교육 수준, 가족 상태, 경제적 위치 등이 사망률에 직접 혹은 간접적으로 영향을 미친다. Standardization 표준화는 어떠한 변수들을 비교할 때 관심 밖의 변수들(교란 변수, confounding variables)의 영향을 최대한 제거하기 위한 방법으로 직접 표준화와 간접 표준화 두 […]

단변수 통계(2)

Chapter 03에서 배울 내용 주요 분포 모수적 검정 5가지 비모수적 검정 3가지 선형 모델 03 비모수적 검정 Spearman rank-order correlation(quantitative~quantitative) Spearman 상관계수는 Pearson의 상관계수와 같다. 마찬가지로 -1과 1 사이의 값을 가게 된다. 다만 데이터가 정규분포를 따르지 않은 경우에 이용한다는 것이 다른 점이다. import numpy as np import scipy.stats as stats […]

단변수 통계(1)

Chapter 03에서 배울 내용 주요 분포 모수적 검정 5가지 비모수적 검정 3가지 선형 모델 01 주요 분포 Normal distribution 정규분포는 평균 와 표준편차 를 모수로 합니다. 측정값(Estimator)는 와 입니다. Chi-Square distribution 카이분포는 의 정규분포를 따르는 서로 독립인 개의 랜덤변수의 합이 이루는 분포입니다. 이때의 자유도(degree of freedom, df)는 입니다.  라면 이고 다음이 성립합니다.  (one df) 개의 […]

MATPLOLIB: 데이터 시각화(2)

Chapter 02에서 배울 내용 Basic plots Scatter plots Other plots 03-1 Boxplot Boxplot은 비모수적인 그래프입니다. 표본의 분포를 보여주긴 하지만 어떠한 통계학적 분포를 가정하며 그래프를 작성하지는 않습니다. Boxplot을 그리기 위해서는 seaborn 패키지가 필요합니다. import seaborn as sns sns.boxplot(x=’education’, y=’salary’, hue=’management’, data=salary, palette=”PRGn”) plt.show() sns.boxplot(x=’education’, y=’salary’, data=salary, palette=’PRGn’) plt.show() sns.boxplot(x=’management’, y=’salary’, hue=’education’, […]

MATPLOLIB: 데이터 시각화(1)

Chapter 02에서 배울 내용 Basic plots Scatter plots Other plots 01 Basic plots import numpy as np import matplotlib.pyplot as plt %matplotlib inline x = np.linspace(0, 10, 50) sinus = np.sin(x) plt.plot(x, sinus) plt.show() linspace 함수 np.linspace(start, stop, num, endpoint, retstep, dtype) plt.plot(x, sinus, “o”) plt.show() cosinus = np.cos(x) plt.plot(x, […]

PANDAS로 데이터 조작하기(3)

Chapter 01에서 배울 내용 DataFrame: Pandas의 기본 데이터 형태 DataFrame 합치기 DataFrame 정보 요약하기 DataFrame의 열(column) 선택하기 DataFrame의 행(row) 선택하기(basic) DataFrame의 행(row) 선택하기(filtering) 분류하기(Sorting)  DataFrame 통계 기술하기 데이터 질 평가(quality check) 행 이름 수정하기 이상치(outlier) 처리하기 파일 불러오기/내보내기 09 Quality check Remove duplicate data df = users.append(df.iloc[0], ignore_index=True) print(df.duplicated()) # […]

PANDAS로 데이터 조작하기(2)

Chapter 01에서 배울 내용 DataFrame: Pandas의 기본 데이터 형태 DataFrame 합치기 DataFrame 정보 요약하기 DataFrame의 열(column) 선택하기 DataFrame의 행(row) 선택하기(basic) DataFrame의 행(row) 선택하기(filtering) 분류하기(Sorting) DataFrame 통계 기술하기 데이터 질 평가(quality check) 행 이름 수정하기 이상치(outlier) 처리하기 파일 불러오기/내보내기 04 Columns selection users[‘gender’] # select one column type(users[‘gender’]) # Series users.gender […]

PANDAS로 데이터 조작하기(1)

데이터 분석에 있어 80% 이상이 데이터를 다듬고 준비하는 과정입니다. Pandas 라이브러리는 이러한 과정을 잘 수행할 수 있도록 도와줍니다. Chapter 01에서 배울 내용 DataFrame: Pandas의 기본 데이터 형태 DataFrame 합치기 DataFrame 정보 요약하기 DataFrame의 열(column) 선택하기 DataFrame의 행(row) 선택하기(basic) DataFrame의 행(row) 선택하기(filtering) 분류하기(Sorting) DataFrame 통계 기술하기 데이터 질 평가(quality check) 행 […]

비모수적 방법

비모수적 방법 지금까지 게시물의 통계적 추론은 대부분 모집단이 정규분포를 따른다는 가정 하에서 이루어졌다. 그러나 현실에서는 도저히 정규분포로 볼 수 없는 경우도 많이 발생한다. 모집단 분포를 정규분포, 지수분포 등 모수를 갖는 함수 형태의 분포로 가정하고 접근하는 통계적 방법을 모수적(parametric) 방법이라 한다. 반대로 모집단 분포에 대한 가정 없이 접근하는 통계적 방법을 비모수적 방법(non-parametric […]