문제: 주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하세요! 1. 먼저 데이터 살펴보기(결측값 확인하기) df = pd.read_csv('Desktop/basic1.csv') # 데이터 보기 df.head(5) # 각 열이 결측값을 얼마나 갖고 있는지 확인하기 df.isnull().sum() 2. 데이터에서 결측치가 80%이상 되는 컬럼(변수) 찾기 # df가 어떻게 이루어져 있는지 보기(몇개의 변수들의 값으로 이루어져 있는지) df.shape # df 행 수의 값으로 나눠 결측값 비율 찾기 df.isnull().sum()/df.shape[0] 3. 결측치가 80%이상 되는 컬럼..

머신러닝(Machine Learning) 컴퓨터가 데이터를 통해 유의미한 패턴과 통계적인 함수를 발견하여 행동의 지침이 되는 지식(예측, 분류, 회귀, 추천 등)을 얻어내는 행위 1. 머신러닝 알고리즘의 범주 1-1. 회귀 의미: 입력데이터를 바탕으로 원하는 타겟변수의 미래결과 예측 활용예시 금융분야: 주식시장 예측, 환율예측, 상품 risk예측 등 CRM: 백화점 수요예측, 가격견적, 광고입찰, 고객의 쿠폰반응 예측 등 1-2. 분류 의미: 입력데이터를 바탕으로 개별 데이터의 부류(Class)를 예측하거나 계급 결정 활용예시 스팸 필터링 신용카드 사기탐지 VIP 고객 여부 분석 제조 결함 탐지 약물 효능 검사 1-3. 추천 의미: 고객이 선호하는 상품 혹은 그 대안 예측 활용예시 홈쇼핑의 상품 추천 넷..
step1. 필요한 라이브러리 불러오기 & 이메일 발송을 위한 로그인 아이디와 비밀번호 입력 input 만들기 import smtplib, email, os import openpyxl, sys from io import StringIO import time import random from email.header import Header from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText from email.mime.image import MIMEImage from email.mime.base import MIMEBase from email import encoders gid = input('G-Mail ..
1. 빈도 분석하기: collections패키지의 counter 함수 이용 import collections sal_all = [970,950,990,380,430,430,380,420,450,320,550,320,380,420,970] sal_count = collections.Counter(sal_all) print(sal_count) ⇨출력 값: Counter({380: 3, 970: 2, 430: 2, 420: 2, 320: 2, 950: 1, 990: 1, 450: 1, 550: 1}) 2. 최대 / 최소값 구하기: mix, max print('최대연봉:', max(sal_all)) print('최소연봉:', min(sal_all)) print('전체 건수:',len(sal_all)) ⇨출력 값..

step 1. nltk 패키지 설치하기 nltk.download() step2. nltk패키지 불러오고 제대로 설치되었는 지 테스트하기 import nltk from nltk.corpus import brown brown.words() step3. 불용어 제거를 위한 불용어 사전 로딩 from nltk.corpus import stopwords from nltk.tokenize import RegexpTokenizer 미국 도날드 트럼프 연설문 불러와서 형태소 분석하기~! (필요하신 분은 아래 텍스트 파일 다운로드 해주세요~!) step4. 텍스트 파일 불러오고 형태소 분리하기 data1 = open('파일경로/파일이름.txt').read() from nltk.tokenize import WordPunc..

산포도 그래프 그리기 step 1. 데이터 생성과 그래프를 그리기 위한 라이브러리 불러오기, ggplot형태 그래프 이용 import maplotlib.pyplot as plt import numpy as np plt.style.use('ggplot') step2. 샘플 데이터 생성 np.random.seed(2) x = np.arange(1, 201) #총 200개 데이터 생성 y = 2 * x * np.random.rand(200) step3. 산포도 그래프 그리기 fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(x,y) plt.show() ⇨그래프 결과 bokeh chart 활용하기 1. 다중 선 그래프 그리기 step1. bokeh 라이브러리 불..
step1. 맥북 한글 폰트 설정: AppleGothic이용하기 from matplotlib import font_manager, rc rc('font', family = 'AppleGothic') step2. csv파일 안깨지게 불러오기 먼저 엑셀 csv 파일을 저장할 때 UTF-8 CSV파일로 저장함 한글이 깨지면 engine = 'python'이용 df = pd.read_csv('경로/파일이름.csv', engine = 'python) ⇨ 데이터 프레임 출력 결과 선수명 경기수 타수 득점 안타 홍길동 137 476 84 176 일지매 131 483 91 177 전우치 106 388 84 141 강감찬 125 498 103 173 step3. 컬럼별로 데이터 만들기 data1 = df['경기수'] d..

1. 결정 트리(Decision Tree) 데이터 마이닝에서 일반적으로 사용되는 방법론으로, 몇몇 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것을 목표로 한다. 아래 그림은 그러한 예측 모델의 한 예를 나타내고 있다. 그림의 트리 구조에서, 각 내부 노드들은 하나의 입력 변수에, 자녀 노드들로 이어지는 가지들은 입력 변수의 가능한 값에 대응된다. 잎 노드는 각 입력 변수들이 루트 노드로부터 잎 노드로 이어지는 경로에 해당되는 값들을 가질 때의 목표 변수 값에 해당된다. 2. 랜덤 포레스트(Random Forest) 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한..

1. 선형회귀(Linear Regression) 다음과 같은 선형 함수 y=Wx + b를 이용해서 회귀(Regression)를 수행하는 모델을 뜻한다. 이때 x,y는 가지고 있는 데이터이고, w와 b는 데이터에 적합한 값으로 학습될 수 있는 파라미터(Parameter)이다. 2. 손실 함수(Loss Function) - MSE 머신 러닝 모델을 학습시키기 위해서는 적절한 파라미터값을 알아내기 위해서 현재 파라미터값이 우리가 풀고자 하는 목적에 적합한 값인지를 측정할 수 있어야 한다. 이를 위해 손실 함수 J(θ)를 정의한다. 손실 함수는 여러가지 형태로 정의될 수 있다. 그 중 가장 대표적인 손실 함수 중 하나는 평균제곱오차(Meanof Squared Error(MSE))이다. MSE는 아래과 같은 수식..

머신러닝(Machine Learning) 명시적인 프로그래밍 없이 데이터를 이용해서 예측 또는 분류를 수행하는 알고리즘을 구현하는 기법 한국말로 기계학습이라고도 부름 1. 머신러닝(Machine Learning)이 필요한 이유 머신러닝 방법론을 이용할 경우, 인간이 정확히 하나하나 로직을 지정해주기 어려운 복잡한 문제를 데이터에 기반한 학습을 통해서 해결할 수 있다. ex. 어떤 사용자에게 어떤 광고를 보여주는 것이 최적의 광고 배분 전략일까? 머신러닝 알고리즘을 사용할 때 가장 중요한 부분은 머신러닝 모델이 잘 학습할 수 있도록 적절한 특징(Feature)을 설정해주는 것이다. 2. 예측 모델(Prediction Model)의 필요성 데이터 분석을 통한 정교한 예측 모델(Prediction Model)..
- Total
- Today
- Yesterday
- 그래프
- 영어
- 코드
- 코딩테스트
- 금리
- mysql
- Programming
- 클래스
- R
- 파이썬
- SW
- sql
- 스마트워치
- 보안
- 머신러닝
- 경제
- 자바
- 코딩
- 프로그래밍
- 데이터분석
- 프로그래머스
- 영어회화
- python
- 경제신문
- 함수
- 데이터
- 모듈
- 개발
- plot
- 코테
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |