-
ADsP 합격 후기DATA 2017. 7. 2. 00:30
드디어 정말 한 달만에 ADsP(데이터분석 준전문가) 결과가 나왔다!모의고사를 볼 땐 합격점수라 크게 걱정하진 않았는데실제로 시험장에 가니까 생각보다 너무 어려웠다ㅠㅠ특히, 3과목이 R코드와 관련된 문제는 거의 없었고 결과창도 공부한 책과 다른 그림이 나와있어서 많이 어려웠다.심지어 아예 처음 보는 단어들도 있었다^^1, 2과목도 주관식이 조금 어려운 편이었다. 다른 분들도 생각보다 어려우셨는지 원래 1시간 30분동안 시험이지만 일찍 끝낼 수 있던 난이도 였기 때문에시험 시작 전, 다 풀면 일찍 나가도 되는지 물어보신 분이 있었다.30분 뒤에 나갈 수 있다고 했지만 아무도 나가지 않았다.....내가 본 제 13회 ADsP는 개정이 된 후 첫 시험이었다.그리고 지난 12회가 많이 쉬웠다는 얘기가 있어서 이..
-
파이썬 XML/HTMLDATA/_python 2017. 7. 1. 22:45
지난 포스팅에 이어 파이썬으로 외부파일을 가져오는 방법을 알아보자.XML과 HTML은 웹에서 쓰이는 것으로 XML은 직접 태그를 정의할 수 있고, HTML은 정해진 태그를 이용한다.두 형식의 파일을 불러오기 위해 BeautifulSoup 이라는 패키지를 사용할 것이다. # 필요한 패키지 설치 import os import sys import urllib2 from bs4 import BeautifulSoup import pandas as pd # XML파일의 URL 불러오기 sampleURL = "http://www.kobis.or.kr/kobisopenapi/webservice/rest/movie/searchMovieList.xml?key=430156241533f1d058c603178cc3ca0e" r..
-
파이썬 JSONDATA/_python 2017. 6. 23. 10:36
JSON과 XML은 서로 다른 언어들 사이에서 데이터를 주고 받는 방법 중 하나로 쓰인다.경량의 데이터 교환 형식으로 자바 스크립트에서 숫자와 배열 등을 만드는 형식을 빌려서 다른 언어에서도 사용할 수 있도록 한 것이다.최근 API를 사용하여 데이터 분석을 하는 경우도 많아졌다. 그 때 주로 JSON이나 XML파일의 형식을 사용하게 된다. JSON # json 패키지 importimport json# json 변수 생성 json_data2 = """{ "id": "0001", "type": "donut", "name": "Cake", "ppu": 0.55, "batters":{ "batter": [ { "id": "1001", "type": "Regular" }, { "id": "1002", "type"..
-
파이썬 CSV 파일DATA/_python 2017. 6. 21. 12:37
데이터 분석을 할 때 가장 많이 쓰는 파일의 형태 중 .csv가 있다..csv는 구분자(일반적으로 쉼표)로 데이터 내용을 나누어 놓은 엑셀과 같은 모습의 파일이다. 사용해야 하는 데이터가 프로그램 내에서 만들어진 것이 아니라 외부 파일로 존재할 수도 있고, 프로그래밍을 완성한 데이터를 다시 하나의 파일로 저장할 수 있어야 한다. CSV # 패키지 불러오기 import os import sys import pandas as pd # 파일 불러오기 testCSV_path = "C:\\Users\\acorn\\Desktop\\sampledata\\01_olive.csv" # 경로 지정 olive_oil = pd.read_csv(testCSV_path) olive_oil.head(5) pd.read_csv() ..
-
파이썬 pandasDATA/_python 2017. 6. 14. 18:54
Pandas Pandas는 구조화도니 데이터를 빠르고 쉽고 다양하게 가공할 수 있는 패키지다. numpy가 연산을 위한 패키지였다면 pandas는 데이터 분석환경을 만드는데 필요한 패키지다. 또 numpy에서는 array라는 배열을 사용했는데 pandas에서는 series와 dataframe(데이터프레임)을 사용한다.개인적으로 데이터 분석을 할 때 파이썬에서 pandas를 이용해 기본적인 데이터 전처리를 하고 R이나 SPSS, SAS와 같은 통계 프로그램으로 분석을 하는 것이 좋을 것 같다. Pandas도 파이썬 내에 기본으로 실행되는 패키지가 아니므로 import를 해주어야 한다. import pandas as pdpandas를 import 하는데 아래 코드부터는 pandas를 pd로 줄여서 사용하겠다..
-
파이썬 numpyDATA/_python 2017. 6. 13. 10:35
Numpy Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅을 하는 데이터 분석에 필요한 기본적인 패키지다.Numpy에서는 리스트 대신 배열(array)를 만드는데 리스트에 비해 빠르고 반복문을 사용하지 않고 전체 데이터에 일괄적인 연산 적용이 가능하다. 또 유연한 사용을 할 수 있는 것이 특징이다.Numpy는 파이썬을 켰을 때 기본으로 실행되는 패키지가 아니므로 import를 해주어야 한다. import numpy as npnumpy라는 패키지를 불러오면서 아래에 코드를 쓸 때 numpy를 np로 사용하겠다는 뜻이다. # 배열 생성 print np.arange(0,51,10) # 0~50까지 10간격으로 정렬 print np.arange(0,51,10)[:, np.newax..
-
파이썬 조건문과 반복문DATA/_python 2017. 6. 12. 11:15
파이썬에서 조건문과 반복문을 쓸 때는 들여쓰기가 아주 중요하다. 다른 언어에서는 {}를 사용해 묶어주기 때문에 각 제어문이 어느 단위로 수행되는지 알 수 있지만, 파이썬에서는 :만 사용하기 때문에 들여쓰기 된 정도에 따라 제어문 수행 단위를 인식한다. 조건문 조건문은 주어진 조건에 근거하여 참, 거짓을 판단한 후에 다음 처리과정을 수행할 것인지 결정하는 수행문이다.if문을 주로 사용하며 파이썬에서는 if, else, elif를 이용하여 조건문을 만든다. ### 뒤에 문장은 코드를 실행시켰을 때 나오는 결과입니다. if와 else a = 1 # 변수 선언 # a가 1인지 확인 if a==1: print "a는 1이다." else: print "a는 1이 아니다." ### a는 1이다. pocket = ["..
-
파이썬 포맷팅DATA/_python 2017. 6. 10. 15:10
포맷팅(Formating) 포맷팅은 직접 값을 넣는 것이 아니라 참조를 받아 값을 입력하는 방식이다.포맷팅을 할 때는 각 자료형에 맞는 포맷팅 코드를 입력해야 한다. 포매팅 코드 (formating code)%s 문자열(string)%c 문자 1개(character)%d 정수(integer)%f 부동소수(floating point)%o 8진수%x 16진수 ### 뒤에 써있는 내용은 코드를 실행시켰을 때 나오는 결과입니다. "I eat %d apples." %3 # 숫자 대입 ### 'I eat 3 apples.' "I eat %s apples." %"five" # 문자 대입 ### 'I eat five apples.' 여러 개의 포맷팅을 할 수도 있다.number = 10 day = three "I at..