DATA/_python
-
파이썬 XML/HTMLDATA/_python 2017. 7. 1. 22:45
지난 포스팅에 이어 파이썬으로 외부파일을 가져오는 방법을 알아보자.XML과 HTML은 웹에서 쓰이는 것으로 XML은 직접 태그를 정의할 수 있고, HTML은 정해진 태그를 이용한다.두 형식의 파일을 불러오기 위해 BeautifulSoup 이라는 패키지를 사용할 것이다. # 필요한 패키지 설치 import os import sys import urllib2 from bs4 import BeautifulSoup import pandas as pd # XML파일의 URL 불러오기 sampleURL = "http://www.kobis.or.kr/kobisopenapi/webservice/rest/movie/searchMovieList.xml?key=430156241533f1d058c603178cc3ca0e" r..
-
파이썬 JSONDATA/_python 2017. 6. 23. 10:36
JSON과 XML은 서로 다른 언어들 사이에서 데이터를 주고 받는 방법 중 하나로 쓰인다.경량의 데이터 교환 형식으로 자바 스크립트에서 숫자와 배열 등을 만드는 형식을 빌려서 다른 언어에서도 사용할 수 있도록 한 것이다.최근 API를 사용하여 데이터 분석을 하는 경우도 많아졌다. 그 때 주로 JSON이나 XML파일의 형식을 사용하게 된다. JSON # json 패키지 importimport json# json 변수 생성 json_data2 = """{ "id": "0001", "type": "donut", "name": "Cake", "ppu": 0.55, "batters":{ "batter": [ { "id": "1001", "type": "Regular" }, { "id": "1002", "type"..
-
파이썬 CSV 파일DATA/_python 2017. 6. 21. 12:37
데이터 분석을 할 때 가장 많이 쓰는 파일의 형태 중 .csv가 있다..csv는 구분자(일반적으로 쉼표)로 데이터 내용을 나누어 놓은 엑셀과 같은 모습의 파일이다. 사용해야 하는 데이터가 프로그램 내에서 만들어진 것이 아니라 외부 파일로 존재할 수도 있고, 프로그래밍을 완성한 데이터를 다시 하나의 파일로 저장할 수 있어야 한다. CSV # 패키지 불러오기 import os import sys import pandas as pd # 파일 불러오기 testCSV_path = "C:\\Users\\acorn\\Desktop\\sampledata\\01_olive.csv" # 경로 지정 olive_oil = pd.read_csv(testCSV_path) olive_oil.head(5) pd.read_csv() ..
-
파이썬 pandasDATA/_python 2017. 6. 14. 18:54
Pandas Pandas는 구조화도니 데이터를 빠르고 쉽고 다양하게 가공할 수 있는 패키지다. numpy가 연산을 위한 패키지였다면 pandas는 데이터 분석환경을 만드는데 필요한 패키지다. 또 numpy에서는 array라는 배열을 사용했는데 pandas에서는 series와 dataframe(데이터프레임)을 사용한다.개인적으로 데이터 분석을 할 때 파이썬에서 pandas를 이용해 기본적인 데이터 전처리를 하고 R이나 SPSS, SAS와 같은 통계 프로그램으로 분석을 하는 것이 좋을 것 같다. Pandas도 파이썬 내에 기본으로 실행되는 패키지가 아니므로 import를 해주어야 한다. import pandas as pdpandas를 import 하는데 아래 코드부터는 pandas를 pd로 줄여서 사용하겠다..
-
파이썬 numpyDATA/_python 2017. 6. 13. 10:35
Numpy Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅을 하는 데이터 분석에 필요한 기본적인 패키지다.Numpy에서는 리스트 대신 배열(array)를 만드는데 리스트에 비해 빠르고 반복문을 사용하지 않고 전체 데이터에 일괄적인 연산 적용이 가능하다. 또 유연한 사용을 할 수 있는 것이 특징이다.Numpy는 파이썬을 켰을 때 기본으로 실행되는 패키지가 아니므로 import를 해주어야 한다. import numpy as npnumpy라는 패키지를 불러오면서 아래에 코드를 쓸 때 numpy를 np로 사용하겠다는 뜻이다. # 배열 생성 print np.arange(0,51,10) # 0~50까지 10간격으로 정렬 print np.arange(0,51,10)[:, np.newax..
-
파이썬 조건문과 반복문DATA/_python 2017. 6. 12. 11:15
파이썬에서 조건문과 반복문을 쓸 때는 들여쓰기가 아주 중요하다. 다른 언어에서는 {}를 사용해 묶어주기 때문에 각 제어문이 어느 단위로 수행되는지 알 수 있지만, 파이썬에서는 :만 사용하기 때문에 들여쓰기 된 정도에 따라 제어문 수행 단위를 인식한다. 조건문 조건문은 주어진 조건에 근거하여 참, 거짓을 판단한 후에 다음 처리과정을 수행할 것인지 결정하는 수행문이다.if문을 주로 사용하며 파이썬에서는 if, else, elif를 이용하여 조건문을 만든다. ### 뒤에 문장은 코드를 실행시켰을 때 나오는 결과입니다. if와 else a = 1 # 변수 선언 # a가 1인지 확인 if a==1: print "a는 1이다." else: print "a는 1이 아니다." ### a는 1이다. pocket = ["..
-
파이썬 포맷팅DATA/_python 2017. 6. 10. 15:10
포맷팅(Formating) 포맷팅은 직접 값을 넣는 것이 아니라 참조를 받아 값을 입력하는 방식이다.포맷팅을 할 때는 각 자료형에 맞는 포맷팅 코드를 입력해야 한다. 포매팅 코드 (formating code)%s 문자열(string)%c 문자 1개(character)%d 정수(integer)%f 부동소수(floating point)%o 8진수%x 16진수 ### 뒤에 써있는 내용은 코드를 실행시켰을 때 나오는 결과입니다. "I eat %d apples." %3 # 숫자 대입 ### 'I eat 3 apples.' "I eat %s apples." %"five" # 문자 대입 ### 'I eat five apples.' 여러 개의 포맷팅을 할 수도 있다.number = 10 day = three "I at..
-
파이썬 자료구조-딕셔너리, 셋DATA/_python 2017. 6. 9. 10:17
자료구조 딕셔너리(dictionary)- key(키)와 value(값)으로 이루어진 자료구조- { }으로 묶어주고 : 로 key와 value를 구분한다.- 튜플이나 리스트와 다르게 인덱스를 통하지 않고 key를 통해서 value를 얻는다.⇒ 순서가 상관이 없다. # 딕셔너리 생성 # key로 접근하여 내용 확인 # 딕셔너리 value 변경 및 확인 # 튜플로 묶인 객체 생성 # 딕셔너리 구조로 변경 # 리스트 생성 # 딕셔너리 구조로 변경 리스트를 생성할 때는 숫자가 2번째로 들어갔지만 딕셔너리에서는 첫번째로 보여진다. 딕셔너리는 순서와 관계가 없기 때문에 어떤 내용이 앞에 있는 지는 중요하지 않고 변경되어도 무관하다. # 딕셔너리 생성 # value(값)에 "long"을 포함한 key를 확인 위에서 c..