데이터분석
-
ADsP 합격 후기DATA 2017. 7. 2. 00:30
드디어 정말 한 달만에 ADsP(데이터분석 준전문가) 결과가 나왔다!모의고사를 볼 땐 합격점수라 크게 걱정하진 않았는데실제로 시험장에 가니까 생각보다 너무 어려웠다ㅠㅠ특히, 3과목이 R코드와 관련된 문제는 거의 없었고 결과창도 공부한 책과 다른 그림이 나와있어서 많이 어려웠다.심지어 아예 처음 보는 단어들도 있었다^^1, 2과목도 주관식이 조금 어려운 편이었다. 다른 분들도 생각보다 어려우셨는지 원래 1시간 30분동안 시험이지만 일찍 끝낼 수 있던 난이도 였기 때문에시험 시작 전, 다 풀면 일찍 나가도 되는지 물어보신 분이 있었다.30분 뒤에 나갈 수 있다고 했지만 아무도 나가지 않았다.....내가 본 제 13회 ADsP는 개정이 된 후 첫 시험이었다.그리고 지난 12회가 많이 쉬웠다는 얘기가 있어서 이..
-
파이썬 XML/HTMLDATA/_python 2017. 7. 1. 22:45
지난 포스팅에 이어 파이썬으로 외부파일을 가져오는 방법을 알아보자.XML과 HTML은 웹에서 쓰이는 것으로 XML은 직접 태그를 정의할 수 있고, HTML은 정해진 태그를 이용한다.두 형식의 파일을 불러오기 위해 BeautifulSoup 이라는 패키지를 사용할 것이다. # 필요한 패키지 설치 import os import sys import urllib2 from bs4 import BeautifulSoup import pandas as pd # XML파일의 URL 불러오기 sampleURL = "http://www.kobis.or.kr/kobisopenapi/webservice/rest/movie/searchMovieList.xml?key=430156241533f1d058c603178cc3ca0e" r..
-
파이썬 JSONDATA/_python 2017. 6. 23. 10:36
JSON과 XML은 서로 다른 언어들 사이에서 데이터를 주고 받는 방법 중 하나로 쓰인다.경량의 데이터 교환 형식으로 자바 스크립트에서 숫자와 배열 등을 만드는 형식을 빌려서 다른 언어에서도 사용할 수 있도록 한 것이다.최근 API를 사용하여 데이터 분석을 하는 경우도 많아졌다. 그 때 주로 JSON이나 XML파일의 형식을 사용하게 된다. JSON # json 패키지 importimport json# json 변수 생성 json_data2 = """{ "id": "0001", "type": "donut", "name": "Cake", "ppu": 0.55, "batters":{ "batter": [ { "id": "1001", "type": "Regular" }, { "id": "1002", "type"..
-
파이썬 CSV 파일DATA/_python 2017. 6. 21. 12:37
데이터 분석을 할 때 가장 많이 쓰는 파일의 형태 중 .csv가 있다..csv는 구분자(일반적으로 쉼표)로 데이터 내용을 나누어 놓은 엑셀과 같은 모습의 파일이다. 사용해야 하는 데이터가 프로그램 내에서 만들어진 것이 아니라 외부 파일로 존재할 수도 있고, 프로그래밍을 완성한 데이터를 다시 하나의 파일로 저장할 수 있어야 한다. CSV # 패키지 불러오기 import os import sys import pandas as pd # 파일 불러오기 testCSV_path = "C:\\Users\\acorn\\Desktop\\sampledata\\01_olive.csv" # 경로 지정 olive_oil = pd.read_csv(testCSV_path) olive_oil.head(5) pd.read_csv() ..
-
파이썬 자료형/자료구조-튜플, 리스트DATA/_python 2017. 6. 8. 10:31
파이썬은 1991년 귀도 반 로섬이 발표한 프로그래밍 언어로 C언어로 구현되어 있다. 이름은 프로그래머가 좋아하는 코미디 프로그램인 'Monty Python's Flying Circus'에서 유래했다. 파이썬은 인터프리터, 객체지향, 동적 타이핑의 특징을 가진 대화형 언어다.다양한 플랫폼에서 사용이 가능하며 라이브러리(모듈)이 풍부하다. 자료형 a = 1 # 정수형b = 1.2 # 실수형c = 3.1E10 # 실수형d = 0o14 # 8진수e = 0x20 # 16진수f = "hello" # 문자열 이스케이프 코드\n: 줄바꿈\t: 탭\': 단일 인용부호'\": 이중 인용부호"\r: 캐리지 리턴\f: 폼 피드\a: 벨소리\b: 백스페이스\000: null문자 자료구조 파이썬은 튜플, 리스트, 딕셔너리, 셋..
-
ADsP 3과목 데이터 분석 (2)DATA 2017. 6. 5. 08:56
3과목 데이터 분석 (2) 3-3. 정형 데이터 마이닝3-3-1. 데이터 마이닝 개요 - 데이터 마이닝: 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용- Supervised Learning(교사학습/지도학습); 의사결정나무, 인공신경망, 회귀분석, k-NN, 사례기반추론- Unsupervised Learning(비교사학습/비지도학습); 군집분석, 연관분석, OLAP, SOM- 데이터 마이닝 추진단계: 목적설정→데이터 준비→가공→기법적용→검증- 데이터 분할 1. Training data: 모델 구축용 데이터(50%) 2. Validation data: 모델 검증용 데이터(30%) 3. Test data: 모델 평가용 데이터(20%)- 모형 평가a는 우량, b는 불량인 상품일 때, 연..
-
ADsP 3과목 데이터 분석 (1)DATA 2017. 6. 1. 15:02
3과목 데이터 분석 (1) 3-1. R기초와 데이터 마트3-1-1. R기초 - R 1. 오픈소스; 도움 요청 쉬움, 패키지 수시 업데이트 2. S 통계언어 기반 (GNU S) 3. 모든 운영체제 사용가능 4. 객체지향언어 5. 함수형 언어; 깔끔한 코드, 빠른 속도, 디버깅 노력 감소- R Studio 1. 오픈소스 2. 변수와 타입 확인 가능 3. 스크립트 관리와 문서화 편함 4. 코딩을 해야 하지만 자동화 가능 5. 래틀(Rattle): R을 GUI 환경에서 편리하게 사용하도록 돕는 패키지- 화면 1. 스크립트; 입력 2. 콘솔; 실행 3. 워크스페이스; 변수와 데이터 4. 패키지, plot, help 등- 함수 - 데이터 구조 1. 벡터; 동질적(모든 원소는 같은 자료형 또는 모드) 2. 리스트; ..
-
ADsP 2과목 데이터 분석기회DATA 2017. 5. 31. 10:30
2과목 데이터 분석기회 * 정의와 함께 주관식으로 나올 수 있는 것은 밑줄 표시 2-1. 데이터 분석 기획의 이해2-1-1. 분석 기획 방향성 도출 - 분석기획을 위한 역량: 수학/통계학 지식, 정보기술, 도메인지식- 분석 대상과 방법에 따른 분석 유형분석 유형분석대상 O X 분석 방법 O Optimization Insight X Solution Discovery - 목표시점 별: 과제중심적 접근방식 vs 장기적인 마스터 플랜 방식- 분석 기획 시 고려사항1. 데이터에 대한 고려: 데이터 확보, 데이터 유형2. 적절한 비즈니스 유즈 케이스 탐색3. 장애요소에 대한 사전 계획 수립 2-1-2. 분석 방법론 - 분석방법론 모델1. 폭포수 모델: 순차적 진행으로 문제가 발견되면 피드백2. 나선형 모델: 반복을..