본문 바로가기

6.Numpy | Pandas | Crawling

(16)
5/25(목) IT K-DT(59일차) / 11. 따릉이 API를 이용한 데이터 분석 예제 11. 따릉이 API를 이용한 데이터 분석 예제 API(Application Programming Interface): 여러 프로그램/DB/기능의 상호통신방법을 정하고 도와주는 매개체 11-1. 따릉이 API 접속하기 https://www.bikeseoul.com/app/station/getStationRealtimeStatus.do # 필요한 라이브러리 가져오기 import requests # JS의 fetch와 유사한 역할. 서버에 내용을 요청/응답 라이브러리 import folium # 지도 생성하는 라이브러리 import json # json을 다루는 라이브러리 from pandas.io.json import json_normalize # json을 데이터프레임으로 바꿔주는 역할 import wa..
5/24(수) IT K-DT(58일차) / 9.상권별 업종 밀집 데이터 분석 예제 9.상권별 업종 밀집 데이터 분석 예제 # 사용할 라이브러리의 추가 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # matplotlib 기반으로 만들어진 시각화 라이브러리 # 한글이 깨지지않도록 설정 #colab에 나눔체를 설치 → 상단메뉴 '런타임'에서 '다시시작 및 모두실행'을 클릭 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf # colab에 설치한 글꼴을 설정 plt.rc('font', family='NanumBarunGothic') # 받은 파일 가져오기 shop = pd...
5/24(수) IT K-DT(58일차) / 8.folium 8. folium 8-1. folium의 개요 leaflet.js 기반으로 만들어진 라이브러리 지도 위에 데이터를 표현해주는 대표적인 python 지도 시각화 라이브러리 공식 홈페이지: https://python-visualization.github.io/folium/ Folium — Folium 0.14.0 documentation folium builds on the data wrangling strengths of the Python ecosystem and the mapping strengths of the leaflet.js library. Manipulate your data in Python, then visualize it in on a Leaflet map via folium. Conce..
5/23(화) IT K-DT(57일차) / 6.형태소 분석~7.워드클라우드 6. 형태소 분석 6-1. 자연어 * 일상에서 사용하는 언어 * 컴퓨터는 자연어를 직접적으로 이해할 수 없음 → 컴퓨터가 자연어의 의미를 분석해 처리할 수 있도록 하는 일을 '자연어 처리' 라고 부름. (Natural Language Processing) 6-2. 토크나이징 * 문장을 의미가 있는 가장 작은 단어들로 나눔 * 나눠진 단어들을 이용해 의미를 분석 * 가장 기본이 되는 단어들을 '토큰'이라고 부름 * 문장 형태의 데이터를 처리하기 위해 제일 먼저 수행해야 하는 기본적인 작업 * 토크나이징을 어떻게 하느냐에 따라 성능에 차이가 있을 수 있음 6-3. 형태소분석 * 자연어의 문장을 형태소라는 최소단위로 분할하고 품사를 판별하는 작업 * 영어의 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성..
5/22(월) IT K-DT(56일차) / 5. 쇼핑몰 데이터 분석 예제 5. 쇼핑몰 데이터 분석 예제 # pandas 모듈 pd로 불러오기 import pandas as pd # 파일 드라이브 마운트 필요. 이후 파일경로 복사 retail = pd.read_csv('/content/drive/MyDrive/K-DT/python_데이터분석/OnlineRetail.csv') retail # data를 위 5개, 아래 5개로 나누어서 가져오기 → 가시성 ▲ pd.options.display.max_rows = 10 retail # data의 정보를 확인해보기 retail.info() #각 필드의 null값의 갯수를 확인 retail.isnull().sum() #각 필드당 null값의 퍼센티지를 확인 retail.isnull().mean() # 비회원을 제거한 후, 전..
5/22(월) IT K-DT(56일차) / 2-12.그룹으로묶기~2-21. OneHotEncoding 2. 판다스(Pandas) 2-12. 그룹으로 묶기 DataFrame(df): groupby(): data를 그룹으로 묶음 # 소속사를 기준으로 묶어 갯수를 파악하려는 경우 df.groupby('소속사').count() #'그룹'을 기준으로 묶어 수치값에 대한 '평균'을 파악하려는 경우 (여기서 파악할 수 있는 수치값은 '키', '브랜드평판지수'이다.) df.groupby('그룹').mean() #'성별'을 기준으로 묶어 수치값에 대한 '평균'을 파악하려는 경우 (여기서 파악할 수 있는 수치값은 '키', '브랜드평판지수'이다.) df.groupby('성별').mean() #'혈액형'을 기준으로 묶어 '키'의 값에 대한 '평균'을 파악하려는 경우 df.groupby('혈액형')['키'].mean() #'혈..
5/19(금) IT K-DT(55일차) / 2-4.DataFrame기본정보~2-11.통계값다루기 2. 판다스(Pandas) 2-4. DataFrame 기본정보 알아보기 예제의 코드에서 보이는 'df'는 'DataFrame'을 지칭하는 단어. 예제는 아이돌에 대한 데이터임. 2-4-5. 정렬하기 df.sort_index() # index로 오름차순 정렬 df.sort_index(ascending=False) # index로 내림차순 정렬 df.sort_values(by='height') # 값에 따른 오름차순 정렬 df.sort_values(by='height', ascending=False) # 값에 따른 내림차순 정렬 예) NaN을 가장 위로 올리고 싶은 경우. na_position의 기본값은 last(=맨 아래에 위치) df.sort_values(by='height', na_position='f..
5/18(목) IT K-DT(55일차) / 1.numpy~2-4.DataFrame기본정보 1. NumPy(넘파이) 1-1. NumPy의 개요 NumPy는 Python의 수학/과학 컴퓨팅 패키지로, 다차원 배열/배열기반 계산을 지원하는 라이브러리. "Numerical Python"의 약어로, 수치 계산을 위한 강력한 도구로 널리 사용됨. 핵심 기능은 다차원 배열인 'ndarray'로, 동일한 타입의 요소들로 구성된 n차원의 배열(자료구조). Python의 '리스트'와 비슷한 구조이나 빠른 속도, 적은 메모리의 사용, 연속적인 저장의 특징이 있음. → 데이터에 효율적인 접근과 연산을 가능케 함. 배열의 요소 간 사칙/제곱연산을 원소 단위로 수행할 수 있도록 다양한 수학적 연산 또한 지원함. 다른 과학 및 데이터 분석 라이브러리들과의 호환성이 좋고, 많은 python 패키지들이 NumPy 배열을 ..