본문 바로가기

6.Numpy | Pandas | Crawling

(16)
6/2(금) IT K-DT(64일차) / 4. 픽사베이 이미지 데이터 크롤링 4. 픽사베이 이미지 데이터 크롤링 픽사베이 공식 홈페이지: https://pixabay.com/ko/ # Google Chrome 브라우저의 버전에 맞는 ChromeDriver를 자동으로 설치하는 모듈 import chromedriver_autoinstaller # sleep() 함수를 사용하여 프로그램에 지연을 도입하는 데 사용하는 시간 관련 모듈 import time # 파일과 디렉터리에 접근하고 조작이 목적인 운영 체제와 상호 작용하는 모듈 import os # webdriver는 Selenium을 사용하여 웹 브라우저를 자동화하는 데 사용되는 핵심 클래스 from selenium import webdriver # By는 Selenium에서 요소를 찾는 데 사용되는 다양한 방법을 정의하는 클래스 ..
6/2(금) IT K-DT(64일차) / 3. 인스타그램 데이터 크롤링 3. 인스타그램 데이터 크롤링 3-1. 로그인 import chromedriver_autoinstaller import time from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() # 로그인, 비밀번호 입력 후 로그인 driver.implicitly_wait(3) # 웹 요소를 찾을 때 최대 3초 동안 대기하고, 3초 이내에 웹 요소가 나타나면 즉시 다음 동작을 수행. 만약 3초가 지나도 웹 요소가 나타나지 않으면 NoSuchElement 예외가 발생. url = 'https://www.instagram.com/' driver.get(url) id = 'junehee042@..
6/1(목) IT K-DT(63일차) / 1.크롤링~2.셀레니움 1. 크롤링(Crawling) 데이터 크롤링(Data Crawling) 자동화된 방식으로 웹 페이지를 탐색하고, 필요한 데이터를 수집하는 프로세스를 의미. 크롤러(또는 스파이더, 로봇)라고 불리는 프로그램이 웹 페이지를 방문하며, 링크를 따라 이동하고 페이지의 내용을 분석하여 정보를 추출 → 웹 상의 다양한 데이터를 수집할 수 있음. 예를 들어, 뉴스 기사, 제품 정보, 사용자 리뷰, 소셜 미디어 게시물 등을 크롤링할 수 있음. 데이터 스크래핑(Data Scraping) 크롤링 과정에서 수집한 데이터 중에서 필요한 부분을 추출하는 작업을 의미. 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 것에 비해, 스크래핑은 수집한 데이터에서 원하는 정보를 추출하는 작업임. 스크래핑은 데이터를 정제하고 구조화하여 ..
5/22(월) IT K-DT(56일차) / 4.DataFrame 활용하기 4. DataFrame 활용하기 KBO 홈페이지에서 임의의 야구선수의 데이터를 활용 https://www.koreabaseball.com/Record/Player/HitterDetail/Daily.aspx?playerId=62404 KBO 홈페이지 KBO, 한국야구위원회, 프로야구, KBO 리그, 퓨처스리그, 프로야구순위, 프로야구 일정 www.koreabaseball.com import pandas as pd url = ' https://www.koreabaseball.com/Record/Player/HitterDetail/Daily.aspx?playerId=62404' df = pd.read_html(url, index_col=0) # index_col=0을 작성 시, 대괄호로 감싸진 채로 가져옴. ..
5/22(월) IT K-DT(56일차) / 3.Matplotlib 3. Matplotlib 3-1. Matplotlib의 개요 파이썬 프로그래밍 언어를 사용하여 데이터 시각화를 위한 패키지. 데이터를 그래프나 차트로 시각적으로 표현할 수 있는 강력한 기능을 제공함. 다양한 그래프 유형을 지원하며, 선 그래프, 막대 그래프, 원 그래프, 히스토그램 등을 생성할 수 있음. 사용하기 쉽고 유연한 API를 제공하여 사용자가 그래프의 다양한 측면을 제어할 수 있음. 그래프의 축, 레이블, 제목, 범례, 스타일 등의 사용자 지정 또한 가능함. 다중 서브플롯을 생성하여 여러 그래프를 하나의 그림에 표시하는 기능을 제공하기도 함. 파이썬의 데이터 분석 생태계인 NumPy, Pandas와도 통합될 수 있음. 공식 홈페이지 : https://matplotlib.org Matplotlib..
5/30(화) IT K-DT(61일차) / 13. 떡볶이 프랜차이즈 입점전략 관련 데이터 분석 예제 13. 떡볶이 프랜차이즈 입점전략 관련 데이터 분석 예제 import pandas as pd # 데이터 df로 변환 df = pd.read_csv('/content/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv') # 데이터 불러오기 df # 데이터 정보 확인 df.info() # 떡볶이집의 이름으로 shop을 만듦 shop = ['엽기떡볶이', '신전떡볶이', '죠스떡볶이', '국대떡볶이', '감탄떡볶이'] # 파리바게뜨 데이터 필터링 (파리바게뜨나 파리바게트라는 이름의 업소명, 업소번호, 경도, 위도를 불러옴) # df_paris # 상가업소번호, 경도, 위도 cont1 = df['상호명'].str.contains(r'파리바게뜨|파..
5/30(화) IT K-DT(61일차) / 12. 스타벅스 API를 이용한 데이터 분석 예제 12. 스타벅스 API를 이용한 데이터 분석 예제 import requests # 특정 API의 호출/응답 라이브러리 import folium # 지도 작성 라이브러리 import json from pandas.io.json import json_normalize # text를 dictionary로 바꿔주는 라이브러리 import warnings warnings.filterwarnings('ignore') # 스타벅스 시/도 리스트 API의 호출 targetSite = 'https://www.starbucks.co.kr/store/getSidoList.do' request = requests.post(targetSite) print(request) # 정상적인 호출 확인 print(request.text..
5/25(목) IT K-DT(59일차) / 10. 전국 도시 공원 데이터 분석 예제 10. 전국 도시 공원 데이터 분석 예제 # 라이브러리 추가 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 한글이 사용가능하도록 함 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf plt.rc('font', family='NanumBarunGothic') park = pd.read_csv('/content/drive/MyDrive/K-DT/python_데이터분석/전국도시공원표준데이터.csv', encoding='ms949') # 뒤에 enco..