분류 전체보기
-
KT AIVLE School DX트랙 2차 미니 프로젝트KT_Aivle_School 2024. 4. 19. 20:27
2차 미니 프로젝트 후기 지난 3일간 진행된 미니 프로젝트는 서울시 버스 데이터를 활용하여 효율적인 대중교통 시스템 개선 방안을 모색하는 것이었다. 본 프로젝트는 다양한 데이터 분석 방법론을 적용하고, 서울시의 교통 현황을 면밀히 파악함으로써 실질적인 해결책을 제시하는 데 중점을 두었다. ### 1일차: 데이터 수집 및 분석 첫날은 서울시 각 구별 버스 정류장과 노선, 그리고 유동 인구 및 이동 시간을 분석하는 데 집중했다. 이를 통해 현재 서울시의 대중교통 이용 현황과 유동 인구의 특성을 이해할 수 있었다. 이 데이터는 공공데이터 포털과 지자체에서 제공하는 통계자료를 기반으로 수집했다. 분석 과정에서는 데이터 시각화 도구를 활용하여 정보를 직관적으로 이해할 수 있도록 했다. ### 2일차: 사회경제적 ..
-
KT AIVLE School DX트랙 4주차-웹크롤링KT_Aivle_School/Python 2024. 3. 24. 21:54
웹크롤링 기초와 네이버 증권 데이터 수집하기 웹크롤링은 웹페이지에서 데이터를 추출하는 과정을 말합니다. 이 과정은 크게 정적인 페이지와 동적인 페이지로 나눌 수 있으며, 각각 다른 방법으로 데이터를 수집합니다. 웹페이지의 종류 정적인 페이지: 웹 브라우저에 화면이 한 번 뜨면 이벤트에 의한 화면의 변경이 없는 페이지입니다. 동적인 페이지: 웹 브라우저에 화면이 뜨고 이벤트가 발생하면 서버에서 데이터를 가져와 화면을 변경하는 페이지입니다. 데이터 수집 방법 requests 이용 json 문자열로 받아서 파싱하는 방법: 주로 동적 페이지 크롤링할 때 사용합니다. html 문자열로 받아서 파싱하는 방법: 주로 정적 페이지 크롤링할 때 사용합니다. selenium 이용 브라우저를 직접 열어서 데이터를 받는 방법..
-
KT AIVLE School DX트랙 3주차-시계열 데이터KT_Aivle_School/Python 2024. 3. 24. 21:35
파이썬을 활용한 시계열 데이터 분석 시계열 데이터는 시간 순서에 따라 정렬된 데이터 포인트의 집합입니다. 이러한 데이터는 시간의 흐름에 따른 패턴, 추세, 계절성 등을 분석하는 데 유용하게 사용됩니다. 1. 시계열 데이터의 특징과 분석 방법 시계열 데이터는 일정한 시간 간격으로 수집된 데이터로, 각 데이터 포인트가 시간 순서대로 배열되어 있습니다. 이러한 데이터는 경제, 금융, 기상학 등 다양한 분야에서 발생하며, 시간의 흐름에 따른 변화를 분석하는 데 사용됩니다. 시계열 데이터의 특징: 시간 순서에 따라 배열된 데이터 포인트 시간 간격이 균일하거나 불규칙할 수 있음 시간에 따른 패턴(추세, 계절성 등)을 포함할 수 있음 시계열 데이터 분석 방법: 추세 분석: 시간의 흐름에 따른 데이터의 추세를 파악합니..
-
KT AIVLE School DX트랙 3주차-이변량 분석 2KT_Aivle_School/Python 2024. 3. 24. 20:10
이변량분석(y-범주): 직원 이직 분석 이변량 분석을 통해 직원의 이직 여부에 영향을 미치는 요인들을 파악해보겠습니다. 1. 범주 --> 범주 직무 만족도(JobSatisfaction)와 이직 여부(Attrition) 간의 관계 분석 라이브러리 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from statsmodels.graphics.mosaicplot import mosaic import scipy.stats as spst 두 범주별 빈도수 교차표 target = 'Attrition' feature = 'JobSatisfaction' pd.crosstab..
-
KT AIVLE School DX트랙 3주차-이변량 분석KT_Aivle_School/Python 2024. 3. 24. 19:35
카시트 판매량 데이터 이변량 분석 지난 포스트에 이어, 카시트 판매량 데이터를 활용한 이변량 분석을 진행했습니다. 숫자형 변수와 범주형 변수 간의 관계를 파악하여, 광고비용(Advertising)과 도시 지역(Urban), 미국 내 판매(US), 제품 진열 위치(ShelveLoc)가 판매량(Sales)에 미치는 영향을 분석했습니다. 라이브러리 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import scipy.stats as spst #상관분석 위한 spicy.stats 숫자형 변수와 판매량(Sales)의 관계 분석 광고비용(Advertising)과 판매량(Sales) 광고비용과 판매..
-
KT AIVLE School DX트랙 3주차-단변량 분석KT_Aivle_School/Python 2024. 3. 24. 18:12
카시트 판매량 데이터 단변량 분석 카시트 판매량 데이터를 활용한 단변량 분석을 통해 숫자형 변수와 범주형 변수의 기본적인 통계량과 분포를 살펴보았습니다.자사 가격과 경쟁사 가격의 비교, 그리고 제품이 진열된 위치(ShelveLoc)에 따른 판매량 차이를 분석해보았습니다. 숫자형 변수 분석 경쟁사 가격(CompPrice) 분석 경쟁사 가격 데이터의 기초 통계량(평균, 중앙값, 최소값, 최대값 등)과 분포를 히스토그램과 박스플롯으로 시각화했습니다. def eda_1_n(data, var, bins = 30) : print(data[[var]].describe().T) print() plt.figure(figsize = (6,8)) plt.subplot(2,1,1) sns.histplot(x=data[var]..
-
KT AIVLE School DX트랙 1차 미니 프로젝트KT_Aivle_School 2024. 3. 11. 00:34
프로젝트 진행 경험 포스팅 서론 프로젝트의 개요와 목적을 간단히 설명합니다. 이번 포스팅에서는 제가 참여한 1차 미니 프로젝트의 경험을 공유하고자 합니다. 이 프로젝트는 2일간 진행되었으며, 온오프라인을 병행하여 개인 및 팀 간의 의사소통을 통해 진행 방식이 결정되었습니다. 1일차: 온라인 진행 및 프로젝트 내용 진행 방식 및 장소 선택: 첫째 날은 온라인으로, 둘째 날은 KT북대구 지사를 방문하여 진행하였습니다. 프로젝트 내용: 첫째 날에는 판매 소비자의 구매 패턴 데이터를 활용한 이탈 고객 파악에 초점을 맞췄습니다. 2일차: 오프라인 진행 및 프로젝트 내용 개인과제 및 팀 미팅: 2일차는 개인과제 시간이 줄어들어 오전에만 진행했으며, 오후에는 팀 미팅 이후 전국지부 통합 미팅이 있었습니다. 프로젝트 ..
-
KT AIVLE School DX트랙 2주차-DF종합 실습KT_Aivle_School/Python 2024. 3. 10. 23:45
01. 판매 데이터 전처리 판다스(Pandas) 라이브러리를 활용하여 데이터를 전처리하는 과정입니다. 이번 실습에서는 고객 데이터(customers.csv)와 판매 데이터(sales.csv)를 읽어와서, 이를 병합하고 필요한 정보를 추출하여 최종적으로 가변수화까지 진행하는 전 과정을 다룹니다. 1-1. 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt %config InlineBackend.figure_format = 'retina' #시각화에 한글표시 for Mac from matplotlib import rc rc('font', family='AppleGothic'..