한국GPT협회
home
기관 소개
home

판다스(Pandas) 데이터 프레임 이해

태그
생성 일시
2025/02/03 02:23

목차

import pandas as pd

챗GPT로 데이터 분석을 하면 거의 항상 이 말을 보게 됩니다.
오늘은 이걸 이해해 보겠습니다.

판다스(Pandas) 데이터 프레임 (Data Frame)

판다스(Pandas)는 파이썬 라이브러리에서 사용하는 데이터 구조 중 하나입니다. 아래와 같은 특징이 있습니다.
판다스(Pandas)라는 파이썬 라이브러리에서 사용하는 데이터 구조 중 하나
2차원 데이터 구조: 데이터프레임은 행(row)과 열(column)로 구성된 2차원 데이터 구조
다양한 데이터 타입: 각 열은 서로 다른 데이터 타입(숫자, 문자열 등)을 가질 수 있습니다.
레이블(Labels): 각 행과 열은 레이블(인덱스)을 가질 수 있어 데이터 접근이 쉽다
통합된 데이터 조작 기능: 데이터 선택, 필터링, 집계, 변환 등 다양한 데이터 조작 기능
엑셀과 비슷한 2차원 데이터 구조입니다. 열에는 데이터의 종류가 들어가고, 행에는 데이터들이 차례대로 쌓이죠. 이 행과 열을 기준으로 특정 데이터를 찾아서 읽기, 수정하기, 삭제하기 등이 가능합니다.
엑셀과의 차이점이라면, 엑셀에서는 각 셀(한 칸) 단위로 함수도 넣고 서식도 넣을 수 있지만, 데이터 프레임에서는 셀 단위로는 안되고 칼럼(열) 단위로만 함수와 서식이 가능합니다.
예를 들어 살펴보겠습니다.
import pandas as pd #예제 데이터 data = { '이름': ['철수', '영희', '민수'], '나이': [25, 23, 21], '성별': ['남', '여', '남'] } #데이터프레임 생성 df = pd.DataFrame(data) df
Python
복사
이렇게 코드를 작성했습니다.
‘#’ 기호가 붙은 줄은 실행되는 코드가 아니고, 코드에 대한 설명입니다. 주석이라고 부릅니다.
import pandas as pd
파이썬 라이브러리에서 pandas라는 패키지를 불러오는 명령입니다.
이 pandas를 불러오면 이름을 pd 라고 붙여줍니다.
앞으로 명령을 내릴 때 pandas라는 패키지 이름을 다 적지 않고, 그냥 pd 라고만 적으면 됩니다.
data =
'이름' 이라는 칼럼을 만들어서 '철수', '영희', '민수' 라는 값을 넣고,
'나이' 라는 칼럼을 만들어서 25, 23, 21 이라는 값을 넣고,
'성별' 이라는 칼럼을 만들어서 '남', '여', '남' 이라는 값을 넣습니다.
df = pd.DataFrame(data)
위에서 만든 data라는 변수를(행과 열을 가진 2차원 데이터)
df 라는 이름을 가진 데이터 프레임에 입력합니다.
맨 앞에 쓴 df는 데이터 프레임의 이름이 됩니다.
pd.DataFrame 이라는 명령어는 pandas 패키지 안에 들어있는 명령어입니다.
원래 pandas.DataFrame 이라고 써야하지만,
처음에 import 할 때 이미 import pandas as pd 라고 해서
pandas를 앞으로 pd 라고 부르겠다고 해놨기 때문에
간단하게 pd.DataFrame 이라고 쓰면 됩니다.
df
마지막 줄에 df 라고 되어있는 명령어는
df 라는 변수를 출력하라는 명령어입니다.
이에 따라서 코드 실행 창에서 아래와 같은 데이터가 출력됩니다.

데이터 프레임의 주요 기능

데이터 접근: 행과 열의 인덱스를 사용해 데이터에 접근할 수 있다.
df['이름'] # '이름' 열의 데이터를 출력
Python
복사
df.loc[0] # 첫 번째 행의 데이터를 출력
Python
복사
데이터 필터링: 조건을 사용해 데이터를 필터링할 수 있다
young_people = df[df['나이'] < 24] young_people
Python
복사
이 경우는 나이 24 미만의 데이터를 단순히 출력만 한 것이 아닙니다.
모든 데이터를 포함한 df와는 별도로 나이 24 미만의 데이터만 추출해서
young_people 이라는 이름의 새로운 데이터 프레임을 만들었습니다.
그리고 나서 이 young_people 이라는 데이터 프레임을 출력시켰습니다.
데이터 변환: 열 추가, 수정, 삭제 등의 다양한 변환 작업을 할 수 있다
df['나이_2년후'] = df['나이'] + 2 # 새로운 열 추가 df
Python
복사

데이터 프레임의 특징

행(row)이 많아지면 분석이 오래 걸릴 뿐, 분석 방법은 그대로다
열(column)이 많아지면 데이터 구조 자체가 복잡해지는 것이라 복잡한 분석 방법이 필요하다
자~ 이해 되셨나요? 이제 챗GPT에서 데이터 분석 하실 때 코드를 항상 열어두세요. "항상 세부 정보 표시"를 on 해놓으시면 됩니다.
이 정도 기초 이해만 해두시면 앞으로의 공부는 쉬워집니다. 바로 챗GPT에게 부탁하면 되기 때문이죠.
챗GPT는 참 신기합니다.
사용하면 할수록 내가 못 하던 데이터 분석도 가능하게 해주고
일을 대신해주는 것에서 그치지 않고
그 일을 하는 방법과 과정까지도 친절하게 가르쳐주네요.
뭐랄까,
챗GPT를 사용하면서
우리의 업무 실력은 스스로 진화한다는 느낌이랄까요.