파이썬에서 CSV 파일 불러오기 예제

파이썬에서 CSV 파일을 처리하는 방법은 데이터 분석에서 매우 중요한 작업 중 하나입니다. CSV(Comma-Separated Values) 파일은 데이터의 값을 쉼표로 구분하여 저장하는 형식으로, 다양한 데이터 분석 및 처리 도구에서 널리 사용됩니다. 이번 글에서는 파이썬의 pandas 라이브러리를 이용하여 CSV 파일을 불러오고, 분석하고, 수정하는 방법에 대해 자세히 알아보겠습니다.

pandas 라이브러리 소개

pandas는 파이썬에서 데이터 조작 및 분석을 위한 강력한 라이브러리입니다. 이 라이브러리는 데이터 프레임(DataFrame)이라는 구조를 제공하여, 행과 열을 통해 데이터를 쉽게 조작할 수 있게 해줍니다. pandas 라이브러리를 사용하면 대량의 데이터도 효율적으로 처리할 수 있습니다. 설치는 간단합니다.

pip install pandas

이후에는 아래 코드를 통해 pandas를 가져와 사용할 수 있습니다.

import pandas as pd

CSV 파일 불러오기

이제 본격적으로 CSV 파일을 불러오는 방법을 살펴보겠습니다. 예를 들어, ‘example.csv’라는 파일이 있다고 가정해 보겠습니다. 이 파일을 pandas의 read_csv 함수를 사용하여 불러올 수 있습니다. 파일이 현재 작업 디렉토리에 위치할 경우, 파일 이름만 입력하면 됩니다.

df = pd.read_csv('example.csv')

만약 파일이 다른 경로에 있다면, 해당 경로를 포함하여 작성해야 합니다. 예를 들어:

df = pd.read_csv('C:/path/to/your/example.csv')

헤더가 없는 경우

CSV 파일에 열 이름이 없는 경우, header=None 옵션을 사용하여 데이터를 불러올 수 있습니다. 이 경우 열 이름은 기본적으로 숫자로 지정됩니다.

df = pd.read_csv('example.csv', header=None)

만약 열 이름을 직접 지정하고 싶다면, names 인자를 활용할 수 있습니다. 아래 예시를 통해 확인해보겠습니다.

df = pd.read_csv('example.csv', header=None, names=['Column1', 'Column2', 'Column3'])

특정 행만 불러오기

CSV 파일에서 특정 개수의 행만 불러오고 싶다면 nrows 옵션을 사용할 수 있습니다. 아래 코드는 처음 10개의 행만 불러오는 예시입니다.

df = pd.read_csv('example.csv', nrows=10)

첫 5개 혹은 마지막 5개의 행을 확인하고 싶다면, df.head()df.tail() 메소드를 사용할 수 있습니다.

df.head() # 첫 5개 행 출력
df.tail() # 마지막 5개 행 출력

불러온 데이터 분석하기

CSV 파일을 DataFrame 객체로 불러온 후에는 다양한 분석이 가능합니다. 데이터의 형태를 확인하려면 df.shape를 사용하여 행과 열의 수를 알 수 있습니다.

rows, columns = df.shape

또한 df.columns를 통해 열 이름을 확인할 수 있고, 각 열의 데이터 유형은 df.dtypes로 확인할 수 있습니다. 전체적인 데이터 프레임에 대한 정보를 얻기 위해서는 df.info() 메소드를 사용할 수 있습니다.

데이터 수정하기

데이터를 수정하는 것은 매우 간단합니다. 특정 값 수정은 df.loc[row_index, column_name] = new_value와 같은 방식으로 진행됩니다.

df.loc[0, 'Column1'] = 'New Value'

행을 추가하고 싶다면, 아래와 같이 새로운 데이터를 추가할 수 있습니다.

df.loc[len(df)] = ['New Value1', 'New Value2', 'New Value3']

행을 삭제하려면 df.drop() 메소드를 활용하면 됩니다.

df = df.drop(index=0)

CSV 파일로 저장하기

수정이 완료된 DataFrame을 CSV 파일로 다시 저장하고 싶다면, to_csv() 메소드를 활용합니다. 파일명을 포함한 저장 경로를 적어주면 됩니다.

df.to_csv('modified_example.csv', index=False)

여기서 index=False는 인덱스 열을 저장하지 않겠다는 뜻입니다. 인덱스를 포함하고 싶다면 이 옵션을 생략하면 됩니다.

결론

이번 글에서는 파이썬의 pandas 라이브러리를 통해 CSV 파일을 불러와서 분석하고 수정하며 다시 저장하는 방법에 대해 설명하였습니다. pandas는 데이터 분석에 있어 매우 유용한 도구로, 다양한 데이터 작업을 손쉽게 할 수 있도록 도와줍니다. 실습을 통해 익혀두시면 데이터 분석 시 많은 도움이 될 것입니다.

앞으로도 계속해서 다양한 데이터 처리 기법에 대해 이야기해 보겠습니다. 여러분의 데이터 분석이 보다 원활해지기를 바랍니다!

질문 FAQ

파이썬에서 CSV 파일은 어떻게 불러오나요?

파이썬에서는 pandas 라이브러리의 read_csv 함수를 이용해 CSV 파일을 쉽게 불러올 수 있습니다. 파일이 휴대폰에 위치할 경우, 파일명만 입력하면 됩니다.

CSV 파일에 헤더가 없으면 어떻게 처리하나요?

헤더가 포함되지 않은 CSV 파일을 불러올 때는 header=None 옵션을 사용하세요. 이를 통해 기본적으로 숫자가 열 이름으로 설정됩니다.

CSV 파일에서 특정 행 수만 가져올 수 있나요?

예, nrows 매개 변수를 사용하면 원하는 수의 행만 불러올 수 있습니다. 예를 들어 처음 10개 행을 가져오고 싶다면 해당 옵션을 설정하면 됩니다.

파이썬에서 CSV 파일 불러오기 예제

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Scroll to top