프로그래밍/파이썬

Pandas에서 데이터 합치는 법

MKKM 2023. 6. 7. 21:43
반응형

Pandas는 파이썬에서 사용하는 데이터 분석 라이브러리입니다. 두 개 이상의 데이터프레임을 합치는 다양한 방법을 제공합니다. 이 문서에서는 주로 사용되는 세 가지 방법을 중점적으로 설명하겠습니다: concat(), merge(), join() 함수입니다.

 

 

1. concat() 함수를 사용한 데이터 합치기

concat() 함수는 동일한 형태의 데이터를 결합할 때 주로 사용됩니다. 동일한 열을 가진 두 개 이상의 데이터프레임을 위아래로 연결합니다.


    import pandas as pd

    # 데이터프레임 생성
    df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                        'B': ['B0', 'B1', 'B2']},
                        index=[0, 1, 2])

    df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                        'B': ['B3', 'B4', 'B5']},
                        index=[3, 4, 5])

    # concat() 함수 사용
    result = pd.concat([df1, df2])
    print(result)
    

 

2. merge() 함수를 사용한 데이터 합치기

merge() 함수는 서로 다른 데이터프레임을 하나 이상의 키를 기준으로 병합합니다. SQL의 JOIN 연산과 유사합니다.


    import pandas as pd

    # 데이터프레임 생성
    left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                         'A': ['A0', 'A1', 'A2', 'A3'],
                         'B': ['B0', 'B1', 'B2', 'B3']})

    right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

    # merge() 함수 사용
    result = pd.merge(left, right, on='key')
    print(result)
    

 

3. join() 함수를 사용한 데이터 합치기

join() 함수는 두 데이터프레임을 인덱스를 기준으로 결합합니다. 인덱스가 같은 행끼리 합쳐집니다.


    import pandas as pd

    # 데이터프레임 생성
    left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                         'B': ['B0', 'B1', 'B2']},
                         index=['K0', 'K1', 'K2'])

    right = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                          'D': ['D0', 'D1', 'D2']},
                          index=['K0', 'K1', 'K2'])

    # join() 함수 사용
    result = left.join(right)
    print(result)
    

 

반응형