Các bước thực hiện thao tác dữ liệu với Pandas trong Python

jphopeblog

3 years ago

1. Sơ lược về Pandas

Pandas là một thư viện mã nguồn mở, được dùng để phân tích và xử lý dữ liệu. Pandas cho phép đọc vào các loại dữ liệu khác nhau như csv, excel, sql, để sau đó có thể sử dụng các chức năng để xử lý dữ liệu dễ dàng hơn.

Cài đặt Pandas sử dụng câu lệnh sau:

!pip install pandas

2. Load dữ liệu lên Pandas DataFrame

Trước khi ta bắt đầu thực hành thao tác dữ liệu trên Pandas, mình sẽ giới thiệu cách load dữ liệu vào pandas DataFrame. Dành cho các bạn chưa từng làm việc với pandas trước đây.

Một DataFrame có thể được tạo ra bằng nhiều cách khác nhau, trong đó đầu vào phổ biến nhất là 1 file csv.

Ví dụ, để load file csv cho Pandas DataFrame, sử dụng hàm read_csv():

import pandas as pd

df = pd.read_csv('data.csv')

Trong đó ‘data.csv’ là tên của file cần load vào, và chỉ đường dẫn đến file đó cho hàm pd.read_csv.

3. Xem dữ liệu với Pandas

Khi đã load dữ liệu vào được DataFrame, chúng ta cần xem xét dữ liệu của chúng ta.

Sử dụng hàm `head()` để xem các bản ghi đầu tiên (mặc định là 5) của DataFrame.

df.head()

Sử dụng hàm `info()` để xem cấu trúc của DataFrame và các giá trị null/missing trong DataFrame.

df.info()

Sử dụng hàm `describe()` để xem thông tin thống kê của DataFrame như mean, count, min, max…

df.describe()

4. Thao tác trên dữ liệu với Pandas

a. Lọc dữ liệu

Để lọc dữ liệu, tạo ra một mảng boolean, được áp dụng cho tất cả các hàng của một DataFrame.

df[df['Tham số'] > giá_trị]

Ví dụ, dataframe của chúng ta có cột “Age” và chúng ta muốn lọc ra các hàng có giá trị tuổi lớn hơn 50, ta có thể sử dụng câu lệnh sau:

df_age_over_50 = df[df['Age']>50]

b. Sắp xếp dữ liệu

Để sắp xếp các giá trị của DataFrame dựa trên một cột, ta sử dụng hàm sort_values() với giá trị cột được truyền vào.

df.sort_values(by=['Column_Name'])

Ví dụ, chúng ta muốn sắp xếp dataframe theo cột “Tham số”, ta có thể sử dụng câu lệnh sau:

df_sorted_by_param = df.sort_values(by=['Tham số'])

c. Sửa tên các cột trong DataFrame

Sử dụng hàm `rename()` để đổi tên các cột trong DataFrame.

df.rename(columns={'old_column_name': 'new_column_name'}, inplace=True)

Tham số `columns` chứa một từ điển với `old_column_name` là tên cũ và `new_column_name` là tên mới. Tham số `inplace` phải được đặt bằng `True` để DataFrame ban đầu thay đổi.

d. Xử lý giá trị rỗng trong DataFrame

Sử dụng hàm `fillna()` để điền giá trị rỗng.

df.fillna(value)

Trong mã này, giá trị `value` được sử dụng để thay thế bất kỳ giá trị rỗng nào trong DataFrame.

5. Kết luận

Ở trên, tôi đã giới thiệu cho bạn những thao tác cơ bản để thao tác dữ liệu trên Pandas. Pandas trong Python là một trong những thư viện dữ liệu phổ biến nhất, cho phép các nhà phát triển thực hiện các tác vụ phân tích dữ liệu phức tạp dễ dàng hơn. Nếu bạn nghĩ rằng bạn đã nắm vững các thao tác cơ bản, bạn có thể đi đến các thao tác tiên tiến hơn để trở thành một chuyên gia Pandas thực sự.

Học bài tiếp theo: Phân nhóm và Tính toán dữ liệu với Pandas

Bài trước: Python Pandas: Cách chọn và lập chỉ mục dữ liệu trong DataFrame và Series

Quay về trang chủ của khoá học: Python Pandas – Thao tác và phân tích dữ liệu