Site icon Bệ Phóng Việt

Nhập/Xuất Dữ liệu CSV, Excel, JSON với Python Pandas DataFrame

Advertisements

Thông qua bài viết này, bạn sẽ học cách sử dụng Python Pandas để đọc và ghi dữ liệu từ các định dạng tập tin khác nhau như: CSV, Excel, JSON,… vào một DataFrame của Pandas.

Giới thiệu Pandas DataFrame

Pandas là một thư viện mã nguồn mở được sử dụng rộng rãi để phân tích và xử lý dữ liệu. Nó cung cấp cho chúng ta cấu trúc dữ liệu DataFrame hiệu quả. DataFrame giống như một bảng hai chiều, nơi mỗi hàng đại diện cho một mục dữ liệu và mỗi cột đại diện cho một thông tin dữ liệu cụ thể.

Cài đặt Pandas

Chúng ta có thể cài đặt Python Pandas sử dụng câu lệnh pip:

pip install pandas

 

Đọc dữ liệu từ CSV

Để đọc tập tin CSV vào DataFrame, ta có thể sử dụng phương thức `read_csv()` của Pandas như sau:

import pandas as pd

df = pd.read_csv('file.csv')

Trong đó, `file.csv` là tên của tập tin CSV chứa dữ liệu. Pandas sẽ đọc dữ liệu từ tập tin CSV và tạo một DataFrame dựa trên nó.

Mặc định, phương thức `read_csv()` sẽ phân tích dữ liệu bằng cách sử dụng dấu phẩy (,) làm dấu phân cách giữa các cột và dấu xuống dòng (\n) làm dấu phân tách giữa các hàng. Nếu tập tin CSV của bạn sử dụng các ký tự khác để phân tách dữ liệu, bạn có thể xác định chúng bằng cách truyền tham số sep:

df = pd.read_csv('file.csv', sep=';')

Trong ví dụ trên, chúng ta đang sử dụng dấu chấm phẩy (;) làm dấu phân cách. Bạn có thể thay đổi dấu phân cách của bạn thành bất kỳ ký tự nào bạn muốn.

Đọc dữ liệu từ Excel

Pandas cũng hỗ trợ đọc dữ liệu từ các tệp Excel thông qua phương thức `read_excel()`. Phương thức này yêu cầu tham số đường dẫn đến tệp Excel và tên của bảng dữ liệu bạn muốn đọc. Ví dụ:

df = pd.read_excel('file.xlsx', sheet_name='Sheet1')

Trong ví dụ trên, chúng ta đang đọc dữ liệu từ tệp Excel `file.xlsx`. Bảng dữ liệu được đọc là bảng trên sheet có tên là “Sheet1”.

Đọc dữ liệu từ JSON

Ngoài ra, Pandas cũng hỗ trợ đọc dữ liệu từ các tệp JSON thông qua phương thức `read_json()`.

df = pd.read_json('file.json')

Phương thức này sẽ đọc dữ liệu từ tệp JSON và tạo một DataFrame dựa trên nó.

Xuất dữ liệu sang tập tin

Sau khi thực hiện xử lý dữ liệu trên DataFrame, chúng ta muốn lưu lại kết quả vào một tệp mới. Pandas cung cấp phương thức `to_csv()` để lưu DataFrame vào file CSV:

df.to_csv('output.csv', index=False)

Trong đó, `output.csv` là tên của tập tin CSV chứa dữ liệu đầu ra. Tham số `index` được sử dụng để xác định xem liệu các chỉ mục của DataFrame có nên được ghi vào tập tin CSV hay không. Nếu bạn muốn lưu chỉ mục vào tập tin CSV cùng với dữ liệu, bạn có thể để tham số index bằng True.

Chúng ta cũng có thể sử dụng phương thức `to_excel()` để lưu DataFrame vào một tập tin Excel:

df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

Trong ví dụ trên, chúng ta đang lưu DataFrame vào một tệp Excel có tên là `output.xlsx`. Bảng dữ liệu được lưu vào sheet có tên là “Sheet1”. Tham số `index` được sử dụng để xác định xem liệu chỉ mục của DataFrame có nên được ghi vào tệp Excel hay không.

Tương tự, chúng ta có thể sử dụng phương thức `to_json()` để lưu DataFrame vào một tệp JSON:

df.to_json('output.json')

Phương thức này sẽ ghi DataFrame vào file JSON với định dạng phù hợp.

Kết luận

Trong bài viết này, chúng ta đã tìm hiểu cách sử dụng Python Pandas để đọc và ghi dữ liệu từ các định dạng tập tin khác nhau như CSV, Excel và JSON. Nếu bạn đang làm việc với các dữ liệu lớn, Pandas là một công cụ hữu ích để xử lý và phân tích dữ liệu. Bạn có thể tìm thêm thông tin tại trang chủ của Pandas.

Học bài tiếp theo: Python Pandas: Cách chọn và chỉ mục dữ liệu trong DataFrame và Series

Bài trước: Khám phá Pandas – Cấu trúc dữ liệu Series và DataFrame trong phân tích dữ liệu với Python

Quay về trang chủ của khoá học: Python Pandas – Thao tác và phân tích dữ liệu

Exit mobile version