Khám phá Pandas - Cấu trúc dữ liệu Series và DataFrame trong phân tích dữ liệu với Python

Chào bạn đến với bài học của chúng ta về thư viện Pandas của Python! Trong bài học này, chúng ta sẽ tìm hiểu về cấu trúc dữ liệu chính trong Pandas – Series và DataFrame.

Mở đầu

Pandas là một thư viện phổ biến của Python được sử dụng trong việc phân tích và xử lý dữ liệu. Nó cung cấp các cấu trúc dữ liệu mạnh mẽ và linh hoạt đã trở thành công cụ hữu ích trong đa số các dự án. Pandas giúp cho việc phân tích dữ liệu trở nên dễ dàng và hiệu quả.

Series

Series là một trong hai cấu trúc dữ liệu chính trong Pandas, nó biểu diễn một tập hợp các giá trị đồng nhất. Dữ liệu này có thể được truy xuất và thao tác bằng cách sử dụng các chỉ mục.

Về cơ bản, Series tương tự như một list hoặc một numpy array nhưng có thêm các tính năng mạnh mẽ hơn. Để tạo một Series, bạn có thể sử dụng hàm Series () như sau:

import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)

Output:

0 0.25
1 0.50
2 0.75
3 1.00
dtype: float64

Ở đây, chúng ta đã tạo ra một Series gồm 4 giá trị và các chỉ mục tương ứng từ 0 đến 3.

Bạn cũng có thể xác định các chỉ mục bằng cách sử dụng các danh sách chỉ mục như sau:

import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=['a', 'b', 'c', 'd'])
print(data)

Output:

a 0.25
b 0.50
c 0.75
d 1.00
dtype: float64

Bây giờ, để truy xuất các giá trị trong Series, chúng ta có thể sử dụng các chỉ mục như sau:

print(data['a'])
0.25

print(data[['a', 'c']])
a 0.25
c 0.75
dtype: float64

Bạn cũng có thể sử dụng các toán tử NumPy trên Series, chẳng hạn như:

import numpy as np

print(data[data > 0.5])
b 0.50
c 0.75
d 1.00
dtype: float64

print(np.exp(data))
a 1.284025
b 1.648721
c 2.117000
d 2.718282
dtype: float64

DataFrame

DataFrame là cấu trúc dữ liệu chính thứ hai trong Pandas và cung cấp một cách tiếp cận đa chiều cho dữ liệu. DataFrame bao gồm một tập hợp các Series có cùng chiều dài và được ghép nối thành một cách logic.

DataFrame là cấu trúc dữ liệu mạnh mẽ và phổ biến nhất trong Pandas. Để tạo một DataFrame, chúng ta có thể sử dụng hàm DataFrame () như sau:

import pandas as pd

data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}

df = pd.DataFrame(data)
print(df)

Output:

name age country
0 John 25 USA
1 Emma 27 UK
2 Peter 28 Canada
3 Lucy 22 Australia

Ở đây, chúng ta đã tạo ra một DataFrame có tên, tuổi và quốc tịch của một số người.

Bạn có thể truy xuất và sử dụng dữ liệu của DataFrame như bạn đã làm với Series. Chẳng hạn như:

print(df['name'])

0 John
1 Emma
2 Peter
3 Lucy
Name: name, dtype: object

print(df[df['age'] > 25])

name age country
1 Emma 27 UK
2 Peter 28 Canada

Manipulating data

Pandas cung cấp một số phương pháp để thao tác và biến đổi dữ liệu trong cấu trúc dữ liệu của nó. Dưới đây là một số ví dụ:

Thêm cột mới vào DataFrame

Chúng ta có thể thêm một cột mới vào DataFrame bằng cách gán giá trị cho cột mới.

import pandas as pd

data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}

df = pd.DataFrame(data)
df['gender'] = ['M', 'F', 'M', 'F']

print(df)

Output:

name age country gender
0 John 25 USA M
1 Emma 27 UK F
2 Peter 28 Canada M
3 Lucy 22 Australia F

Chỉnh sửa giá trị của cột

Chúng ta có thể chỉnh sửa giá trị của một cột bằng cách gán giá trị mới cho cột đó.

import pandas as pd

data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}

df = pd.DataFrame(data)

df.loc[1, 'age'] = 30

print(df)

Output:

name age country
0 John 25 USA
1 Emma 30 UK
2 Peter 28 Canada
3 Lucy 22 Australia

Xóa cột trong DataFrame

Chúng ta có thể xóa cột khỏi DataFrame bằng cách sử dụng hàm drop ().

import pandas as pd

data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}

df = pd.DataFrame(data)

df = df.drop(columns=['age'])

print(df)

Output:

name country
0 John USA
1 Emma UK
2 Peter Canada
3 Lucy Australia

Kết luận

Trong bài học này, bạn đã tìm hiểu về hai cấu trúc dữ liệu chính trong Pandas – Series và DataFrame. Bạn đã học cách tạo, truy xuất và làm việc với chúng.

Nếu bạn đã thực hiện các ví dụ trong bài học này, bạn sẽ lưu ý thấy rằng Pandas là một công cụ mạnh mẽ trong việc phân tích và xử lý dữ liệu. Nó giúp cho việc phân tích dữ liệu trở nên dễ dàng và hiệu quả hơn.

Học bài tiếp theo: Nhập/Xuất Dữ liệu CSV, Excel, JSON với Python Pandas DataFrame

Bài trước: Cài đặt Python Pandas: Mở đầu cho việc phân tích dữ liệu dễ dàng

Quay về trang chủ của khoá học: Python Pandas – Thao tác và phân tích dữ liệu

Mở đầu

Series

DataFrame

Manipulating data

Thêm cột mới vào DataFrame

Chỉnh sửa giá trị của cột

Xóa cột trong DataFrame

Kết luận

BÀI VIẾT CÙNG CHUYÊN MỤC

Leave a ReplyCancel reply

Phân tích dữ liệu, Python, Python Flask

Khám phá Pandas – Cấu trúc dữ liệu Series và DataFrame trong phân tích dữ liệu với Python

Mở đầu

Series

DataFrame

Manipulating data

Thêm cột mới vào DataFrame

Chỉnh sửa giá trị của cột

Xóa cột trong DataFrame

Kết luận

SHARE BÀI VIẾT NÀY

BÀI VIẾT CÙNG CHUYÊN MỤC

Leave a ReplyCancel reply

Đăng ký nhận tin tức

Discover more from Bệ Phóng Việt