Chào bạn đến với bài học của chúng ta về thư viện Pandas của Python! Trong bài học này, chúng ta sẽ tìm hiểu về cấu trúc dữ liệu chính trong Pandas – Series và DataFrame.
Mở đầu
Pandas là một thư viện phổ biến của Python được sử dụng trong việc phân tích và xử lý dữ liệu. Nó cung cấp các cấu trúc dữ liệu mạnh mẽ và linh hoạt đã trở thành công cụ hữu ích trong đa số các dự án. Pandas giúp cho việc phân tích dữ liệu trở nên dễ dàng và hiệu quả.
Series
Series là một trong hai cấu trúc dữ liệu chính trong Pandas, nó biểu diễn một tập hợp các giá trị đồng nhất. Dữ liệu này có thể được truy xuất và thao tác bằng cách sử dụng các chỉ mục.
Về cơ bản, Series tương tự như một list hoặc một numpy array nhưng có thêm các tính năng mạnh mẽ hơn. Để tạo một Series, bạn có thể sử dụng hàm Series () như sau:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)
Output:
0 0.25
1 0.50
2 0.75
3 1.00
dtype: float64
Ở đây, chúng ta đã tạo ra một Series gồm 4 giá trị và các chỉ mục tương ứng từ 0 đến 3.
Bạn cũng có thể xác định các chỉ mục bằng cách sử dụng các danh sách chỉ mục như sau:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=['a', 'b', 'c', 'd'])
print(data)
Output:
a 0.25
b 0.50
c 0.75
d 1.00
dtype: float64
Bây giờ, để truy xuất các giá trị trong Series, chúng ta có thể sử dụng các chỉ mục như sau:
print(data['a'])
0.25
print(data[['a', 'c']])
a 0.25
c 0.75
dtype: float64
Bạn cũng có thể sử dụng các toán tử NumPy trên Series, chẳng hạn như:
import numpy as np
print(data[data > 0.5])
b 0.50
c 0.75
d 1.00
dtype: float64
print(np.exp(data))
a 1.284025
b 1.648721
c 2.117000
d 2.718282
dtype: float64
DataFrame
DataFrame là cấu trúc dữ liệu chính thứ hai trong Pandas và cung cấp một cách tiếp cận đa chiều cho dữ liệu. DataFrame bao gồm một tập hợp các Series có cùng chiều dài và được ghép nối thành một cách logic.
DataFrame là cấu trúc dữ liệu mạnh mẽ và phổ biến nhất trong Pandas. Để tạo một DataFrame, chúng ta có thể sử dụng hàm DataFrame () như sau:
import pandas as pd
data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}
df = pd.DataFrame(data)
print(df)
Output:
name age country
0 John 25 USA
1 Emma 27 UK
2 Peter 28 Canada
3 Lucy 22 Australia
Ở đây, chúng ta đã tạo ra một DataFrame có tên, tuổi và quốc tịch của một số người.
Bạn có thể truy xuất và sử dụng dữ liệu của DataFrame như bạn đã làm với Series. Chẳng hạn như:
print(df['name'])
0 John
1 Emma
2 Peter
3 Lucy
Name: name, dtype: object
print(df[df['age'] > 25])
name age country
1 Emma 27 UK
2 Peter 28 Canada
Manipulating data
Pandas cung cấp một số phương pháp để thao tác và biến đổi dữ liệu trong cấu trúc dữ liệu của nó. Dưới đây là một số ví dụ:
Thêm cột mới vào DataFrame
Chúng ta có thể thêm một cột mới vào DataFrame bằng cách gán giá trị cho cột mới.
import pandas as pd
data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}
df = pd.DataFrame(data)
df['gender'] = ['M', 'F', 'M', 'F']
print(df)
Output:
name age country gender
0 John 25 USA M
1 Emma 27 UK F
2 Peter 28 Canada M
3 Lucy 22 Australia F
Chỉnh sửa giá trị của cột
Chúng ta có thể chỉnh sửa giá trị của một cột bằng cách gán giá trị mới cho cột đó.
import pandas as pd
data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}
df = pd.DataFrame(data)
df.loc[1, 'age'] = 30
print(df)
Output:
name age country
0 John 25 USA
1 Emma 30 UK
2 Peter 28 Canada
3 Lucy 22 Australia
Xóa cột trong DataFrame
Chúng ta có thể xóa cột khỏi DataFrame bằng cách sử dụng hàm drop ().
import pandas as pd
data = {'name': ['John', 'Emma', 'Peter', 'Lucy'],
'age': [25, 27, 28, 22],
'country': ['USA', 'UK', 'Canada', 'Australia']}
df = pd.DataFrame(data)
df = df.drop(columns=['age'])
print(df)
Output:
name country
0 John USA
1 Emma UK
2 Peter Canada
3 Lucy Australia
Kết luận
Trong bài học này, bạn đã tìm hiểu về hai cấu trúc dữ liệu chính trong Pandas – Series và DataFrame. Bạn đã học cách tạo, truy xuất và làm việc với chúng.
Nếu bạn đã thực hiện các ví dụ trong bài học này, bạn sẽ lưu ý thấy rằng Pandas là một công cụ mạnh mẽ trong việc phân tích và xử lý dữ liệu. Nó giúp cho việc phân tích dữ liệu trở nên dễ dàng và hiệu quả hơn.
Học bài tiếp theo: Nhập/Xuất Dữ liệu CSV, Excel, JSON với Python Pandas DataFrame
Bài trước: Cài đặt Python Pandas: Mở đầu cho việc phân tích dữ liệu dễ dàng
Quay về trang chủ của khoá học: Python Pandas – Thao tác và phân tích dữ liệu
