Trực quan hóa dữ liệu là một trong những kỹ năng quan trọng nhất trong khoa học dữ liệu. Nó giúp chúng ta truyền tải thông tin một cách trực quan và dễ hiểu đến người đọc. Python là một trong những ngôn ngữ lập trình phổ biến nhất được sử dụng để trực quan hóa dữ liệu. Trong bài viết này, chúng ta sẽ tìm hiểu về Seaborn, một thư viện trực quan hóa dữ liệu phổ biến trong Python.
Giới thiệu về Seaborn
Seaborn là một thư viện Python được sử dụng để trực quan hóa dữ liệu. Nó được xây dựng trên thư viện Matplotlib và cung cấp một cách dễ dàng hơn để tạo ra các biểu đồ trực quan hơn. Seaborn hỗ trợ nhiều loại biểu đồ, bao gồm biểu đồ cột, biểu đồ đường, biểu đồ phân tán và nhiều hơn nữa.
Cài đặt Seaborn
Chúng ta có thể cài đặt Seaborn bằng pip, công cụ quản lý gói Python.
pip install seaborn
Sau khi cài đặt xong, chúng ta có thể bắt đầu sử dụng Seaborn để trực quan hóa dữ liệu.
Biểu đồ đường
Biểu đồ đường là một trong những loại biểu đồ phổ biến nhất được sử dụng để trực quan hóa dữ liệu. Chúng ta có thể tạo biểu đồ đường với Seaborn bằng hàm lineplot().
Giả sử chúng ta có một tập tin dữ liệu chứa thông tin về số lượng các truy cập trang web theo ngày. Dưới đây là mã để tạo biểu đồ đường.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
# Đọc dữ liệu từ tập tin
df = pd.read_csv('data.csv')
# Tạo biểu đồ đường
sns.lineplot(x='Ngay', y='Truy_cap', data=df)
# Hiển thị biểu đồ
plt.show()
Kết quả sẽ là một biểu đồ đường trực quan với trục x là ngày và trục y là số lượng truy cập.

Biểu đồ cột
Biểu đồ cột là một trong những loại biểu đồ phổ biến nhất được sử dụng để trực quan hóa dữ liệu. Chúng ta có thể tạo biểu đồ cột với Seaborn bằng hàm barplot().
Giả sử chúng ta có một tập tin dữ liệu chứa thông tin về số lượng sản phẩm bán ra theo từng tháng. Dưới đây là mã để tạo biểu đồ cột.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
# Đọc dữ liệu từ tập tin
df = pd.read_csv('data.csv')
# Tạo biểu đồ cột
sns.barplot(x='Thang', y='So_luong', data=df)
# Hiển thị biểu đồ
plt.show()
Kết quả sẽ là một biểu đồ cột trực quan với trục x là các tháng và trục y là số lượng sản phẩm bán ra.

Biểu đồ phân tán
Biểu đồ phân tán là một trong những loại biểu đồ phổ biến nhất được sử dụng để hiển thị mối quan hệ giữa hai biến. Chúng ta có thể tạo biểu đồ phân tán với Seaborn bằng hàm scatterplot().
Giả sử chúng ta có một tập tin dữ liệu chứa thông tin về giá trị nhà đất theo diện tích. Dưới đây là mã để tạo biểu đồ phân tán.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
# Đọc dữ liệu từ tập tin
df = pd.read_csv('data.csv')
# Tạo biểu đồ phân tán
sns.scatterplot(x='Dien_tich', y='Gia_tri', data=df)
# Hiển thị biểu đồ
plt.show()
Kết quả sẽ là một biểu đồ phân tán trực quan với trục x là diện tích và trục y là giá trị nhà đất.

Biểu đồ hộp
Biểu đồ hộp là một trong những loại biểu đồ phổ biến nhất được sử dụng để hiển thị phân phối của dữ liệu và các giá trị ngoại lai. Chúng ta có thể tạo biểu đồ hộp với Seaborn bằng hàm boxplot().
Giả sử chúng ta có một tập tin dữ liệu chứa thông tin về điểm số của các học sinh trong một lớp học. Dưới đây là mã để tạo biểu đồ hộp.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
# Đọc dữ liệu từ tập tin
df = pd.read_csv('data.csv')
# Tạo biểu đồ hộp
sns.boxplot(x='Lop', y='Diem', data=df)
# Hiển thị biểu đồ
plt.show()
Kết quả sẽ là một biểu đồ hộp trực quan với trục x là các lớp học và trục y là điểm số của các học sinh.

Biểu đồ violin
Biểu đồ violin là một loại biểu đồ mới và phổ biến được sử dụng để hiển thị phân phối của dữ liệu. Nó kết hợp giữa biểu đồ hộp và biểu đồ mật độ. Chúng ta có thể tạo biểu đồ violin với Seaborn bằng hàm violinplot().
Giả sử chúng ta có một tập tin dữ liệu chứa thông tin về giá trị nhà đất theo diện tích. Dưới đây là mã để tạo biểu đồ violin
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
# Đọc dữ liệu từ tập tin
df = pd.read_csv('data.csv')
# Tạo biểu đồ violin
sns.violinplot(x='Dien_tich', y='Gia_tri', data=df)
# Hiển thị biểu đồ
plt.show()
Kết quả sẽ là một biểu đồ violin trực quan với trục x là diện tích và trục y là giá trị nhà đất.

Kết luận
Seaborn là một thư viện trực quan hóa dữ liệu phổ biến trong Python. Nó cung cấp một cách dễ dàng hơn để tạo ra các biểu đồ trực quan và hấp dẫn. Trong bài viết này, chúng ta đã tìm hiểu về một số loại biểu đồ phổ biến như biểu đồ đường, biểu đồ cột, biểu đồ phân tán, biểu đồ hộp và biểu đồ violin. Tuy nhiên, Seaborn còn rất nhiều tính năng và loại biểu đồ khác chúng ta có thể khám phá.
Xem phần 3: Trực quan hoá dữ liệu tương tác với Plotly trong Python (phần 3)
Xem tổng quan khoá học tại Trực quan hóa dữ liệu với Python

Pingback: Trực quan hóa dữ liệu với Python - Bệ Phóng Việt
Pingback: Hướng dẫn Trực quan hóa dữ liệu với Python Matplotlib - Phần 1: Giới thiệu - Bệ Phóng Việt