Nội dung

1. Giới thiệu trực quan hóa dữ liệu

Trực quan hóa dữ liệu giúp:

  • Hiểu dữ liệu nhanh hơn

  • Phát hiện xu hướng

  • So sánh dữ liệu dễ dàng

  • Trình bày kết quả phân tích

Ví dụ:

  • Doanh thu theo tháng

  • Doanh thu theo sản phẩm

  • Phân bố khách hàng theo khu vực


2. Thư viện Matplotlib

Matplotlib là thư viện phổ biến để vẽ biểu đồ trong Python.

Cài đặt:

pip install matplotlib

Import thư viện:

import matplotlib.pyplot as plt

3. Biểu đồ đường (Line Chart)

Biểu đồ đường thường dùng để thể hiện xu hướng theo thời gian.

Ví dụ:

import matplotlib.pyplot as plt

months = ["Jan","Feb","Mar","Apr"]
revenue = [1000,1500,1800,2000]

plt.plot(months,revenue)

plt.title("Revenue by Month")
plt.xlabel("Month")
plt.ylabel("Revenue")

plt.show()

4. Biểu đồ cột (Bar Chart)

Dùng để so sánh dữ liệu giữa các nhóm.

Ví dụ:

products = ["A","B","C"]
sales = [300,500,200]

plt.bar(products,sales)

plt.title("Sales by Product")
plt.xlabel("Product")
plt.ylabel("Sales")

plt.show()

5. Biểu đồ tròn (Pie Chart)

Dùng để thể hiện tỷ lệ phần trăm.

Ví dụ:

labels = ["North","South","East","West"]
sales = [40,25,20,15]

plt.pie(sales,labels=labels,autopct="%1.1f%%")

plt.title("Sales by Region")

plt.show()

6. Biểu đồ Histogram

Histogram dùng để xem phân bố dữ liệu.

Ví dụ:

import numpy as np

data = np.random.normal(50,10,100)

plt.hist(data,bins=10)

plt.title("Distribution of Values")

plt.show()

7. Sử dụng Seaborn

Seaborn là thư viện trực quan hóa dữ liệu cao cấp hơn Matplotlib.

Cài đặt:

pip install seaborn

Import:

import seaborn as sns

Ví dụ biểu đồ phân tán (Scatter Plot)

import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset("tips")

sns.scatterplot(x="total_bill",y="tip",data=tips)

plt.show()

Biểu đồ này giúp phân tích mối quan hệ giữa:

  • total_bill

  • tip


III. LÝ THUYẾT LIÊN QUAN

1. Chọn biểu đồ phù hợp

Loại dữ liệuBiểu đồ phù hợp
Xu hướng theo thời gianLine chart
So sánh nhómBar chart
Tỷ lệ phần trămPie chart
Phân bố dữ liệuHistogram
Quan hệ giữa 2 biếnScatter plot

2. Nguyên tắc trực quan hóa dữ liệu

  • Biểu đồ phải dễ đọc

  • Không sử dụng quá nhiều màu sắc

  • tiêu đề và nhãn trục rõ ràng


IV. TRÌNH TỰ THỰC HIỆN

Bước 1: Import thư viện

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Bước 2: Đọc dữ liệu

df = pd.read_csv("sales.csv")

Bước 3: Vẽ biểu đồ

Ví dụ biểu đồ cột:

df.groupby("Product")["Revenue"].sum().plot(kind="bar")
plt.show()

Bước 4: Phân tích dữ liệu

Quan sát biểu đồ để:

  • xác định sản phẩm bán chạy

  • xác định xu hướng doanh thu