
Hệ thống quản trị đào tạo trực tuyến
Trong Pandas, có thể lọc dữ liệu bằng điều kiện giống như trong SQL hoặc Excel filter.
Ví dụ:
import pandas as pd
df = pd.read_csv("sales.csv")
Lọc các dòng có doanh thu lớn hơn 1000:
df[df["Revenue"] > 1000]
Trong Pandas sử dụng các toán tử logic:
| Toán tử | Ý nghĩa |
|---|---|
| & | AND |
| | | OR |
| ~ | NOT |
Ví dụ:
Lọc doanh thu > 1000 và khu vực North
df[(df["Revenue"] > 1000) & (df["Region"] == "North")]
Ví dụ khác:
df[(df["Revenue"] > 1000) | (df["Region"] == "South")]
Phủ định điều kiện:
df[~(df["Region"] == "North")]
Pandas sử dụng hàm:
sort_values()
df.sort_values(by="Revenue")
df.sort_values(by="Revenue", ascending=False)
Ví dụ:
df.sort_values(by=["Region", "Revenue"])
Ý nghĩa:
Sắp xếp theo Region
Trong mỗi Region sắp xếp theo Revenue
Trong phân tích dữ liệu đôi khi cần chuyển đổi cấu trúc bảng.
Pivot giúp tạo bảng tổng hợp giống Pivot Table trong Excel.
Ví dụ:
df.pivot(index="Date", columns="Product", values="Revenue")
Ý nghĩa:
Hàng: Date
Cột: Product
Giá trị: Revenue
Melt chuyển bảng từ dạng rộng sang dạng dài.
Ví dụ:
df.melt(id_vars="Date", value_vars=["Product", "Revenue"])
Boolean indexing là kỹ thuật lọc dữ liệu dựa trên điều kiện True/False.
Ví dụ:
df[df["Revenue"] > 1000]
Pandas sẽ:
Tạo danh sách True/False
Chỉ giữ lại các dòng có giá trị True.
Pivot Table giúp:
Tổng hợp dữ liệu
Phân tích dữ liệu theo nhiều chiều
Giống chức năng Pivot Table trong Excel.
import pandas as pd
df = pd.read_csv("sales.csv")
df[df["Revenue"] > 1000]
df[(df["Revenue"] > 1000) & (df["Region"] == "North")]
df.sort_values(by="Revenue")
df.pivot(index="Date", columns="Product", values="Revenue")