Nội dung

1. Lọc dữ liệu theo điều kiện

Trong Pandas, có thể lọc dữ liệu bằng điều kiện giống như trong SQL hoặc Excel filter.

Ví dụ:

import pandas as pd

df = pd.read_csv("sales.csv")

Lọc các dòng có doanh thu lớn hơn 1000:

df[df["Revenue"] > 1000]

2. Lọc dữ liệu với nhiều điều kiện

Trong Pandas sử dụng các toán tử logic:

Ví dụ:

Lọc doanh thu > 1000 và khu vực North

df[(df["Revenue"] > 1000) & (df["Region"] == "North")]

Ví dụ khác:

df[(df["Revenue"] > 1000) | (df["Region"] == "South")]

Phủ định điều kiện:

df[~(df["Region"] == "North")]

Pandas sử dụng hàm:

sort_values()

df.sort_values(by="Revenue")

df.sort_values(by="Revenue", ascending=False)

Ví dụ:

df.sort_values(by=["Region", "Revenue"])

Ý nghĩa:

Trong phân tích dữ liệu đôi khi cần chuyển đổi cấu trúc bảng.

Pivot giúp tạo bảng tổng hợp giống Pivot Table trong Excel.

Ví dụ:

df.pivot(index="Date", columns="Product", values="Revenue")

Ý nghĩa:

Melt chuyển bảng từ dạng rộng sang dạng dài.

Ví dụ:

df.melt(id_vars="Date", value_vars=["Product", "Revenue"])

Boolean indexing là kỹ thuật lọc dữ liệu dựa trên điều kiện True/False.

Ví dụ:

df[df["Revenue"] > 1000]

Pandas sẽ:

Pivot Table giúp:

Giống chức năng Pivot Table trong Excel.

import pandas as pd

df = pd.read_csv("sales.csv")

df[df["Revenue"] > 1000]

df[(df["Revenue"] > 1000) & (df["Region"] == "North")]

df.sort_values(by="Revenue")

df.pivot(index="Date", columns="Product", values="Revenue")