Pandas là một thư viện Python mạnh mẽ cung cấp nhiều công cụ để làm việc và thao tác dữ liệu. Một trong những tính năng chính của gấu trúc là khả năng dễ dàng đọc và ghi dữ liệu từ nhiều nguồn khác nhau, bao gồm tệp CSV, bảng tính Excel và cơ sở dữ liệu SQL
Để đọc dữ liệu vào DataFrame của gấu trúc, bạn có thể sử dụng hàm
selected_rows = df[df["Price"] > 5]
4. Chức năng này cho phép bạn chỉ định đường dẫn tệp hoặc URL của dữ liệu bạn muốn đọc, cũng như các tùy chọn khác nhau để phân tích cú pháp và xử lý dữ liệu. Ví dụ: để đọc tệp CSV có tên là “data. csv” vào DataFrame, bạn có thể sử dụng đoạn mã sauimport pandas as pd
df = pd.read_csv["data.csv"]
Bạn cũng có thể sử dụng hàm
selected_rows = df[df["Price"] > 5]
5 để đọc dữ liệu từ bảng tính Excel hoặc hàm selected_rows = df[df["Price"] > 5]
6 để đọc dữ liệu từ cơ sở dữ liệu SQLKhi bạn đã đọc dữ liệu vào DataFrame, bạn có thể sử dụng nhiều hàm và phương thức của gấu trúc để thao tác và phân tích dữ liệu. Ví dụ: bạn có thể sử dụng hàm
selected_rows = df[df["Price"] > 5]
7 và selected_rows = df[df["Price"] > 5]
8 để xem một số hàng đầu tiên và cuối cùng của DataFrame hoặc hàm selected_rows = df[df["Price"] > 5]
9 để nhận tóm tắt các cột số trong DataFrameĐể ghi dữ liệu từ DataFrame của gấu trúc vào tệp hoặc cơ sở dữ liệu, bạn có thể sử dụng hàm
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET0 để ghi dữ liệu vào tệp CSV, hàm
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET1 để ghi dữ liệu vào bảng tính Excel hoặc hàm
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET2 để ghi dữ liệu vào một
Chọn và lọc dữ liệu với Pandas
Để chọn các hàng và cột cụ thể từ DataFrame của gấu trúc, bạn có thể sử dụng toán tử
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET3 và chỉ định nhãn của các hàng và cột bạn muốn chọn. Ví dụ: để chọn các cột "Loại" và "Giá" từ Khung dữ liệu có tên là
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET4, bạn có thể sử dụng đoạn mã sau
selected_columns = df[["Type", "Price"]]
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.38
Bạn cũng có thể sử dụng toán tử
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET3 để chọn các hàng bằng cách chỉ định một điều kiện boolean. Ví dụ: để chọn tất cả các hàng có cột Giá Giá lớn hơn 5, bạn có thể sử dụng mã sau
selected_rows = df[df["Price"] > 5]
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET
Một cách khác để chọn và lọc dữ liệu trong DataFrame là sử dụng các thuộc tính
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET6 và
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET7. Thuộc tính
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET6 cho phép bạn chọn hàng và cột theo nhãn, trong khi thuộc tính
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET7 cho phép bạn chọn hàng và cột theo vị trí số nguyên
Ví dụ: để chọn ba hàng đầu tiên và các cột "Loại" và "Giá" của Khung dữ liệu, bạn có thể sử dụng mã sau
selected_data = df.loc[:2, ["Type", "Price"]]
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63
Bạn cũng có thể sử dụng hàm
selected_data = df.loc[:2, ["Type", "Price"]]
0 để lọc dữ liệu dựa trên danh sách các giá trị. Ví dụ: để chọn tất cả các hàng có cột “Loại” là “Gọi”, bạn có thể sử dụng mã sauselected_rows = df[df["Type"].isin[["Call"]]]
Symbol Price Type Strike .. Vol/OI IV Delta Time 1 AMC 4.51 Call 4.0 .. 58.85 221.29% 0.859016 12:15 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 7 TSLA 126.38 Call 132.0 .. 29.53 102.07% 0.231550 12:07 ET 11 GME 19.09 Call 17.5 .. 20.70 76.84% 0.712250 12:03 ET
Chọn và lọc dữ liệu bằng pandas là một cách mạnh mẽ và linh hoạt để làm việc với dữ liệu trong Python. Cho dù bạn muốn chọn các hàng và cột cụ thể hay lọc dữ liệu dựa trên các tiêu chí nhất định, gấu trúc cung cấp nhiều công cụ để thực hiện việc đó
Sắp xếp và nhóm dữ liệu với Pandas
Sắp xếp và nhóm dữ liệu là một công việc quan trọng khi làm việc với dữ liệu trong pandas. Cho dù bạn muốn sắp xếp dữ liệu theo một cột cụ thể hay nhóm dữ liệu theo một hoặc nhiều cột và áp dụng các hàm tổng hợp, pandas cung cấp nhiều công cụ để thực hiện việc đó
Để sắp xếp một Khung dữ liệu gấu trúc theo một cột cụ thể, bạn có thể sử dụng hàm
selected_data = df.loc[:2, ["Type", "Price"]]
1 và chỉ định tên của cột bạn muốn sắp xếp theo. Ví dụ: để sắp xếp DataFrame có tên là Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET4 theo cột “Giá” theo thứ tự tăng dần, bạn có thể sử dụng đoạn mã sau
sorted_df = df.sort_values["Price"]
selected_columns = df[["Type", "Price"]]
0Bạn cũng có thể chỉ định tham số
selected_data = df.loc[:2, ["Type", "Price"]]
3 để chỉ định xem dữ liệu sẽ được sắp xếp theo thứ tự tăng dần hay giảm dần. Ví dụ: để sắp xếp DataFrame theo cột “Giá” theo thứ tự giảm dần, bạn có thể sử dụng đoạn mã sauselected_columns = df[["Type", "Price"]]
1selected_columns = df[["Type", "Price"]]
2Để nhóm một Khung dữ liệu gấu trúc theo một hoặc nhiều cột và áp dụng các hàm tổng hợp, bạn có thể sử dụng hàm
selected_data = df.loc[:2, ["Type", "Price"]]
4 và chỉ định các cột bạn muốn nhóm theo. Ví dụ: để nhóm DataFrame theo cột "Loại" và tính "Giá" trung bình cho từng nhóm, bạn có thể sử dụng mã sauselected_columns = df[["Type", "Price"]]
3selected_columns = df[["Type", "Price"]]
4Bạn cũng có thể sử dụng hàm agg để áp dụng nhiều hàm tổng hợp cho dữ liệu. Ví dụ: để nhóm DataFrame theo cột "Loại" và tính giá trị trung bình, trung vị và độ lệch chuẩn của cột "Giá" cho mỗi nhóm, bạn có thể sử dụng mã sau
selected_columns = df[["Type", "Price"]]
5selected_columns = df[["Type", "Price"]]
6Bạn cũng có thể sử dụng hàm
selected_data = df.loc[:2, ["Type", "Price"]]
5 để áp dụng hàm tùy chỉnh cho dữ liệu. Ví dụ: để nhóm DataFrame theo cột "Loại" và áp dụng hàm tùy chỉnh để tính phạm vi của cột "Giá" cho mỗi nhóm, bạn có thể sử dụng mã sauselected_columns = df[["Type", "Price"]]
7_______12_______8Sắp xếp và nhóm dữ liệu với pandas là một cách mạnh mẽ và linh hoạt để làm việc với dữ liệu trong Python. Cho dù bạn muốn sắp xếp dữ liệu theo một cột cụ thể hay nhóm dữ liệu theo một hoặc nhiều cột và áp dụng các hàm tổng hợp, pandas cung cấp nhiều công cụ để thực hiện việc đó
Thao tác dữ liệu với các hàm và phương thức của Pandas
Pandas cung cấp nhiều chức năng và phương thức để thao tác dữ liệu trong DataFrame. Cho dù bạn muốn chuyển đổi dữ liệu theo một cách cụ thể hay thực hiện các phép tính trên dữ liệu, pandas có một công cụ cho hầu hết mọi tác vụ
Một cách để thao tác dữ liệu trong DataFrame là sử dụng hàm
selected_data = df.loc[:2, ["Type", "Price"]]
5. Hàm selected_data = df.loc[:2, ["Type", "Price"]]
5 cho phép bạn áp dụng hàm tùy chỉnh cho dữ liệu, trên tất cả các hàng hoặc cột của DataFrame hoặc cho một trục cụ thểVí dụ: để áp dụng chức năng tùy chỉnh nhân cột “Giá” với 10, bạn có thể sử dụng mã sau
selected_columns = df[["Type", "Price"]]
9_______13_______0Một cách khác để thao tác dữ liệu trong DataFrame là sử dụng công cụ tích hợp sẵn
hàm toán học và phương pháp thống kê được cung cấp bởi pandas. Ví dụ: bạn có thể sử dụng hàm
selected_data = df.loc[:2, ["Type", "Price"]]
8 và selected_data = df.loc[:2, ["Type", "Price"]]
9 để tính giá trị trung bình và trung vị của một cột hoặc hàm Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.630 và
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.631 để tính hiệp phương sai và tương quan giữa hai cột
Ví dụ: để tính “Giá” và “Số lượng” trung bình cho từng “Loại”, bạn có thể sử dụng mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.381
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.382
Bạn cũng có thể sử dụng hàm
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.632 để tính phần trăm thay đổi giữa các hàng liên tiếp hoặc hàm
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.633 để tính chênh lệch giữa các hàng liên tiếp
Ví dụ: để tính phần trăm thay đổi trong cột "Giá" giữa các hàng liên tiếp, bạn có thể sử dụng mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.383
Nhìn chung, thao tác dữ liệu với các hàm và phương thức của gấu trúc là một cách mạnh mẽ và linh hoạt để làm việc với dữ liệu trong Python. Cho dù bạn muốn chuyển đổi dữ liệu theo một cách cụ thể hay thực hiện các phép tính trên dữ liệu, gấu trúc cung cấp nhiều công cụ để thực hiện việc đó
Làm việc với dữ liệu bị thiếu trong Pandas
Làm việc với dữ liệu bị thiếu là một nhiệm vụ quan trọng khi làm việc với dữ liệu trong pandas. Thiếu dữ liệu có thể xảy ra vì nhiều lý do, chẳng hạn như dữ liệu bị thiếu tại nguồn, dữ liệu bị mất trong quá trình xử lý hoặc lưu trữ dữ liệu hoặc dữ liệu bị bỏ trống một cách cố ý.
Pandas cung cấp nhiều chức năng và phương thức để xử lý dữ liệu bị thiếu trong DataFrame. Một cách để xác định dữ liệu bị thiếu là sử dụng hàm
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.634, hàm này trả về mặt nạ boolean cho biết mỗi giá trị trong DataFrame có phải là null hay không
Ví dụ: để xác định tất cả các hàng có giá trị bị thiếu trong cột "Giá" của Khung dữ liệu có tên là
Symbol Price Type Strike .. Vol/OI IV Delta Time 0 LAZR 5.30 Put 6.0 .. 93.12 87.75% -0.804191 12:00 ET 2 CHPT 8.63 Call 9.0 .. 56.74 68.55% 0.368232 11:57 ET 3 BBY 79.31 Put 55.0 .. 45.46 54.12% -0.062534 12:16 ET 4 TSLA 126.38 Call 129.0 .. 41.29 98.32% 0.375635 12:07 ET 5 PFE 51.29 Put 51.0 .. 32.26 23.30% -0.448061 12:06 ET4, bạn có thể sử dụng mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.384
Bạn cũng có thể sử dụng hàm
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.636 để xác định các hàng có giá trị khác null
Để xử lý dữ liệu bị thiếu, bạn có thể sử dụng hàm
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.637 để điền các giá trị còn thiếu bằng một giá trị cụ thể. Ví dụ: để điền các giá trị còn thiếu vào cột "Giá" với giá trị trung bình là "Giá", bạn có thể sử dụng mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.385
Một tùy chọn khác là xóa các hàng hoặc cột bị thiếu dữ liệu bằng hàm dropna. Ví dụ: để loại bỏ các hàng có giá trị bị thiếu trong bất kỳ cột nào, bạn có thể sử dụng mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.386
Bạn cũng có thể chỉ định tham số
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.638 để thả hàng hoặc cột. Ví dụ: để loại bỏ các cột có giá trị bị thiếu, bạn có thể sử dụng đoạn mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.387
Bạn cũng có thể chỉ định tham số
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.639 để chỉ định số lượng giá trị khác null tối thiểu mà một hàng hoặc cột phải có để được lưu giữ. Ví dụ: để xóa các hàng có ít hơn 3 giá trị khác null, bạn có thể sử dụng mã sau
Type Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.388
Làm việc với dữ liệu bị thiếu trong gấu trúc là một nhiệm vụ quan trọng khi xử lý dữ liệu trong thế giới thực. Cho dù bạn muốn điền các giá trị bị thiếu bằng một giá trị cụ thể, thả hàng hoặc cột có dữ liệu bị thiếu hoặc xác định dữ liệu bị thiếu, pandas cung cấp nhiều công cụ khác nhau để xử lý dữ liệu bị thiếu
Hợp nhất và tham gia dữ liệu với Pandas
Hợp nhất và nối dữ liệu là một tác vụ phổ biến khi làm việc với dữ liệu trong pandas. Cho dù bạn muốn kết hợp dữ liệu từ nhiều nguồn hay hợp nhất dữ liệu từ các bảng hoặc bộ dữ liệu khác nhau, gấu trúc cung cấp nhiều chức năng và phương thức để thực hiện việc đó
Một cách để hợp nhất dữ liệu trong gấu trúc là sử dụng hàm
selected_rows = df[df["Type"].isin[["Call"]]]
0. Hàm selected_rows = df[df["Type"].isin[["Call"]]]
0 cho phép bạn nối hai hoặc nhiều DataFrames dọc theo một trục cụ thểVí dụ: để nối hai DataFrames
selected_rows = df[df["Type"].isin[["Call"]]]
2 và selected_rows = df[df["Type"].isin[["Call"]]]
3 dọc theo trục hàng, bạn có thể sử dụng đoạn mã sauType Price 0 Put 5.30 1 Call 4.51 2 Call 8.63 3 Put 79.31 4 Call 126.389
Bạn cũng có thể sử dụng hàm
selected_rows = df[df["Type"].isin[["Call"]]]
4 để hợp nhất hai DataFrames dựa trên một khóa hoặc bộ khóa chung. Ví dụ: để hợp nhất selected_rows = df[df["Type"].isin[["Call"]]]
2 và selected_rows = df[df["Type"].isin[["Call"]]]
3 trên cột "Ký hiệu", bạn có thể sử dụng mã sauselected_rows = df[df["Price"] > 5]
0Một cách khác để hợp nhất dữ liệu trong pandas là sử dụng hàm
selected_rows = df[df["Type"].isin[["Call"]]]
7. Hàm selected_rows = df[df["Type"].isin[["Call"]]]
7 cho phép bạn hợp nhất hai DataFrame dựa trên chỉ mục của từng DataFrameVí dụ: để hợp nhất
selected_rows = df[df["Type"].isin[["Call"]]]
2 và selected_rows = df[df["Type"].isin[["Call"]]]
3 trên chỉ mục của selected_rows = df[df["Type"].isin[["Call"]]]
2, bạn có thể sử dụng đoạn mã sauselected_rows = df[df["Price"] > 5]
1Hợp nhất và nối dữ liệu với gấu trúc là một cách mạnh mẽ và linh hoạt để làm việc với dữ liệu trong Python. Cho dù bạn muốn kết hợp dữ liệu từ nhiều nguồn hay hợp nhất dữ liệu từ các bảng hoặc bộ dữ liệu khác nhau, pandas đều cung cấp nhiều công cụ để thực hiện việc đó
Tổng hợp và xoay vòng dữ liệu với Pandas
Tổng hợp và xoay vòng dữ liệu với gấu trúc là một cách mạnh mẽ và linh hoạt để làm việc với dữ liệu trong Python. Cho dù bạn muốn tóm tắt dữ liệu theo nhóm hay định hình lại dữ liệu để phù hợp hơn với nhu cầu phân tích hoặc trực quan hóa của mình, pandas cung cấp nhiều công cụ để thực hiện điều đó