Làm cách nào để lọc dữ liệu trong khung dữ liệu trong python?

Pandas là một thư viện Python mã nguồn mở được sử dụng trong khoa học dữ liệu. Thư viện này được sử dụng rộng rãi trong toàn ngành khoa học dữ liệu. Nó là một công cụ python nhanh và rất mạnh để thực hiện phân tích dữ liệu. Pandas cung cấp cho chúng ta các lệnh để đọc, lọc, kiểm tra, thao tác, phân tích và vẽ dữ liệu. Nó tải dữ liệu được lưu trữ ở các định dạng tệp khác nhau như csv, json, văn bản, v.v. dưới dạng cấu trúc khung dữ liệu gấu trúc sử dụng hàm tích hợp

Cấu trúc khung dữ liệu gấu trúc là gì?

Pandas dataframe là một cấu trúc dạng bảng. Nó là một cấu trúc dữ liệu hai chiều bao gồm dữ liệu ở dạng hàng và cột. Thư viện này được sử dụng để nhóm, tổng hợp, làm sạch và lọc dữ liệu. Nó cho phép chúng tôi tạo các tập hợp con của tập dữ liệu gốc

Những yêu cầu cơ bản

Đảm bảo Python được cài đặt trên máy tính của bạn. Hướng dẫn này trình bày cách sử dụng thư viện trong sổ ghi chép Jupyter. Vì vậy, bạn sẽ phải đảm bảo nó cũng được cài đặt. Bạn có thể tham khảo một trong những blog trước đây của chúng tôi để đọc về các bước cần thiết để cài đặt sổ ghi chép python và jupyter bằng liên kết này. https. //www. thanh niên. com/blog/pydataset-a-python-dataset-library

Cài đặt và nhập gói pandas

Để sử dụng thư viện python pandas, trước tiên chúng ta cần cài đặt nó

Nếu bạn đang sử dụng hệ điều hành windows, hãy mở dấu nhắc lệnh. Nếu bạn đang dùng Mac, hãy mở terminal để gõ lệnh bên dưới

các cửa sổ. pip cài đặt gấu trúc

Mac. pip3 cài đặt gấu trúc

Nếu không có lỗi thì thư viện pandas đã được cài đặt thành công. Bây giờ chúng tôi đã cài đặt gấu trúc, chúng tôi cần nhập thư viện để sử dụng các chức năng của nó

cú pháp. nhập gấu trúc dưới dạng pd

Tải tập dữ liệu dưới dạng khung dữ liệu gấu trúc

Để làm việc với tập dữ liệu, chúng ta cần tải tập dữ liệu dưới dạng pandas dataframe

cú pháp. df = pd. read_csv[tên tệp]

Ở đây, chúng tôi đang sử dụng tập dữ liệu mẫu từ kaggle. Bạn có thể lấy tập dữ liệu bằng liên kết này. https. //www. kaggle. com/datasets/crawford/80-ngũ cốc

Bộ lọc khung dữ liệu gấu trúc là gì?

Lọc dữ liệu là bước sơ bộ cho mọi ứng dụng khoa học dữ liệu và máy học. Nó cho phép chúng tôi tạo các tập hợp con từ tập dữ liệu gốc bằng cách tạo các khung dữ liệu nhỏ hơn. Điều này giúp việc nghiên cứu, vẽ sơ đồ và phân tích các phần dữ liệu trở nên dễ dàng hơn. Do đó, điều quan trọng là phải biết các lệnh này để sử dụng chúng một cách hiệu quả. Trong hướng dẫn python này, chúng ta sẽ tìm hiểu 10 cách hàng đầu để lọc pandas dataframe

1. Chọn các cột cụ thể bằng cách sử dụng các giá trị cột trong phương thức khung dữ liệu

Sử dụng các tên cột cụ thể từ tập dữ liệu, chúng ta có thể chọn nhiều cột từ khung dữ liệu gấu trúc

cú pháp. df [ [‘‘tên cột 1', ‘'tên cột 2’’] ]

Phương pháp khung dữ liệu này được sử dụng để chỉ chọn các cột được yêu cầu để xây dựng một mô hình học máy cụ thể. Điều này trả về một khung dữ liệu mới với tất cả các hàng từ danh sách các cột đã cho

Trong ví dụ được đưa ra dưới đây, chúng tôi lấy các cột tên và lượng calo từ bộ dữ liệu mẫu ngũ cốc

2. Cắt bằng cách sử dụng chỉ mục để lọc các hàng

Cắt lát là một phương pháp để lấy dữ liệu cụ thể từ tập dữ liệu gốc bằng cách sử dụng chỉ mục hoặc nhãn. Đây là phương pháp lập chỉ mục trong đó chúng tôi chọn các hàng, cột hoặc các hàng và cột cụ thể

cú pháp. df [start_index. end_index]

Điều này trả về các hàng cụ thể với tất cả các giá trị cột của nó

Ở đây, chỉ số kết thúc luôn nhiều hơn 1 so với mức chúng ta cần. Do đó, trong ví dụ trên, đầu ra chỉ bao gồm dữ liệu cho đến chỉ số 9

3. Lọc hàng và cột bằng hàm iloc[]

phương thức iloc[] chọn hàng và cột dựa trên giá trị chỉ mục/vị trí

cú pháp. df. iloc [phạm vi chỉ mục hàng, phạm vi chỉ mục cột]

Nếu bạn để ý, cả hai ví dụ trên đều cho kết quả giống nhau. Điều này là do nếu chúng ta không đề cập đến chỉ mục bắt đầu hoặc chỉ mục kết thúc, thì theo mặc định, giá trị chỉ mục lần lượt là 0 và -1. Do đó, chỉ số hàng bắt đầu trong cả hai ví dụ là 0

4. Lọc các hàng và cột bằng phương thức loc[] [cắt bằng nhãn]

khung dữ liệu. phương thức loc[] là phương thức lựa chọn dựa trên nhãn. Đó là một cách để chọn nhóm hàng và cột sử dụng nhãn i. e. , giá trị hàng hoặc tên cột. Điều này trả về một khung dữ liệu mới từ khung dữ liệu gốc

cú pháp. df. loc [chỉ mục/nhãn tập dữ liệu hàng, ‘tên_cột’]

Ở đây, chỉ mục tập dữ liệu hàng đề cập đến cột chỉ mục trong tập dữ liệu. Giá trị cột chỉ mục sẽ được sử dụng để trích xuất các hàng

Trong ví dụ này, chúng tôi chỉ trích xuất tên của 8 loại ngũ cốc [hàng] đầu tiên bằng phương thức loc[]

cú pháp. df. loc[['giá trị hàng 1','giá trị hàng 2'],['tên cột 1','tên cột 2']]

Điều này trả về các hàng và cột cụ thể từ khung dữ liệu

Trong ví dụ đưa ra ở trên, chúng tôi đã sử dụng chỉ mục tiêu cực đếm các chỉ số cột từ cuối

Lập chỉ mục phủ định được sử dụng để lập chỉ mục ngược các giá trị. -1 là giá trị chỉ mục âm đầu tiên được cung cấp cho hàng hoặc cột cuối cùng

Tại đây, tên và loại ngũ cốc của hàng thứ 1 và thứ 5 được trích xuất. 1 và 5 là nhãn hàng/giá trị chỉ mục

Trong ví dụ đưa ra ở trên, chúng tôi đặt lại cột chỉ mục mặc định thành cột tên của bộ dữ liệu ngũ cốc. Sau đó, chúng tôi sử dụng giá trị chỉ mục hàng để trích xuất loại và lượng calo

5. Lọc khung dữ liệu gấu trúc bằng các điều kiện quan hệ

Phương pháp này thường được sử dụng để chọn các hàng dựa trên các giá trị cột cụ thể

Phương pháp 1. Sử dụng phương pháp khung dữ liệu

Các toán tử so sánh được sử dụng để viết các điều kiện này

a. điều kiện duy nhất

cú pháp. df [ [df[‘‘tên cột'] ==’giá trị cột’ ]]

Cả hai ví dụ được đưa ra dưới đây trích xuất dữ liệu cho ngũ cốc có 90 calo. Ví dụ đầu tiên hiển thị tất cả các cột và ví dụ thứ hai chỉ hiển thị một vài cột đã chọn

b. Nhiều điều kiện

Chúng tôi sử dụng toán tử dấu và [&] và đường ống [. ] toán tử, for và và hoặc toán tử logic tương ứng

cú pháp. df [ [df[‘‘tên cột 1' ]==’giá trị cột’ ] và [df[‘‘tên cột 2' ]==’giá trị cột’ ]]

Ví dụ này hiển thị tên, xếp hạng và lượng calo cho các loại ngũ cốc có lượng calo là 90

Phương pháp 2. Sử dụng hàm loc[]

Lọc tập dữ liệu hoàn chỉnh dựa trên các điều kiện

cú pháp. df. loc[[tên cột 1 >= giá trị cột] và [tên cột 2 >= giá trị cột]]

Chọn các cột cụ thể bằng các điều kiện

cú pháp. df. loc [điều kiện, [‘tên_cột 1’, tên_cột 2, tên_cột 3]]

Để chọn nhiều cột, chúng ta chuyển các tên cột dưới dạng danh sách vào hàm loc[]

6. Sử dụng chức năng truy vấn

Hàm truy vấn lấy tham số truy vấn ở dạng điều kiện. Nó đánh giá xem điều kiện là Đúng hay Sai. Nói một cách đơn giản, nó được sử dụng để truy vấn các cột bằng biểu thức boolean. Chức năng này có thể được sử dụng cho cả một hoặc nhiều điều kiện. Nó trả về một khung dữ liệu mới

cú pháp. df. truy vấn [tên cột >= giá trị cột]

Các ví dụ dưới đây cho thấy cách sử dụng hàm truy vấn với một và nhiều điều kiện

Nếu chúng ta phải cập nhật các thay đổi trong khung dữ liệu gốc, hãy sử dụng inplace=True làm đối số trong hàm truy vấn

7. Lọc một mục từ tập dữ liệu

Phương pháp 1. Sử dụng phương pháp iat

cú pháp. df. iat[chỉ số hàng, chỉ mục cột]

Phương pháp này đang sử dụng chỉ số hàng và cột. Nó tương tự như hàm iloc[] nhưng hoạt động nhanh hơn vì nó chỉ trả về một giá trị duy nhất bằng phương thức trực tiếp

Phương pháp 2. Sử dụng tại phương pháp

cú pháp. df. tại [chỉ mục hàng, tên cột]

Phương thức này tương tự như hàm loc[]

8. Chọn các hàng khung dữ liệu dựa trên thành viên danh sách

Phương pháp này chọn dữ liệu bằng các giá trị cụ thể trong một cột. Nó kiểm tra xem cột được đề cập có bất kỳ giá trị nào trong danh sách của hàm isin[] không. Nó trả về các hàng có giá trị danh sách

Phương pháp 1. Sử dụng phương pháp khung dữ liệu

cú pháp. df [ df[tên cột]. isin[[giá trị cột 1, giá trị cột 2]]]

Phương pháp 2. Sử dụng hàm loc[]

cú pháp. df. loc [df[tên cột]. isin[[giá trị cột 1, giá trị cột 2]]]

Trong ví dụ đầu tiên, nó hiển thị khung dữ liệu hoàn chỉnh i. e. , tất cả các cột. Ví dụ thứ hai chỉ hiển thị các cột đã chọn

9. Lọc các hàng trong khung dữ liệu bằng biểu thức chính quy [Regex]

Biểu thức chính quy còn được gọi là regex. Phương pháp này được sử dụng khi chúng ta làm việc với dữ liệu văn bản. Regex giúp chúng tôi so khớp các mẫu để trích xuất dữ liệu từ chuỗi dữ liệu gấu trúc hoặc khung dữ liệu gấu trúc. Nó kiểm tra xem một chuỗi có chứa mẫu được yêu cầu không

Phương pháp 1. Sử dụng phương pháp khung dữ liệu

cú pháp. df = df[ df[tên cột]. str. chứa['ký tự$']]

df = df[ df[tên cột]. str. startedwith['ký tự$']]

Biểu thức này sẽ trả về một khung dữ liệu. Nó trả về các giá trị cột kết thúc bằng các ký tự được chỉ định trong str. hàm chứa []. Tương tự, str. hàm startedwith[] trả về các giá trị bắt đầu bằng một ký tự cụ thể

Ví dụ này hiển thị các hàng có tên ngũ cốc có chuỗi Wheat. Thêm dấu '$' vào cuối là quy ước

Ví dụ này hiển thị các hàng có tên ngũ cốc bắt đầu bằng chữ P

Phương pháp 2. Sử dụng hàm loc[]

cú pháp. df = df. vị trí [ df. mục lục. str. chứa[‘ký tự$'], [tên cột] ]

cú pháp. df = df. vị trí [ df. mục lục. str. startedwith[‘ký tự'], [tên cột] ]

Tất cả các ví dụ đưa ra ở trên đều cho cùng một đầu ra bằng các phương pháp khác nhau

10. Lọc dữ liệu trên cơ sở giá trị không null hoặc null/nan

Giá trị Null/NaN là các giá trị bị thiếu trong tập dữ liệu. Bất kỳ tập dữ liệu nào cũng có thể bị thiếu giá trị do nhiều lý do như nhập dữ liệu bị thiếu hoặc không đầy đủ, mất tệp, v.v. Các giá trị này có thể tạo ra độ lệch trong các tham số được sử dụng cho các ứng dụng hoặc mô hình hóa khoa học dữ liệu. Do đó, trước tiên cần lọc các giá trị còn thiếu và sau đó xử lý chúng. Hai bước này làm giảm biên độ lỗi trong dự đoán. Sau đây, chúng ta sẽ tìm hiểu cách tìm các giá trị bị thiếu và các cột giá trị bị thiếu

Bước 1. Để chọn dữ liệu chứa giá trị NaN/null

Chúng tôi sử dụng hàm isnull[] và notnull[]

cú pháp. df. isnull[]

Điều này trả về một khung dữ liệu có giá trị boolean. Nó trả về True nếu có giá trị NaN khác, nó trả về Sai

Ở đây, chúng tôi đang sử dụng bộ dữ liệu siêu dữ liệu phim. Sử dụng liên kết được cung cấp dưới đây để tải xuống bộ dữ liệu

https. //www. kaggle. com/datasets/karrrimba/phim-metadatacsv

Bước 2. Xóa các giá trị null

cú pháp. df. dropna[tại chỗ=True]

Hàm này xóa tất cả các giá trị null khỏi khung dữ liệu. bao gồm = True được sử dụng làm đối số nếu chúng tôi muốn thực hiện các thay đổi trong khung dữ liệu gốc

Bước 3. Xác thực nếu giá trị null bị xóa

cú pháp. df. isna[]. Tổng[]

Hàm này trả về tổng giá trị null từ mỗi cột của khung dữ liệu

Bạn có thể sử dụng liên kết được cung cấp bên dưới để xem mã nguồn Python cho tất cả các ví dụ trong IPython Notebook

https. //ý chính. github. com/wonksknowsuchin/e88cb7fb05a601a5050b93a06ac1a8b4#file-top-10-way-to-filter-pandas-dataframe-ipynb

Phần kết luận

Bây giờ chúng ta đã học được 10 cách hàng đầu để lọc pandas dataframe bằng thư viện pandas. bây giờ bạn có thể áp dụng những điều này cho bộ dữ liệu của riêng mình. Các bước tiếp theo sau khi lọc dữ liệu là kiểm tra, làm sạch và phân tích dữ liệu. Bạn có thể tham khảo một trong những blog trước đây của chúng tôi để đọc về một số phương pháp kiểm tra dữ liệu bằng liên kết này https. //www. thanh niên. com/blog/pydataset-a-python-dataset-library. Sau khi khai thác và làm sạch dữ liệu, các bước tiếp theo là phân tích dữ liệu bằng các biểu đồ đồ họa. Điều này giúp chúng tôi hiểu các thông số và áp dụng nó để xây dựng các mô hình học máy

Làm cách nào để lọc trong Dataframe?

hàm filter[] được sử dụng để Tập hợp con các hàng hoặc cột của khung dữ liệu theo các nhãn trong chỉ mục đã chỉ định . Lưu ý rằng quy trình này không lọc khung dữ liệu trên nội dung của nó. Bộ lọc được áp dụng cho các nhãn của chỉ mục. Các mục, lượt thích và thông số biểu thức chính quy được thực thi để loại trừ lẫn nhau.

Phương pháp nào được sử dụng để lọc giá trị Dataframe?

Sử dụng str. chứa[] - .

Chủ Đề