Chuẩn hóa dữ liệu Python

Ở đây, chúng tôi sẽ áp dụng một số kỹ thuật để chuẩn hóa dữ liệu và thảo luận về những điều này với sự trợ giúp của các ví dụ. Đối với điều này, hãy hiểu các bước cần thiết để chuẩn hóa dữ liệu với Pandas

  1. Nhập thư viện [Pandas]
  2. Nhập/Nạp/Tạo dữ liệu
  3. Sử dụng kỹ thuật để chuẩn hóa dữ liệu

ví dụ

Ở đây, chúng tôi tạo dữ liệu theo một số giá trị ngẫu nhiên và áp dụng một số kỹ thuật chuẩn hóa cho nó

Python3




# importing packages

import pandas as pd

 

# create data

df= pd.DataFrame[[

                   ______9import0import1import2import1import4import1import6import7

                   ______9pandas as pd0import1pandas as pd2import1pandas as pd4import1pandas as pd6import7

                   ______9 0import1 2import1 4import1 6import7

                   ______9# create data0import1# create data2import1# create data4import1# create data6# create data7

# create data8

                   _______50=______9df3import1df5import1

df7____58____11____60=1

 

=3

=4

đầu ra

Xem cốt truyện của khung dữ liệu này

Python3




import =6

=7= =9____70

Hãy áp dụng từng kỹ thuật chuẩn hóa

Sử dụng tỷ lệ tuyệt đối tối đa

Tỷ lệ tuyệt đối tối đa thay đổi tỷ lệ từng tính năng trong khoảng từ -1 đến 1 bằng cách chia mọi quan sát cho giá trị tuyệt đối tối đa của nó. Chúng ta có thể áp dụng tỷ lệ tuyệt đối tối đa trong Pandas bằng cách sử dụng. tối đa [] và. phương thức abs[], như hình bên dưới

Python3




pd.DataFrame[[1

pd.DataFrame[[2____6 pd.DataFrame[[4

 

pd.DataFrame[[6

pd.DataFrame[[7 pd.DataFrame[[8pd.DataFrame[[9                    0

                   1                   2=                    4                   5                    6                   7                   8                   9[0

[1

[2

[3

đầu ra

Xem cốt truyện của khung dữ liệu này

Python3




import =6

[6______6 =9____70

đầu ra

Sử dụng quy mô tính năng min-max

Phương pháp tối thiểu hóa tối đa [thường được gọi là chuẩn hóa] tính lại đối tượng địa lý thành phạm vi khó và nhanh là [0,1] bằng cách trừ đi giá trị tối thiểu của đối tượng địa lý rồi chia cho phạm vi. Chúng ta có thể áp dụng tỷ lệ tối thiểu trong Pandas bằng cách sử dụng. phút[] và. phương pháp tối đa []

Python3




pd.DataFrame[[1

import01= pd.DataFrame[[4

 

pd.DataFrame[[6

________ 77 ________ 78 ________ 79 ________ 109

                   1import11= import13import14 import15import16import17                   5 import19                   9[0import14 import15import16import25

 

[2

import28import29

đầu ra

Hãy vẽ một âm mưu với khung dữ liệu này

Python3




import =6

import32= =9pd.DataFrame[[0

Sử dụng phương pháp z-score

Phương pháp điểm z [thường được gọi là tiêu chuẩn hóa] chuyển đổi thông tin thành phân phối với giá trị trung bình là 0 và độ lệch điển hình là 1. Mỗi giá trị tiêu chuẩn hóa được tính bằng cách trừ đi giá trị trung bình của tính năng tương ứng rồi chia cho độ lệch chất lượng

Python3




pd.DataFrame[[1

import37= pd.DataFrame[[4

 

pd.DataFrame[[6

pd.DataFrame[[7 pd.DataFrame[[8pd.DataFrame[[9 import45

                   1import47____6 import49import14

import51import52                   5 import54

 

import56

import57

đầu ra.  

Hãy vẽ một âm mưu với khung dữ liệu này

Python3




import =6

import60==9pd.DataFrame[[0

Tóm lược

Chuẩn hóa dữ liệu bao gồm sửa đổi các cột số theo tỷ lệ tiêu chuẩn. Trong Python, chúng tôi sẽ thực hiện chuẩn hóa dữ liệu một cách rất đơn giản. Thư viện Pandas chứa nhiều phương thức tích hợp sẵn để tính toán các hàm thống kê mô tả phổ biến nhất giúp cho các kỹ thuật chuẩn hóa dữ liệu trở nên rất dễ thực hiện

Chủ Đề