Ở đây, chúng tôi sẽ áp dụng một số kỹ thuật để chuẩn hóa dữ liệu và thảo luận về những điều này với sự trợ giúp của các ví dụ. Đối với điều này, hãy hiểu các bước cần thiết để chuẩn hóa dữ liệu với Pandas
- Nhập thư viện [Pandas]
- Nhập/Nạp/Tạo dữ liệu
- Sử dụng kỹ thuật để chuẩn hóa dữ liệu
ví dụ
Ở đây, chúng tôi tạo dữ liệu theo một số giá trị ngẫu nhiên và áp dụng một số kỹ thuật chuẩn hóa cho nó
Python3
# importing packages
import
pandas as pd
# create data
df
=
pd.DataFrame[[
______9import
0import
1import
2import
1import
4import
1import
6import
7
______9pandas as pd
0import
1pandas as pd
2import
1pandas as pd
4import
1pandas as pd
6import
7
______9
0import
1
2import
1
4import
1
6import
7
______9# create data
0import
1# create data
2import
1# create data
4import
1# create data
6# create data
7
# create data
8
_______50=
______9df
3import
1df
5import
1
df
7____58____11____60=
1
=
3
=
4
đầu ra
Xem cốt truyện của khung dữ liệu này
Python3
import
=
6
=
7=
=
9____70
Hãy áp dụng từng kỹ thuật chuẩn hóa
Sử dụng tỷ lệ tuyệt đối tối đa
Tỷ lệ tuyệt đối tối đa thay đổi tỷ lệ từng tính năng trong khoảng từ -1 đến 1 bằng cách chia mọi quan sát cho giá trị tuyệt đối tối đa của nó. Chúng ta có thể áp dụng tỷ lệ tuyệt đối tối đa trong Pandas bằng cách sử dụng. tối đa [] và. phương thức abs[], như hình bên dưới
Python3
pd.DataFrame[[
1
pd.DataFrame[[
2____6 pd.DataFrame[[
4
pd.DataFrame[[
6
pd.DataFrame[[
7 pd.DataFrame[[
8pd.DataFrame[[
9
0
1
2=
4
5
6
7
8
9[
0
[
1
[
2
[
3
đầu ra
Xem cốt truyện của khung dữ liệu này
Python3
import
=
6
[
6______6 =
9____70
đầu ra
Sử dụng quy mô tính năng min-max
Phương pháp tối thiểu hóa tối đa [thường được gọi là chuẩn hóa] tính lại đối tượng địa lý thành phạm vi khó và nhanh là [0,1] bằng cách trừ đi giá trị tối thiểu của đối tượng địa lý rồi chia cho phạm vi. Chúng ta có thể áp dụng tỷ lệ tối thiểu trong Pandas bằng cách sử dụng. phút[] và. phương pháp tối đa []
Python3
pd.DataFrame[[
1
import
01=
pd.DataFrame[[
4
pd.DataFrame[[
6
________ 77 ________ 78 ________ 79 ________ 109
1import
11=
import
13import
14 import
15import
16import
17
5 import
19
9[
0import
14 import
15import
16import
25
[
2
import
28import
29
đầu ra
Hãy vẽ một âm mưu với khung dữ liệu này
Python3
import
=
6
import
32=
=
9pd.DataFrame[[
0
Sử dụng phương pháp z-score
Phương pháp điểm z [thường được gọi là tiêu chuẩn hóa] chuyển đổi thông tin thành phân phối với giá trị trung bình là 0 và độ lệch điển hình là 1. Mỗi giá trị tiêu chuẩn hóa được tính bằng cách trừ đi giá trị trung bình của tính năng tương ứng rồi chia cho độ lệch chất lượng
Python3
pd.DataFrame[[
1
import
37=
pd.DataFrame[[
4
pd.DataFrame[[
6
pd.DataFrame[[
7 pd.DataFrame[[
8pd.DataFrame[[
9 import
45
1import
47____6 import
49import
14
import
51import
52
5 import
54
import
56
import
57
đầu ra.
Hãy vẽ một âm mưu với khung dữ liệu này
Python3
import
=
6
import
60=
=
9pd.DataFrame[[
0
Tóm lược
Chuẩn hóa dữ liệu bao gồm sửa đổi các cột số theo tỷ lệ tiêu chuẩn. Trong Python, chúng tôi sẽ thực hiện chuẩn hóa dữ liệu một cách rất đơn giản. Thư viện Pandas chứa nhiều phương thức tích hợp sẵn để tính toán các hàm thống kê mô tả phổ biến nhất giúp cho các kỹ thuật chuẩn hóa dữ liệu trở nên rất dễ thực hiện