“Chúng ta có thể có dữ liệu mà không có thông tin, nhưng chúng ta không thể có thông tin nếu không có dữ liệu. ” Câu trích dẫn này thật đẹp làm sao. Dữ liệu là xương sống của Nhà khoa học dữ liệu và theo một cuộc khảo sát, nhà khoa học dữ liệu dành khoảng 60% thời gian để làm sạch và sắp xếp dữ liệu, vì vậy chúng tôi có trách nhiệm làm quen với các kỹ thuật khác nhau để sắp xếp dữ liệu theo cách tốt hơn. Trong bài viết này, chúng ta sẽ tìm hiểu về các phương pháp khác nhau để xóa khoảng trắng dải thừa khỏi toàn bộ DataFrame. Bộ dữ liệu được sử dụng ở đây được đưa ra dưới đây
Trong hình trên, chúng tôi đang quan sát thấy rằng bên trong các cột Tên, Tuổi, Nhóm máu và Giới tính, dữ liệu không đều. Trong hầu hết các ô của một cột cụ thể, khoảng trắng thừa xuất hiện ở phần đầu của các giá trị. Vì vậy, mục đích của chúng tôi là loại bỏ tất cả các khoảng trắng thừa và sắp xếp nó một cách có hệ thống. Chúng tôi sẽ sử dụng các phương pháp khác nhau sẽ giúp chúng tôi xóa tất cả khoảng trống thừa khỏi ô. phương pháp khác nhau là.
Using Strip[] function Using Skipinitialspace Using replace function Using Converters
Các phương pháp khác nhau để loại bỏ khoảng trắng thừa
Phương pháp 1. Sử dụng hàm Strip[].
Pandas cung cấp phương thức xác định trước “pandas. Loạt. str. strip[]” để xóa khoảng trắng khỏi chuỗi. Sử dụng chức năng dải, chúng ta có thể dễ dàng loại bỏ khoảng trắng thừa khỏi khoảng trắng ở đầu và cuối từ đầu. Nó trả về một chuỗi hoặc chỉ mục của một đối tượng. Nó lấy tập hợp các ký tự mà chúng ta muốn xóa khỏi đầu và đuôi của chuỗi [ký tự đầu và cuối]. Theo mặc định, nó là none và nếu chúng ta không truyền bất kỳ ký tự nào thì nó sẽ xóa khoảng trắng ở đầu và cuối khỏi chuỗi. Nó trả về một chuỗi hoặc chỉ mục của một đối tượng
cú pháp. gấu trúc. Loạt. str. dải [to_strip = Không có]
Giải trình. Nó lấy tập hợp các ký tự mà chúng ta muốn xóa khỏi đầu và đuôi của chuỗi [ký tự đầu và cuối]
Tham số. Theo mặc định, nó là không và nếu chúng ta không chuyển bất kỳ ký tự nào thì nó sẽ xóa khoảng trắng ở đầu và cuối khỏi chuỗi. Nó trả về chuỗi hoặc chỉ mục của đối tượng.
Thí dụ.
Python3
# importing library
import
pandas as pd
# Creating dataframe
df
=
pd.DataFrame[{
110_______
Syntax : pandas.Series.str.replace[' ', '']0
Syntax : pandas.Series.str.replace[' ', '']1
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']3
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']5
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']7
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']9
Syntax : pandas.Series.str.replace[' ', '']2
# importing library
1# importing library
2# importing library
3# importing library
4
Syntax : pandas.Series.str.replace[' ', '']0
# importing library
6Syntax : pandas.Series.str.replace[' ', '']2
# importing library
8Syntax : pandas.Series.str.replace[' ', '']2
# importing library
6Syntax : pandas.Series.str.replace[' ', '']2
import
2Syntax : pandas.Series.str.replace[' ', '']2
import
4Syntax : pandas.Series.str.replace[' ', '']2
import
6# importing library
2# importing library
3import
9
Syntax : pandas.Series.str.replace[' ', '']0
pandas as pd
1Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
3Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
5Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
7Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
9Syntax : pandas.Series.str.replace[' ', '']2
# Creating dataframe
1# importing library
2# Creating dataframe
3_______106_______4
Syntax : pandas.Series.str.replace[' ', '']0
# Creating dataframe
6Syntax : pandas.Series.str.replace[' ', '']2
# Creating dataframe
6Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
6df
7df
8df
9
=
0
=
1_______110_______108_______3=
4=
5
=
1_______104_______9=
3=
4=
5
=
1_______106_______4=
3=
4=
5
pd.DataFrame[{
6
pd.DataFrame[{
7pd.DataFrame[{
8
đầu ra.
Phương pháp 2. Sử dụng Skipinitialspace.
Nó không phải là bất kỳ phương thức nào nhưng nó là một trong những tham số có trong phương thức read_csv[] có trong Pandas. Bên trong gấu trúc. phương thức read_csv[] có tham số skipinitialspace bằng cách sử dụng mà chúng ta có thể bỏ qua không gian ban đầu có trong toàn bộ khung dữ liệu của mình. Theo mặc định, giá trị này là Sai, hãy đặt giá trị này thành Đúng để loại bỏ khoảng trống thừa.
cú pháp. gấu trúc. read_csv[‘path_of_csv_file’, skipinitialspace = True]
# Theo giá trị mặc định của Skiinitialspace là Sai, hãy đặt nó thành True để sử dụng tham số này.
Thí dụ.
Python3
# importing library
import
pandas as pd
'Names'
2
df
108_______ 'Names'
5'Names'
6'Names'
7=
'Names'
9
Syntax : pandas.Series.str.replace[' ', '']00
Syntax : pandas.Series.str.replace[' ', '']01
pd.DataFrame[{
7pd.DataFrame[{
8
đầu ra.
Phương pháp 3. Sử dụng chức năng thay thế.
Sử dụng chức năng thay thế[], chúng tôi cũng có thể xóa khoảng trắng thừa khỏi khung dữ liệu. Pandas cung cấp phương thức xác định trước “pandas. Loạt. str. replace[]” để xóa khoảng trắng. Chương trình của nó sẽ giống như chương trình phương thức strip[] chỉ có một điểm khác biệt là ở đây chúng ta sẽ sử dụng hàm thay thế tại vị trí của strip[]
Syntax : pandas.Series.str.replace[' ', '']
Thí dụ.
Python3
# importing library
import
pandas as pd
# Creating dataframe
df
108_______ pd.DataFrame[{
1_______11
Syntax : pandas.Series.str.replace[' ', '']0
Syntax : pandas.Series.str.replace[' ', '']1
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']3
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']5
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']7
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']9
Syntax : pandas.Series.str.replace[' ', '']2
# importing library
1# importing library
2# importing library
3# importing library
4
Syntax : pandas.Series.str.replace[' ', '']0
# importing library
6Syntax : pandas.Series.str.replace[' ', '']2
# importing library
8Syntax : pandas.Series.str.replace[' ', '']2
# importing library
6Syntax : pandas.Series.str.replace[' ', '']2
import
2Syntax : pandas.Series.str.replace[' ', '']2
import
4Syntax : pandas.Series.str.replace[' ', '']2
import
6# importing library
2# importing library
3import
9
Syntax : pandas.Series.str.replace[' ', '']0
pandas as pd
1Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
3Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
5Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
7Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
9Syntax : pandas.Series.str.replace[' ', '']2
# Creating dataframe
1# importing library
2# Creating dataframe
3_______106_______4
Syntax : pandas.Series.str.replace[' ', '']0
# Creating dataframe
6Syntax : pandas.Series.str.replace[' ', '']2
# Creating dataframe
6Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
6df
7df
8df
9
=
0
=
1_______110_______108_______3=
4
Syntax : pandas.Series.str.replace[' ', '']77
Syntax : pandas.Series.str.replace[' ', '']78
Syntax : pandas.Series.str.replace[' ', '']79
=
1_______104_______9=
3=
4
Syntax : pandas.Series.str.replace[' ', '']77
Syntax : pandas.Series.str.replace[' ', '']78
Syntax : pandas.Series.str.replace[' ', '']79
=
1_______106_______4=
3=
4
Syntax : pandas.Series.str.replace[' ', '']77
Syntax : pandas.Series.str.replace[' ', '']78
Syntax : pandas.Series.str.replace[' ', '']79
pd.DataFrame[{
6
pd.DataFrame[{
7pd.DataFrame[{
8
đầu ra.
Phương pháp 4. Sử dụng bộ chuyển đổi
Nó tương tự như skipinitialspace, nó là một trong những tham số có trong pandas predefine tên phương thức “read_csv”. Nó được sử dụng để áp dụng các chức năng khác nhau trên các cột cụ thể. Chúng ta phải chuyển các chức năng trong từ điển. Ở đây chúng ta sẽ truyền trực tiếp hàm strip[] để loại bỏ khoảng trống thừa trong khi đọc tệp csv
cú pháp. pd. read_csv[“path_of_file”, bộ chuyển đổi={‘column_names’. Tên chức năng}]
# Truyền lệnh của hàm và tên cột, trong đó tên cột đóng vai trò là khóa duy nhất và hoạt động như giá trị.
Thí dụ.
Python3
# importing library
import
pandas as pd
# importing library
00
df
108_______ 'Names'
5'Names'
6# importing library
05=
103_______07
Syntax : pandas.Series.str.replace[' ', '']11_______103_______09
=
4# importing library
11# importing library
12import
9 # importing library
09=
4# importing library
11
# importing library
12# Creating dataframe
4 # importing library
09=
4# importing library
21
Syntax : pandas.Series.str.replace[' ', '']01
pd.DataFrame[{
7pd.DataFrame[{
8
đầu ra.
Xóa khoảng trắng bổ sung khỏi toàn bộ khung dữ liệu bằng cách tạo một số mã.
Python3
# importing library
25
import
pandas as pd
# importing library
28
# importing library
29
df
=
pd.DataFrame[{
'Names'
Syntax : pandas.Series.str.replace[' ', '']0
Syntax : pandas.Series.str.replace[' ', '']1
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']3
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']5
Syntax : pandas.Series.str.replace[' ', '']2
# importing library
41
Syntax : pandas.Series.str.replace[' ', '']7
Syntax : pandas.Series.str.replace[' ', '']2
Syntax : pandas.Series.str.replace[' ', '']9
Syntax : pandas.Series.str.replace[' ', '']2
# importing library
1# importing library
2# Creating dataframe
3
# Creating dataframe
3_______103_______4
Syntax : pandas.Series.str.replace[' ', '']0
# importing library
6Syntax : pandas.Series.str.replace[' ', '']2
# importing library
8Syntax : pandas.Series.str.replace[' ', '']2
# importing library
6Syntax : pandas.Series.str.replace[' ', '']2
import
2Syntax : pandas.Series.str.replace[' ', '']2
import
4Syntax : pandas.Series.str.replace[' ', '']2
import
6# importing library
2# Creating dataframe
3
# Creating dataframe
3_______103_______66
Syntax : pandas.Series.str.replace[' ', '']0
pandas as pd
1Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
3Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
5Syntax : pandas.Series.str.replace[' ', '']2
pandas as pd
7Syntax : pandas.Series.str.replace[' ', '']2
# importing library
76_______105_______9
Syntax : pandas.Series.str.replace[' ', '']2
# Creating dataframe
1# importing library
2# Creating dataframe
3
# Creating dataframe
3_______106_______4
Syntax : pandas.Series.str.replace[' ', '']0
# Creating dataframe
6Syntax : pandas.Series.str.replace[' ', '']2
# Creating dataframe
6Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
0Syntax : pandas.Series.str.replace[' ', '']2
df
6df
7# Creating dataframe
3_______107_______9
# importing library
99
import
00
import
01
import
02 import
03
import
04
import
05_______104_______06
import
05_______104_______08 import
09import
10 import
11
import
12
import
12import
14
import
12import
16 import
17=
=
import
20# importing library
09
import
22
import
22import
24
import
22import
26=
import
28import
29import
30=
4import
32
import
12____104_______34# importing library
09
import
22
import
22import
38
import
22import
40
import
41
import
42
import
43
pd.DataFrame[{
7pd.DataFrame[{
8
Trong đoạn mã trên, ở dòng đầu tiên, chúng tôi nhập các thư viện bắt buộc, ở đây gấu trúc được sử dụng để thực hiện đọc, ghi và nhiều thao tác khác trên dữ liệu, sau đó chúng tôi tạo một DataFrame bằng cách sử dụng gấu trúc có 4 cột 'Tên', 'Tuổi', 'Nhóm máu' . Hầu như tất cả các cột có dữ liệu bất thường. Bây giờ, phần chính bắt đầu từ đây, chúng tôi đã tạo một hàm sẽ loại bỏ khoảng trắng ở đầu và cuối khỏi dữ liệu. Hàm này lấy khung dữ liệu làm tham số và kiểm tra kiểu dữ liệu của từng cột và nếu kiểu dữ liệu của cột là 'Đối tượng' thì áp dụng hàm dải được xác định trước trong thư viện gấu trúc trên cột đó, nếu không thì nó sẽ không làm gì cả. Sau đó, ở dòng tiếp theo, chúng tôi áp dụng hàm whitespace_remover[] trên khung dữ liệu để loại bỏ thành công khoảng trắng thừa khỏi các cột