Cách phân tích cột trong python
Trong Pandas, DataFrame chứa ba thành phần hàng, cột và dữ liệu. Nó là một đối tượng hai chiều chứa các cột và hàng. Trong đó các cột đại diện cho nội dung và các hàng đại diện cho chỉ mục. DataFrame giống như một cấu trúc dữ liệu dạng bảng Show
Giá trị cột chuỗi trong DataFrame Trong Pandas, cột DataFrame có thể chứa các giá trị chuỗi được phân tách. Điều đó có nghĩa là nhiều giá trị trong một cột được phân tách bằng dấu gạch ngang, khoảng trắng hoặc dấu phẩy. Ví dụ, quảng cáo RollNo student_name student_address 0 10 Reema Surat_Gujarat 1 20 Rekha Pune_Maharastra 2 30 Jaya Delhi_Uttar Pradesh Ở đây, chúng tôi có yêu cầu chia một cột thành hai cột khác nhau. Ví dụ: trong DataFrame ở trên, chia cột student_address thành hai cột khác nhau “city” và “state” như, RollNo student_name city state 0 10 Reema Surat Gujarat 1 20 Rekha Pune Maharastra 2 30 Jaya Delhi Uttar Pradesh Có nhiều cách khác nhau để làm điều này. Hãy thảo luận từng cái một Tách cột DataFrame thành hai cột bằng Sê-ri. str. tách ra()Trong gấu trúc, các cột DataFrame được gọi là Sê-ri và để chuyển đổi cột thành dữ liệu chuỗi, chúng ta có thể sử dụng Sê-ri. hàm str(). sê-ri. str. split() được sử dụng để chia các giá trị cột đơn thành nhiều cột dựa trên dấu phân cách hoặc dấu phân cách được chỉ định. sê-ri. str. split() tương tự như phương thức split() chuỗi Python, nhưng phương thức split() hoạt động trên tất cả các cột Dataframe, trong khi Sê-ri. str. phương thức split() chỉ hoạt động trên một cột được chỉ định Cú pháp của chuỗi. str. phương pháp tách () Series.str.split(pat=None, n=-1, expand=False)
Ví dụ về sê-ri. str. split() với dấu gạch dưới làm dấu phân cách để chia cột student_address thành hai cột khác nhau “city” và “state” import pandas as pd # create a Dataframe df = pd.DataFrame({ 'RollNo': [10, 20, 30], 'student_name': ['Reema', 'Rekha', 'Jaya'], 'student_address': ['Surat_Gujarat', 'Pune_Maharastra', 'Delhi_Uttar Pradesh'] }) # show the dataframe print(df) print("***********") df[['city','state']] = df.student_address.str.split("_", expand=True) print(df) đầu ra RollNo student_name student_address 0 10 Reema Surat_Gujarat 1 20 Rekha Pune_Maharastra 2 30 Jaya Delhi_Uttar Pradesh *********** RollNo student_name student_address city state 0 10 Reema Surat_Gujarat Surat Gujarat 1 20 Rekha Pune_Maharastra Pune Maharastra 2 30 Jaya Delhi_Uttar Pradesh Delhi Uttar Pradesh Trong tập lệnh trên, chúng tôi đã sử dụng Sê-ri. str. split() để tách các giá trị cột student_address thành các cột thành phố và tiểu bang. Dấu phân cách '' gạch dưới được chỉ định giữa cả hai giá trị, vì vậy cả hai giá trị được phân tách bằng ''. Chúng tôi đã chuyển '_' làm đối số đầu tiên trong Sê-ri. str. phương pháp tách () ví dụ 2 Tách hai giá trị cột khác nhau thành bốn cột mới, trong đó dấu phẩy là dấu phân cách import pandas as pd # create a Dataframe df = pd.DataFrame({ 'RollNo': [10, 20, 30], 'student_name': ['Reema,Thakkar', 'Rekha,Chande', 'Jaya,Sachde'], 'student_address': ['Surat,Gujarat', 'Pune,Maharastra', 'Delhi,Uttar Pradesh'] }) # show the dataframe print(df) print('***********') # Split column student_name to Name and Surname df[['Name','Surname']]=df["student_name"].str.split(",",expand=True) # Split column student_address to City and State df[['City','State']]=df["student_address"].str.split(",",expand=True) print(df) đầu ra RollNo student_name student_address 0 10 Reema,Thakkar Surat,Gujarat 1 20 Rekha,Chande Pune,Maharastra 2 30 Jaya,Sachde Delhi,Uttar Pradesh *********** RollNo student_name student_address Name Surname City State 0 10 Reema,Thakkar Surat,Gujarat Reema Thakkar Surat Gujarat 1 20 Rekha,Chande Pune,Maharastra Rekha Chande Pune Maharastra 2 30 Jaya,Sachde Delhi,Uttar Pradesh Jaya Sachde Delhi Uttar Pradesh Trong đoạn script trên, chúng tôi đã sử dụng Series. str. split() để chia các giá trị trong cột student_name thành hai cột Name và Surname, và cột student_address thành cột City và State Tách cột DataFrame thành hai cột bằng phương thức apply()Trong Pandas, phương thức apply() cũng có thể được sử dụng để chia một giá trị cột thành nhiều cột. khung dữ liệu. phương thức áp dụng () có thể thực thi một hàm trên tất cả các giá trị của một hoặc nhiều cột. Sau đó, bên trong hàm đó, chúng ta có thể chia giá trị chuỗi thành nhiều giá trị. Sau đó, chúng ta có thể gán tất cả các giá trị đã tách này vào các cột mới Cú pháp của Khung dữ liệu. phương pháp áp dụng () dataframe.apply(func, axis, raw, result_type, args, kwds)
ví dụ 1 Ví dụ về Khung dữ liệu. apply() để chia một cột thành nhiều cột. Trong đó dấu gạch dưới là dấu phân cách ________số 8đầu ra RollNo student_name student_address 0 10 Reema Surat_Gujarat 1 20 Rekha Pune_Maharastra 2 30 Jaya Delhi_Uttar Pradesh RollNo student_name student_address City State 0 10 Reema Surat_Gujarat Surat Gujarat 1 20 Rekha Pune_Maharastra Pune Maharastra 2 30 Jaya Delhi_Uttar Pradesh Delhi Uttar Pradesh Trong đoạn script trên, chúng ta có DataFrame gấu trúc đã sử dụng. apply() để tách một cột student_address thành hai cột city và state. Để làm được điều đó, chúng tôi đã áp dụng hàm lambda trên tất cả các giá trị của cột student_address. Hàm lambda này đã chia từng giá trị trong cột đó thành hai giá trị khác nhau. e. Thành phố và Tiểu bang. Sau đó, chúng tôi đã gán các giá trị đó cho hai cột mới ví dụ 2 Ví dụ về Khung dữ liệu. apply() với dấu phẩy là dấu phân cách, để chia hai giá trị cột khác nhau thành bốn cột mới RollNo student_name city state 0 10 Reema Surat Gujarat 1 20 Rekha Pune Maharastra 2 30 Jaya Delhi Uttar Pradesh0 đầu ra RollNo student_name city state 0 10 Reema Surat Gujarat 1 20 Rekha Pune Maharastra 2 30 Jaya Delhi Uttar Pradesh1 Trong kịch bản trên, chúng tôi đã áp dụng pandas. Khung dữ liệu. apply() để chia hai cột student_name và student_address thành bốn cột mới i. e. student_name thành Name và Surname, và student_address thành City and State Tóm lượcTrong bài viết, chúng tôi đã thảo luận về cột chuỗi trong DataFrame là gì? Hướng dẫn về Pandas -Tìm hiểu Phân tích dữ liệu với Python
Bạn đang muốn tạo dựng sự nghiệp trong Khoa học dữ liệu với Python?Khoa học dữ liệu là tương lai và tương lai là ở đây ngay bây giờ. Các nhà khoa học dữ liệu hiện là những chuyên gia được tìm kiếm nhiều nhất hiện nay. Để trở thành một Nhà khoa học dữ liệu giỏi hoặc để chuyển đổi nghề nghiệp trong Khoa học dữ liệu, người ta phải sở hữu bộ kỹ năng phù hợp. Chúng tôi đã tuyển chọn danh sách Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python. Các khóa học này sẽ dạy cho bạn các công cụ lập trình cho Khoa học dữ liệu như Pandas, NumPy, Matplotlib, Seaborn và cách sử dụng các thư viện này để triển khai các mô hình Máy học Kiểm tra Đánh giá chi tiết về Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với PythonHãy nhớ rằng, Khoa học dữ liệu đòi hỏi rất nhiều kiên nhẫn, bền bỉ và thực hành. Vì vậy, hãy bắt đầu học ngay hôm nay Làm cách nào để chia một cột thành hai Pandas?hàm split để chia cột quan tâm. Ở đây, chúng tôi muốn tách cột “Tên” và chúng tôi có thể chọn cột bằng cách sử dụng thao tác chuỗi và tách cột bằng tùy chọn expand=True. str. split() với tùy chọn expand=True dẫn đến một khung dữ liệu và nếu không có nó, chúng ta sẽ lấy đối tượng Pandas Series làm đầu ra
Làm cách nào để trích xuất các cột từ DataFrame trong Pandas?Trích xuất nhiều cột từ khung dữ liệu . cú pháp. tên_biến = dataframe_name [ (các) hàng, (các) cột] ví dụ 1. a=df[ c(1,2) , c(1,2) ] Giải trình. nếu chúng ta muốn trích xuất nhiều hàng và cột, chúng ta có thể sử dụng c() với tên hàng và tên cột làm tham số. . ví dụ 2. b=df [ c(1,2) , c(“id”,”tên”) ] |