Trong Pandas, DataFrame chứa ba thành phần hàng, cột và dữ liệu. Nó là một đối tượng hai chiều chứa các cột và hàng. Trong đó các cột đại diện cho nội dung và các hàng đại diện cho chỉ mục. DataFrame giống như một cấu trúc dữ liệu dạng bảng
Giá trị cột chuỗi trong DataFrame
Trong Pandas, cột DataFrame có thể chứa các giá trị chuỗi được phân tách. Điều đó có nghĩa là nhiều giá trị trong một cột được phân tách bằng dấu gạch ngang, khoảng trắng hoặc dấu phẩy. Ví dụ,
quảng cáo
RollNo student_name student_address 0 10 Reema Surat_Gujarat 1 20 Rekha Pune_Maharastra 2 30 Jaya Delhi_Uttar Pradesh
Ở đây, chúng tôi có yêu cầu chia một cột thành hai cột khác nhau. Ví dụ: trong DataFrame ở trên, chia cột student_address thành hai cột khác nhau “city” và “state” như,
RollNo student_name city state 0 10 Reema Surat Gujarat 1 20 Rekha Pune Maharastra 2 30 Jaya Delhi Uttar Pradesh
Có nhiều cách khác nhau để làm điều này. Hãy thảo luận từng cái một
Tách cột DataFrame thành hai cột bằng Sê-ri. str. tách ra[]
Trong gấu trúc, các cột DataFrame được gọi là Sê-ri và để chuyển đổi cột thành dữ liệu chuỗi, chúng ta có thể sử dụng Sê-ri. hàm str[]. sê-ri. str. split[] được sử dụng để chia các giá trị cột đơn thành nhiều cột dựa trên dấu phân cách hoặc dấu phân cách được chỉ định. sê-ri. str. split[] tương tự như phương thức split[] chuỗi Python, nhưng phương thức split[] hoạt động trên tất cả các cột Dataframe, trong khi Sê-ri. str. phương thức split[] chỉ hoạt động trên một cột được chỉ định
Cú pháp của chuỗi. str. phương pháp tách []
Series.str.split[pat=None, n=-1, expand=False]
- vỗ nhẹ. kiểu chuỗi; . Theo mặc định, nó là khoảng trắng. nó là tùy chọn
- n. kiểu int;
- mở rộng. loại bool;
- Nếu Đúng, hãy trả về chiều mở rộng DataFrame/MultiIndex
- Nếu Sai, trả về Sê-ri/Chỉ mục, chứa danh sách các chuỗi
Ví dụ về sê-ri. str. split[] với dấu gạch dưới làm dấu phân cách để chia cột student_address thành hai cột khác nhau “city” và “state”
import pandas as pd # create a Dataframe df = pd.DataFrame[{ 'RollNo': [10, 20, 30], 'student_name': ['Reema', 'Rekha', 'Jaya'], 'student_address': ['Surat_Gujarat', 'Pune_Maharastra', 'Delhi_Uttar Pradesh'] }] # show the dataframe print[df] print["***********"] df[['city','state']] = df.student_address.str.split["_", expand=True] print[df]
đầu ra
RollNo student_name student_address 0 10 Reema Surat_Gujarat 1 20 Rekha Pune_Maharastra 2 30 Jaya Delhi_Uttar Pradesh *********** RollNo student_name student_address city state 0 10 Reema Surat_Gujarat Surat Gujarat 1 20 Rekha Pune_Maharastra Pune Maharastra 2 30 Jaya Delhi_Uttar Pradesh Delhi Uttar Pradesh
Trong tập lệnh trên, chúng tôi đã sử dụng Sê-ri. str. split[] để tách các giá trị cột student_address thành các cột thành phố và tiểu bang. Dấu phân cách '' gạch dưới được chỉ định giữa cả hai giá trị, vì vậy cả hai giá trị được phân tách bằng ''. Chúng tôi đã chuyển '_' làm đối số đầu tiên trong Sê-ri. str. phương pháp tách []
ví dụ 2
Tách hai giá trị cột khác nhau thành bốn cột mới, trong đó dấu phẩy là dấu phân cách
import pandas as pd # create a Dataframe df = pd.DataFrame[{ 'RollNo': [10, 20, 30], 'student_name': ['Reema,Thakkar', 'Rekha,Chande', 'Jaya,Sachde'], 'student_address': ['Surat,Gujarat', 'Pune,Maharastra', 'Delhi,Uttar Pradesh'] }] # show the dataframe print[df] print['***********'] # Split column student_name to Name and Surname df[['Name','Surname']]=df["student_name"].str.split[",",expand=True] # Split column student_address to City and State df[['City','State']]=df["student_address"].str.split[",",expand=True] print[df]
đầu ra
RollNo student_name student_address 0 10 Reema,Thakkar Surat,Gujarat 1 20 Rekha,Chande Pune,Maharastra 2 30 Jaya,Sachde Delhi,Uttar Pradesh *********** RollNo student_name student_address Name Surname City State 0 10 Reema,Thakkar Surat,Gujarat Reema Thakkar Surat Gujarat 1 20 Rekha,Chande Pune,Maharastra Rekha Chande Pune Maharastra 2 30 Jaya,Sachde Delhi,Uttar Pradesh Jaya Sachde Delhi Uttar Pradesh
Trong đoạn script trên, chúng tôi đã sử dụng Series. str. split[] để chia các giá trị trong cột student_name thành hai cột Name và Surname, và cột student_address thành cột City và State
Tách cột DataFrame thành hai cột bằng phương thức apply[]
Trong Pandas, phương thức apply[] cũng có thể được sử dụng để chia một giá trị cột thành nhiều cột. khung dữ liệu. phương thức áp dụng [] có thể thực thi một hàm trên tất cả các giá trị của một hoặc nhiều cột. Sau đó, bên trong hàm đó, chúng ta có thể chia giá trị chuỗi thành nhiều giá trị. Sau đó, chúng ta có thể gán tất cả các giá trị đã tách này vào các cột mới
Cú pháp của Khung dữ liệu. phương pháp áp dụng []
dataframe.apply[func, axis, raw, result_type, args, kwds]
- Thông số
- chức năng. Cần thiết. Một chức năng để áp dụng cho DataFrame
- trục. Mặc định-0, 1
- thô. Đúng hoặc Sai Tùy chọn, mặc định Sai
- result_type. 'mở rộng','thu nhỏ','broadcast hoặc Không có Tùy chọn, mặc định Không có. Chỉ định cách kết quả sẽ được trả về
- tranh luận. một tuple Tùy chọn, các đối số để gửi vào hàm
- kwds. đối số từ khóa Tùy chọn, đối số từ khóa để gửi vào hàm
ví dụ 1
Ví dụ về Khung dữ liệu. apply[] để chia một cột thành nhiều cột. Trong đó dấu gạch dưới là dấu phân cách
________số 8đầu ra
RollNo student_name student_address 0 10 Reema Surat_Gujarat 1 20 Rekha Pune_Maharastra 2 30 Jaya Delhi_Uttar Pradesh RollNo student_name student_address City State 0 10 Reema Surat_Gujarat Surat Gujarat 1 20 Rekha Pune_Maharastra Pune Maharastra 2 30 Jaya Delhi_Uttar Pradesh Delhi Uttar Pradesh
Trong đoạn script trên, chúng ta có DataFrame gấu trúc đã sử dụng. apply[] để tách một cột student_address thành hai cột city và state. Để làm được điều đó, chúng tôi đã áp dụng hàm lambda trên tất cả các giá trị của cột student_address. Hàm lambda này đã chia từng giá trị trong cột đó thành hai giá trị khác nhau. e. Thành phố và Tiểu bang. Sau đó, chúng tôi đã gán các giá trị đó cho hai cột mới
ví dụ 2
Ví dụ về Khung dữ liệu. apply[] với dấu phẩy là dấu phân cách, để chia hai giá trị cột khác nhau thành bốn cột mới
RollNo student_name city state 0 10 Reema Surat Gujarat 1 20 Rekha Pune Maharastra 2 30 Jaya Delhi Uttar Pradesh0
đầu ra
RollNo student_name city state 0 10 Reema Surat Gujarat 1 20 Rekha Pune Maharastra 2 30 Jaya Delhi Uttar Pradesh1
Trong kịch bản trên, chúng tôi đã áp dụng pandas. Khung dữ liệu. apply[] để chia hai cột student_name và student_address thành bốn cột mới i. e. student_name thành Name và Surname, và student_address thành City and State
Tóm lược
Trong bài viết, chúng tôi đã thảo luận về cột chuỗi trong DataFrame là gì?
Hướng dẫn về Pandas -Tìm hiểu Phân tích dữ liệu với Python
- Hướng dẫn Pandas Phần #1 - Giới thiệu về Phân tích dữ liệu với Python
- Hướng dẫn Pandas Phần #2 - Khái niệm cơ bản về Pandas Series
- Hướng dẫn Pandas Phần #3 - Nhận & Đặt giá trị Chuỗi
- Pandas Tutorial Part #4 - Thuộc tính & phương thức của Pandas Series
- Hướng dẫn về Pandas Phần #5 - Thêm hoặc xóa các thành phần của Pandas Series
- Hướng dẫn về Pandas Phần #6 - Giới thiệu về DataFrame
- Hướng dẫn về Pandas Phần #7 - DataFrame. loc[] - Chọn Hàng/Cột theo Lập chỉ mục
- Hướng dẫn về Pandas Phần #8 - DataFrame. iloc[] - Chọn Hàng/Cột theo Tên nhãn
- Hướng dẫn về gấu trúc Phần #9 - Lọc các hàng trong khung dữ liệu
- Hướng dẫn Pandas Phần #10 - Thêm/Xóa Hàng & Cột DataFrame
- Hướng dẫn về Pandas Phần #11 - Các thuộc tính & phương thức DataFrame
- Hướng dẫn Pandas Phần #12 - Xử lý dữ liệu bị thiếu hoặc giá trị NaN
- Hướng dẫn về Pandas Phần #13 - Lặp lại các Hàng & Cột của DataFrame
- Hướng dẫn Pandas Phần #14 - Sắp xếp DataFrame theo Hàng hoặc Cột
- Hướng dẫn về gấu trúc Phần #15 - Hợp nhất hoặc ghép các khung dữ liệu
- Hướng dẫn về Pandas Phần #16 - DataFrame GroupBy được giải thích bằng các ví dụ
Bạn đang muốn tạo dựng sự nghiệp trong Khoa học dữ liệu với Python?
Khoa học dữ liệu là tương lai và tương lai là ở đây ngay bây giờ. Các nhà khoa học dữ liệu hiện là những chuyên gia được tìm kiếm nhiều nhất hiện nay. Để trở thành một Nhà khoa học dữ liệu giỏi hoặc để chuyển đổi nghề nghiệp trong Khoa học dữ liệu, người ta phải sở hữu bộ kỹ năng phù hợp. Chúng tôi đã tuyển chọn danh sách Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python. Các khóa học này sẽ dạy cho bạn các công cụ lập trình cho Khoa học dữ liệu như Pandas, NumPy, Matplotlib, Seaborn và cách sử dụng các thư viện này để triển khai các mô hình Máy học
Kiểm tra Đánh giá chi tiết về Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với PythonHãy nhớ rằng, Khoa học dữ liệu đòi hỏi rất nhiều kiên nhẫn, bền bỉ và thực hành. Vì vậy, hãy bắt đầu học ngay hôm nay