Cách phân tích cột trong python

Trong Pandas, DataFrame chứa ba thành phần hàng, cột và dữ liệu. Nó là một đối tượng hai chiều chứa các cột và hàng. Trong đó các cột đại diện cho nội dung và các hàng đại diện cho chỉ mục. DataFrame giống như một cấu trúc dữ liệu dạng bảng

Giá trị cột chuỗi trong DataFrame

Trong Pandas, cột DataFrame có thể chứa các giá trị chuỗi được phân tách. Điều đó có nghĩa là nhiều giá trị trong một cột được phân tách bằng dấu gạch ngang, khoảng trắng hoặc dấu phẩy. Ví dụ,

quảng cáo

   RollNo student_name      student_address
0      10        Reema        Surat_Gujarat
1      20        Rekha      Pune_Maharastra
2      30         Jaya  Delhi_Uttar Pradesh

Ở đây, chúng tôi có yêu cầu chia một cột thành hai cột khác nhau. Ví dụ: trong DataFrame ở trên, chia cột student_address thành hai cột khác nhau “city” và “state” như,

   RollNo student_name   city          state
0      10        Reema  Surat        Gujarat
1      20        Rekha   Pune     Maharastra
2      30         Jaya  Delhi  Uttar Pradesh

Có nhiều cách khác nhau để làm điều này. Hãy thảo luận từng cái một

Tách cột DataFrame thành hai cột bằng Sê-ri. str. tách ra[]

Trong gấu trúc, các cột DataFrame được gọi là Sê-ri và để chuyển đổi cột thành dữ liệu chuỗi, chúng ta có thể sử dụng Sê-ri. hàm str[]. sê-ri. str. split[] được sử dụng để chia các giá trị cột đơn thành nhiều cột dựa trên dấu phân cách hoặc dấu phân cách được chỉ định. sê-ri. str. split[] tương tự như phương thức split[] chuỗi Python, nhưng phương thức split[] hoạt động trên tất cả các cột Dataframe, trong khi Sê-ri. str. phương thức split[] chỉ hoạt động trên một cột được chỉ định

Cú pháp của chuỗi. str. phương pháp tách []

Series.str.split[pat=None, n=-1, expand=False]
  • vỗ nhẹ. kiểu chuỗi; . Theo mặc định, nó là khoảng trắng. nó là tùy chọn
  • n. kiểu int;
  • mở rộng. loại bool;
    • Nếu Đúng, hãy trả về chiều mở rộng DataFrame/MultiIndex
    • Nếu Sai, trả về Sê-ri/Chỉ mục, chứa danh sách các chuỗi

Ví dụ về sê-ri. str. split[] với dấu gạch dưới làm dấu phân cách để chia cột student_address thành hai cột khác nhau “city” và “state”

import pandas as pd

# create a Dataframe
df = pd.DataFrame[{
    'RollNo': [10, 20, 30],
    'student_name': ['Reema', 'Rekha', 'Jaya'],
    'student_address': ['Surat_Gujarat', 'Pune_Maharastra', 'Delhi_Uttar Pradesh'] }]

# show the dataframe
print[df]   

print["***********"]

df[['city','state']] = df.student_address.str.split["_", expand=True]

print[df]

đầu ra

   RollNo student_name      student_address
0      10        Reema        Surat_Gujarat
1      20        Rekha      Pune_Maharastra
2      30         Jaya  Delhi_Uttar Pradesh

***********

   RollNo student_name      student_address   city          state
0      10        Reema        Surat_Gujarat  Surat        Gujarat
1      20        Rekha      Pune_Maharastra   Pune     Maharastra
2      30         Jaya  Delhi_Uttar Pradesh  Delhi  Uttar Pradesh

Trong tập lệnh trên, chúng tôi đã sử dụng Sê-ri. str. split[] để tách các giá trị cột student_address thành các cột thành phố và tiểu bang. Dấu phân cách '' gạch dưới được chỉ định giữa cả hai giá trị, vì vậy cả hai giá trị được phân tách bằng ''. Chúng tôi đã chuyển '_' làm đối số đầu tiên trong Sê-ri. str. phương pháp tách []

ví dụ 2

Tách hai giá trị cột khác nhau thành bốn cột mới, trong đó dấu phẩy là dấu phân cách

import pandas as pd

# create a Dataframe
df = pd.DataFrame[{
    'RollNo': [10, 20, 30],
    'student_name': ['Reema,Thakkar', 'Rekha,Chande', 'Jaya,Sachde'],
    'student_address': ['Surat,Gujarat', 'Pune,Maharastra', 'Delhi,Uttar Pradesh'] }]

# show the dataframe
print[df]   

print['***********']

# Split column  student_name to Name and Surname
df[['Name','Surname']]=df["student_name"].str.split[",",expand=True]

# Split column  student_address to City and State
df[['City','State']]=df["student_address"].str.split[",",expand=True]

print[df]

đầu ra

   RollNo   student_name      student_address
0      10  Reema,Thakkar        Surat,Gujarat
1      20   Rekha,Chande      Pune,Maharastra
2      30    Jaya,Sachde  Delhi,Uttar Pradesh

***********

   RollNo   student_name      student_address   Name  Surname   City          State
0      10  Reema,Thakkar        Surat,Gujarat  Reema  Thakkar  Surat        Gujarat
1      20   Rekha,Chande      Pune,Maharastra  Rekha   Chande   Pune     Maharastra
2      30    Jaya,Sachde  Delhi,Uttar Pradesh   Jaya   Sachde  Delhi  Uttar Pradesh

Trong đoạn script trên, chúng tôi đã sử dụng Series. str. split[] để chia các giá trị trong cột student_name thành hai cột Name và Surname, và cột student_address thành cột City và State

Tách cột DataFrame thành hai cột bằng phương thức apply[]

Trong Pandas, phương thức apply[] cũng có thể được sử dụng để chia một giá trị cột thành nhiều cột. khung dữ liệu. phương thức áp dụng [] có thể thực thi một hàm trên tất cả các giá trị của một hoặc nhiều cột. Sau đó, bên trong hàm đó, chúng ta có thể chia giá trị chuỗi thành nhiều giá trị. Sau đó, chúng ta có thể gán tất cả các giá trị đã tách này vào các cột mới

Cú pháp của Khung dữ liệu. phương pháp áp dụng []

dataframe.apply[func, axis, raw, result_type, args, kwds]
  • Thông số
    • chức năng. Cần thiết. Một chức năng để áp dụng cho DataFrame
    • trục. Mặc định-0, 1
    • thô. Đúng hoặc Sai Tùy chọn, mặc định Sai
    • result_type. 'mở rộng','thu nhỏ','broadcast hoặc Không có Tùy chọn, mặc định Không có. Chỉ định cách kết quả sẽ được trả về
    • tranh luận. một tuple Tùy chọn, các đối số để gửi vào hàm
    • kwds. đối số từ khóa Tùy chọn, đối số từ khóa để gửi vào hàm

ví dụ 1

Ví dụ về Khung dữ liệu. apply[] để chia một cột thành nhiều cột. Trong đó dấu gạch dưới là dấu phân cách

________số 8

đầu ra

   RollNo student_name      student_address
0      10        Reema        Surat_Gujarat
1      20        Rekha      Pune_Maharastra
2      30         Jaya  Delhi_Uttar Pradesh

   RollNo student_name      student_address   City          State
0      10        Reema        Surat_Gujarat  Surat        Gujarat
1      20        Rekha      Pune_Maharastra   Pune     Maharastra
2      30         Jaya  Delhi_Uttar Pradesh  Delhi  Uttar Pradesh

Trong đoạn script trên, chúng ta có DataFrame gấu trúc đã sử dụng. apply[] để tách một cột student_address thành hai cột city và state. Để làm được điều đó, chúng tôi đã áp dụng hàm lambda trên tất cả các giá trị của cột student_address. Hàm lambda này đã chia từng giá trị trong cột đó thành hai giá trị khác nhau. e. Thành phố và Tiểu bang. Sau đó, chúng tôi đã gán các giá trị đó cho hai cột mới

ví dụ 2

Ví dụ về Khung dữ liệu. apply[] với dấu phẩy là dấu phân cách, để chia hai giá trị cột khác nhau thành bốn cột mới

   RollNo student_name   city          state
0      10        Reema  Surat        Gujarat
1      20        Rekha   Pune     Maharastra
2      30         Jaya  Delhi  Uttar Pradesh
0

đầu ra

   RollNo student_name   city          state
0      10        Reema  Surat        Gujarat
1      20        Rekha   Pune     Maharastra
2      30         Jaya  Delhi  Uttar Pradesh
1

Trong kịch bản trên, chúng tôi đã áp dụng pandas. Khung dữ liệu. apply[] để chia hai cột student_name và student_address thành bốn cột mới i. e. student_name thành Name và Surname, và student_address thành City and State

Tóm lược

Trong bài viết, chúng tôi đã thảo luận về cột chuỗi trong DataFrame là gì?

Hướng dẫn về Pandas -Tìm hiểu Phân tích dữ liệu với Python

 
  • Hướng dẫn Pandas Phần #1 - Giới thiệu về Phân tích dữ liệu với Python
  • Hướng dẫn Pandas Phần #2 - Khái niệm cơ bản về Pandas Series
  • Hướng dẫn Pandas Phần #3 - Nhận & Đặt giá trị Chuỗi
  • Pandas Tutorial Part #4 - Thuộc tính & phương thức của Pandas Series
  • Hướng dẫn về Pandas Phần #5 - Thêm hoặc xóa các thành phần của Pandas Series
  • Hướng dẫn về Pandas Phần #6 - Giới thiệu về DataFrame
  • Hướng dẫn về Pandas Phần #7 - DataFrame. loc[] - Chọn Hàng/Cột theo Lập chỉ mục
  • Hướng dẫn về Pandas Phần #8 - DataFrame. iloc[] - Chọn Hàng/Cột theo Tên nhãn
  • Hướng dẫn về gấu trúc Phần #9 - Lọc các hàng trong khung dữ liệu
  • Hướng dẫn Pandas Phần #10 - Thêm/Xóa Hàng & Cột DataFrame
  • Hướng dẫn về Pandas Phần #11 - Các thuộc tính & phương thức DataFrame
  • Hướng dẫn Pandas Phần #12 - Xử lý dữ liệu bị thiếu hoặc giá trị NaN
  • Hướng dẫn về Pandas Phần #13 - Lặp lại các Hàng & Cột của DataFrame
  • Hướng dẫn Pandas Phần #14 - Sắp xếp DataFrame theo Hàng hoặc Cột
  • Hướng dẫn về gấu trúc Phần #15 - Hợp nhất hoặc ghép các khung dữ liệu
  • Hướng dẫn về Pandas Phần #16 - DataFrame GroupBy được giải thích bằng các ví dụ
 

Bạn đang muốn tạo dựng sự nghiệp trong Khoa học dữ liệu với Python?

Khoa học dữ liệu là tương lai và tương lai là ở đây ngay bây giờ. Các nhà khoa học dữ liệu hiện là những chuyên gia được tìm kiếm nhiều nhất hiện nay. Để trở thành một Nhà khoa học dữ liệu giỏi hoặc để chuyển đổi nghề nghiệp trong Khoa học dữ liệu, người ta phải sở hữu bộ kỹ năng phù hợp. Chúng tôi đã tuyển chọn danh sách Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python. Các khóa học này sẽ dạy cho bạn các công cụ lập trình cho Khoa học dữ liệu như Pandas, NumPy, Matplotlib, Seaborn và cách sử dụng các thư viện này để triển khai các mô hình Máy học

Kiểm tra Đánh giá chi tiết về Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python

Hãy nhớ rằng, Khoa học dữ liệu đòi hỏi rất nhiều kiên nhẫn, bền bỉ và thực hành. Vì vậy, hãy bắt đầu học ngay hôm nay

Làm cách nào để chia một cột thành hai Pandas?

hàm split để chia cột quan tâm. Ở đây, chúng tôi muốn tách cột “Tên” và chúng tôi có thể chọn cột bằng cách sử dụng thao tác chuỗi và tách cột bằng tùy chọn expand=True. str. split[] với tùy chọn expand=True dẫn đến một khung dữ liệu và nếu không có nó, chúng ta sẽ lấy đối tượng Pandas Series làm đầu ra

Làm cách nào để trích xuất các cột từ DataFrame trong Pandas?

Trích xuất nhiều cột từ khung dữ liệu .
cú pháp. tên_biến = dataframe_name [ [các] hàng, [các] cột]
ví dụ 1. a=df[ c[1,2] , c[1,2] ]
Giải trình. nếu chúng ta muốn trích xuất nhiều hàng và cột, chúng ta có thể sử dụng c[] với tên hàng và tên cột làm tham số. .
ví dụ 2. b=df [ c[1,2] , c[“id”,”tên”] ]

Chủ Đề