Làm thế nào để bạn đọc dữ liệu khung dữ liệu trong python?

Pandas DataFrame là cấu trúc dữ liệu dạng bảng có thể thay đổi kích thước hai chiều, có khả năng không đồng nhất với các trục được gắn nhãn [hàng và cột]. Khung dữ liệu là cấu trúc dữ liệu hai chiều, tôi. e. , dữ liệu được căn chỉnh theo kiểu bảng trong các hàng và cột. Pandas DataFrame bao gồm ba thành phần chính, dữ liệu, hàng và cột

Chúng tôi sẽ có được một cái nhìn sâu sắc ngắn gọn về tất cả các hoạt động cơ bản này có thể được thực hiện trên Pandas DataFrame

  • Tạo một khung dữ liệu
  • Xử lý hàng và cột
  • Lập chỉ mục và chọn dữ liệu
  • Làm việc với dữ liệu bị thiếu
  • Lặp qua các hàng và cột

Tạo một khung dữ liệu Pandas

Trong thế giới thực, Khung dữ liệu Pandas sẽ được tạo bằng cách tải bộ dữ liệu từ bộ lưu trữ hiện có, bộ lưu trữ có thể là Cơ sở dữ liệu SQL, tệp CSV và tệp Excel. Pandas DataFrame có thể được tạo từ danh sách, từ điển và từ danh sách từ điển, v.v. Khung dữ liệu có thể được tạo theo nhiều cách khác nhau, đây là một số cách mà chúng tôi tạo khung dữ liệu

Tạo một khung dữ liệu bằng Danh sách. DataFrame có thể được tạo bằng một danh sách hoặc danh sách các danh sách

# import pandas as pd
import pandas as pd

# list of strings
lst = ['Geeks', 'For', 'Geeks', 'is', 
            'portal', 'for', 'Geeks']

# Calling DataFrame constructor on list
df = pd.DataFrame[lst]
print[df]

Đầu ra.


 
Tạo DataFrame từ dict of ndarray/lists. Để tạo DataFrame từ lệnh của mảng/danh sách, tất cả các mảng phải có cùng độ dài. Nếu chỉ mục được thông qua thì chỉ số độ dài phải bằng độ dài của mảng. Nếu không có chỉ mục nào được truyền, thì theo mặc định, chỉ mục sẽ là phạm vi [n] trong đó n là độ dài mảng.

# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]

đầu ra

 
Để biết thêm chi tiết, hãy tham khảo Tạo khung dữ liệu Pandas

Xử lý hàng và cột

Khung dữ liệu là cấu trúc dữ liệu hai chiều, tôi. e. , dữ liệu được căn chỉnh theo kiểu bảng trong các hàng và cột. Ta có thể thực hiện các thao tác cơ bản trên hàng/cột như chọn, xóa, thêm, đổi tên

Lựa chọn cột. Để chọn một cột trong Pandas DataFrame, chúng ta có thể truy cập các cột bằng cách gọi chúng bằng tên cột của chúng

# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]

Đầu ra.


 
Lựa chọn hàng. Pandas cung cấp một phương thức duy nhất để truy xuất các hàng từ khung Dữ liệu. Phương pháp
# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
5 được sử dụng để truy xuất các hàng từ Pandas DataFrame. Các hàng cũng có thể được chọn bằng cách chuyển vị trí số nguyên cho hàm iloc[].

Lưu ý. Chúng tôi sẽ sử dụng tệp
# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
6 trong các ví dụ bên dưới.

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]

Đầu ra.
Như minh họa trong hình ảnh đầu ra, hai chuỗi được trả về do cả hai lần chỉ có một tham số.


Để biết thêm chi tiết, hãy tham khảo Xử lý hàng và cột
 

Lập chỉ mục và chọn dữ liệu

Lập chỉ mục trong gấu trúc có nghĩa là chỉ cần chọn các hàng và cột dữ liệu cụ thể từ DataFrame. Lập chỉ mục có thể có nghĩa là chọn tất cả các hàng và một số cột, một số hàng và tất cả các cột hoặc một số trong mỗi hàng và cột. Lập chỉ mục cũng có thể được gọi là Lựa chọn tập hợp con

Lập chỉ mục Dataframe bằng toán tử lập chỉ mục

# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
7.
Toán tử lập chỉ mục được dùng để chỉ các dấu ngoặc vuông theo sau một đối tượng. Các bộ chỉ mục
# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
8 và
# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
9 cũng sử dụng toán tử chỉ mục để thực hiện các lựa chọn. Trong toán tử lập chỉ mục này để chỉ df[].

Chọn một cột duy nhất

Để chọn một cột, chúng tôi chỉ cần đặt tên của cột ở giữa các dấu ngoặc đơn

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving columns by indexing operator
first = data["Age"]



print[first]


Đầu ra.


 
Lập chỉ mục một Khung dữ liệu bằng cách sử dụng
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
0.
Hàm này chọn dữ liệu theo nhãn của hàng và cột. Trình chỉ mục
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
1 chọn dữ liệu theo một cách khác với chỉ toán tử lập chỉ mục. Nó có thể chọn tập hợp con của hàng hoặc cột. Nó cũng có thể đồng thời chọn tập hợp con của các hàng và cột.

Chọn một hàng

Để chọn một hàng bằng cách sử dụng

# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
2, chúng tôi đặt nhãn một hàng trong hàm
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
3

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]

Đầu ra.
Như minh họa trong hình ảnh đầu ra, hai chuỗi được trả về do cả hai lần chỉ có một tham số.


 
Lập chỉ mục DataFrame bằng cách sử dụng
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
4.
Hàm này cho phép lấy hàng, cột theo vị trí. Để làm được điều đó, chúng tôi sẽ cần chỉ định vị trí của các hàng mà chúng tôi muốn và cả vị trí của các cột mà chúng tôi muốn.
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
5indexer rất giống với
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
1nhưng chỉ sử dụng các vị trí số nguyên để thực hiện các lựa chọn của nó.

Chọn một hàng

Để chọn một hàng bằng cách sử dụng

# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
7, chúng ta có thể chuyển một số nguyên cho hàm
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
7

# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
0

Đầu ra.


 
Để biết thêm chi tiết, hãy tham khảo

  • Lập chỉ mục và chọn dữ liệu với Pandas
  • Lập chỉ mục Boolean trong Pandas

 

Làm việc với dữ liệu bị thiếu

Thiếu dữ liệu có thể xảy ra khi không có thông tin nào được cung cấp cho một hoặc nhiều mặt hàng hoặc cho toàn bộ đơn vị. Thiếu dữ liệu là một vấn đề rất lớn trong tình huống thực tế. Thiếu dữ liệu cũng có thể được gọi là giá trị NA [Không khả dụng] trong gấu trúc

Kiểm tra các giá trị bị thiếu bằng cách sử dụng

# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
9 và
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
0
Để kiểm tra các giá trị bị thiếu trong Pandas DataFrame, chúng tôi sử dụng hàm
# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
9 và
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
2. Cả hai chức năng đều giúp kiểm tra xem một giá trị có phải là
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
3 hay không. Các chức năng này cũng có thể được sử dụng trong Pandas Series để tìm các giá trị null trong một chuỗi.

# Import pandas package
import pandas as pd

# Define a dictionary containing employee data
data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
        'Age':[27, 24, 22, 32],
        'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
        'Qualification':['Msc', 'MA', 'MCA', 'Phd']}

# Convert the dictionary into DataFrame 
df = pd.DataFrame[data]

# select two columns
print[df[['Name', 'Qualification']]]
6

Đầu ra.


 
Điền các giá trị còn thiếu bằng cách sử dụng
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
4,
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
5 và
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
6
Để điền các giá trị null vào tập dữ liệu, chúng tôi sử dụng
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving row by loc method
first = data.loc["Avery Bradley"]
second = data.loc["R.J. Hunter"]


print[first, "\n\n\n", second]
4, . Tất cả các chức năng này giúp điền vào các giá trị null trong bộ dữ liệu của DataFrame. Hàm nội suy [] về cơ bản được sử dụng để điền các giá trị
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving columns by indexing operator
first = data["Age"]



print[first]


0 trong khung dữ liệu nhưng nó sử dụng nhiều kỹ thuật nội suy khác nhau để điền các giá trị còn thiếu thay vì mã hóa cứng giá trị.

# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
4

Đầu ra.


 
Bỏ các giá trị còn thiếu bằng cách sử dụng
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving columns by indexing operator
first = data["Age"]



print[first]


1.
Để loại bỏ các giá trị null khỏi khung dữ liệu, chúng tôi đã sử dụng hàm
# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv["nba.csv", index_col ="Name"]

# retrieving columns by indexing operator
first = data["Age"]



print[first]


1, chức năng này loại bỏ các Hàng/Cột của bộ dữ liệu có giá trị Null theo các cách khác nhau.

# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
7


Bây giờ chúng tôi loại bỏ các hàng có ít nhất một giá trị Nan [giá trị Null]

# Python code demonstrate creating 
# DataFrame from dict narray / lists 
# By default addresses.

import pandas as pd

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame[data]

# Print the output.
print[df]
0

Đầu ra.


Để biết thêm chi tiết, hãy tham khảo Làm việc với dữ liệu bị thiếu trong Pandas
 

Lặp qua các hàng và cột

Lặp lại là một thuật ngữ chung để lấy từng mục của một cái gì đó, lần lượt. Pandas DataFrame bao gồm các hàng và cột, vì vậy, để lặp qua khung dữ liệu, chúng ta phải lặp lại một khung dữ liệu giống như một từ điển

Chủ Đề