Pandas như Excel

Đọc file Excel (phần mở rộng. xlsx,. xls) với Python Pandas. Để đọc tệp excel dưới dạng DataFrame, hãy sử dụng phương pháp pandas

1
2
3
4
5
2

Bạn có thể đọc trang đầu tiên, trang cụ thể, nhiều trang hoặc tất cả các trang. Pandas chuyển đổi cấu trúc này thành cấu trúc DataFrame, đây là cấu trúc dạng bảng

khóa học liên quan. Phân tích dữ liệu với Python Pandas

Excel

Trong bài viết này, chúng tôi sử dụng một tệp Excel ví dụ. Các chương trình chúng tôi sẽ thực hiện để đọc Excel thành Python

Tạo một file excel gồm 2 sheet sheet1 và sheet2. Bạn có thể sử dụng bất kỳ chương trình hỗ trợ Excel nào như Microsoft Excel hoặc Google Sheets

Nội dung của từng cái như sau

tờ1

Pandas như Excel

tờ2

Pandas như Excel

Cài đặt xlrd

gấu trúc. . read_excel một. ) sử dụng thư viện có tên xlrd trong nội bộ

xlrd là một thư viện để đọc (nhập) tệp Excel (. xlsx,. xls) bằng Python

bài viết liên quan. Cách dùng xlrd, xlwt đọc ghi file Excel bằng Python

Nếu bạn gọi gấu trúc. read_excel s() trong môi trường chưa cài đặt xlrd, bạn sẽ nhận được thông báo lỗi tương tự như sau

Nhập Lỗi. Cài đặt xlrd >= 0. 9. 0 để được hỗ trợ Excel

xlrd có thể được cài đặt bằng pip. (pip3 tùy thuộc vào môi trường)

1
$ pip install xlrd

đọc excel

Chỉ định đường dẫn hoặc URL của tệp Excel trong đối số đầu tiên.
Nếu có nhiều trang tính, gấu trúc chỉ sử dụng trang tính đầu tiên.
Nó đọc là DataFrame.

1
2
3
4
5
import pandas as pd

df = pd.read_excel('sample.xlsx')

print(df)

Đoạn code trên xuất ra nội dung sheet excel

1
2
3
4
  Unnamed: 0   A   B   C
0 one 11 12 13
1 two 21 22 23
2 three 31 32 33

Nhận trang tính

Bạn có thể chỉ định trang tính để đọc với đối số sheet_name

Chỉ định theo số (bắt đầu từ 0)

1
2
3
df_sheet_index = pd.read_excel('sample.xlsx', sheet_name=1)

print(df_sheet_index)
1
2
3
4
1
0

Chỉ định theo tên trang tính

1
2
3
$ pip install xlrd
1____5
1
0

Tải nhiều tờ

Cũng có thể chỉ định một danh sách trong đối số sheet_name. Nó là OK ngay cả khi nó là một số 0 bắt đầu hoặc tên trang tính

Số hoặc tên trang tính được chỉ định là khóa chính và gấu trúc dữ liệu. DataFrame được đọc dưới dạng từ điển được đặt hàng OrderedDict với giá trị giá trị

Được phát hành vào năm 2008, pandas là phần mở rộng thư viện phần mềm của Python. Nó hoạt động với dữ liệu được lưu trữ trong Python để thao tác và phân tích dữ liệu. Trái ngược với Excel, Python hoàn toàn miễn phí tải xuống và sử dụng

Thư viện pandas được các nhà khoa học và phân tích dữ liệu sử dụng cho các nhiệm vụ từ rất lớn đến rất nhỏ. gấu trúc có thể

  • Kết hợp với BeautifulSoup để kết xuất văn bản từ máy cạo vào cơ sở dữ liệu

  • Dọn dẹp dữ liệu nhanh chóng và chuyển đổi định dạng tập tin

  • Xử lý tập dữ liệu lớn

  • Trực quan hóa dữ liệu với Matplotlib

Đó là một thư viện mạnh mẽ cho bất kỳ ai cần nhận được kết quả nhanh chóng. Chương trình có đường cong học tập dốc hơn so với Excel và nó yêu cầu kiến ​​thức cơ bản về Python và viết mã

Phân tích tập dữ liệu lớn một cách dễ dàng

Pandas hoạt động ngay trên mặt sau của Python. Kết quả là, cực kỳ nhanh chóng và hiệu quả. Trong Excel, khi bạn vượt quá 10.000 hàng, nó sẽ bắt đầu chậm lại — đáng kể. Mặt khác, gấu trúc không có giới hạn thực sự và xử lý hàng triệu điểm dữ liệu một cách liền mạch. Về không gian thuần túy, Excel giới hạn chính xác một bảng tính ở 1.048.576 hàng. Tại thời điểm đó, tính toán của bạn sẽ mất mãi mãi để tính toán. Nhiều khả năng, Excel sẽ bị sập. Một triệu hàng có vẻ như rất nhiều dữ liệu, nhưng đối với các nhà khoa học dữ liệu, đây chỉ là giọt nước trong thùng

Tuy nhiên, Pandas không giới hạn số lượng điểm dữ liệu bạn có thể có trong DataFrame (phiên bản tập dữ liệu của chúng). Nó chỉ bị giới hạn bởi sức mạnh tính toán và bộ nhớ của máy tính mà nó đang chạy

Việc tạo và sử dụng các phương trình và phép tính phức tạp trên dữ liệu của bạn cũng dễ dàng hơn. Bạn có thể áp dụng hàng trăm phép tính cho hàng triệu điểm dữ liệu ngay lập tức với gấu trúc. Vì Python là mã nguồn mở, nên đã có hàng trăm thư viện được tạo ra có thể sắp xếp hợp lý khoảng thời gian cần thiết để tính toán

Nhập bộ dữ liệu ở định dạng HTML, CSV và SQL

Trong thời đại ngày nay, có rất nhiều định dạng dữ liệu và điều quan trọng, đặc biệt đối với các nhà phân tích dữ liệu, là có thể chuyển đổi giữa chúng một cách dễ dàng. Khách hàng hoặc dự án có thể cung cấp dữ liệu ở định dạng SQL và mong đợi định dạng HTML trở lại. Đối với Excel, bạn sẽ phải dành thời gian chuyển đổi định dạng tệp trước khi nhập chúng, trong khi gấu trúc có thể xử lý hơn 15 định dạng khác nhau và chuyển đổi giữa chúng một cách dễ dàng

Ngoài ra, khi sử dụng các trình chuyển đổi định dạng để nhập dữ liệu vào Excel, định dạng thường bị hỏng và có thể dẫn đến Kills in data

Dọn dẹp và sắp xếp tập dữ liệu

Ngoài việc pandas nhanh hơn nhiều so với Excel, nó còn chứa một xương sống máy học thông minh hơn nhiều. Với phần mềm ML này, gấu trúc sẽ tự động đọc và phân loại dữ liệu tốt hơn. Nó có thể dọn dẹp dữ liệu dễ dàng hơn nhiều so với Excel và có khả năng tự động hóa nhiều quy trình bao gồm sửa chữa các lỗ hổng dữ liệu và loại bỏ các bản sao. Khi xử lý hàng triệu điểm dữ liệu, sẽ vô cùng khó khăn để lướt qua dữ liệu tìm kiếm thông tin còn thiếu. gấu trúc có thể giúp với điều đó và làm tất cả trong vài giây

Pandas cũng rất hiệu quả để trực quan hóa dữ liệu để xem các xu hướng và mẫu. Mặc dù giao diện của Excel để tạo đồ thị và biểu đồ rất dễ sử dụng, gấu trúc dễ uốn nắn hơn nhiều và có thể làm được nhiều hơn thế. Đồ thị có thể tùy chỉnh nhiều hơn và bạn có thể tạo khá nhiều khái niệm bạn muốn với gấu trúc.  

Tại sao bạn nên sử dụng pandas và excel cùng nhau?

Cách hành động tốt nhất thực sự là sử dụng gấu trúc Microsoft Excel và Python cùng nhau. Khi làm việc với các tập dữ liệu nhỏ hơn, tốt nhất bạn nên sử dụng giao diện dễ sử dụng của Excel

Vì pandas rất linh hoạt — ngay cả khi bạn bắt đầu phân tích trong Excel — bạn có thể dễ dàng nhập nó vào Python và tiếp tục. Bạn cũng luôn có thể bắt đầu bằng gấu trúc và sử dụng phần mềm để dọn dẹp và sắp xếp dữ liệu của mình, sau đó chuyển sang Excel để trực quan hóa dễ dàng hơn. Khả năng thích ứng của gấu trúc giúp việc chuyển đổi giữa hai người trở nên dễ dàng. Bạn có thể thực hiện các phép tính đơn giản trong Excel, sau đó sử dụng các chương trình phức tạp hơn của gấu trúc để tìm hiểu sâu


Pandas như Excel

Tải xuống

Hướng dẫn chứng chỉ quản trị hệ thống cơ bản

Hướng dẫn dài 158 trang về mọi chứng chỉ của Microsoft, VMware, Citrix, AWS, Google và Linux cũng như cách chúng phù hợp với sự nghiệp của bạn

Họ

Cần thiết

Họ

E-mail

Vai trò công việc của bạn là gì?

Gửi cho tôi tin tức và tài nguyên đào tạo CNTT về CBT Nuggets. (không bắt buộc)

Nộp

Bằng cách gửi biểu mẫu này, bạn đồng ý rằng bạn đã đọc, hiểu và có thể đồng ý với chính sách bảo mật của chúng tôi

Pandas hay openpyxl nào tốt hơn?

Theo cộng đồng StackShare, gấu trúc được chấp thuận rộng rãi hơn , được đề cập trong 41 nhóm công ty & 83 nhóm nhà phát triển; .

Excel sẽ bị thay thế bởi Python?

Python và Excel không có cùng mục đích . việc sử dụng nó không giới hạn trong việc quản lý dữ liệu; . Rõ ràng là cần phải học cách viết mã để sử dụng Python.

Thư viện Python tốt nhất cho Excel là gì?

Thư viện Python mã nguồn mở tốt nhất cho Excel .
XlsxWriter. 3115. 592. .
xlwings. 2466. 450. .
xlrd. 2037. 438. .
pyexcel. 1089. 161. .
xlwt. 1012. 296. .
pycel. 495. 131. .
PyExcelerate. 445. 19 Thư viện viết Excel XLSX tăng tốc cho Python
xlutils. 274. Các tiện ích để làm việc với các tệp Excel yêu cầu cả xlrd và xlwt

Giải pháp thay thế tốt nhất cho Excel là gì?

10 lựa chọn thay thế hàng đầu cho Microsoft Excel .
số táo
Trang tính Zoho
Bảng tính WPS
LibreOffice Calc
Google Workspace
Bảng PDF
LibreOffice