Đọc file Excel [phần mở rộng. xlsx,. xls] với Python Pandas. Để đọc tệp excel dưới dạng DataFrame, hãy sử dụng phương pháp pandas
12
2
3
4
5
Bạn có thể đọc trang đầu tiên, trang cụ thể, nhiều trang hoặc tất cả các trang. Pandas chuyển đổi cấu trúc này thành cấu trúc DataFrame, đây là cấu trúc dạng bảng
khóa học liên quan. Phân tích dữ liệu với Python Pandas
Excel
Trong bài viết này, chúng tôi sử dụng một tệp Excel ví dụ. Các chương trình chúng tôi sẽ thực hiện để đọc Excel thành Python
Tạo một file excel gồm 2 sheet sheet1 và sheet2. Bạn có thể sử dụng bất kỳ chương trình hỗ trợ Excel nào như Microsoft Excel hoặc Google Sheets
Nội dung của từng cái như sau
tờ1
tờ2
Cài đặt xlrd
gấu trúc. . read_excel một. ] sử dụng thư viện có tên xlrd trong nội bộ
xlrd là một thư viện để đọc [nhập] tệp Excel [. xlsx,. xls] bằng Python
bài viết liên quan. Cách dùng xlrd, xlwt đọc ghi file Excel bằng Python
Nếu bạn gọi gấu trúc. read_excel s[] trong môi trường chưa cài đặt xlrd, bạn sẽ nhận được thông báo lỗi tương tự như sau
Nhập Lỗi. Cài đặt xlrd >= 0. 9. 0 để được hỗ trợ Excel
xlrd có thể được cài đặt bằng pip. [pip3 tùy thuộc vào môi trường]
1
$ pip install xlrd
đọc excel
Chỉ định đường dẫn hoặc URL của tệp Excel trong đối số đầu tiên.
Nếu có nhiều trang tính, gấu trúc chỉ sử dụng trang tính đầu tiên.
Nó đọc là DataFrame.
1
2
3
4
5
import pandas as pd
df = pd.read_excel['sample.xlsx']
print[df]
Đoạn code trên xuất ra nội dung sheet excel
1
2
3
4
Unnamed: 0 A B C
0 one 11 12 13
1 two 21 22 23
2 three 31 32 33
Nhận trang tính
Bạn có thể chỉ định trang tính để đọc với đối số sheet_name
Chỉ định theo số [bắt đầu từ 0]
1
2
3
df_sheet_index = pd.read_excel['sample.xlsx', sheet_name=1]
print[df_sheet_index]
1
2
3
4
10
Chỉ định theo tên trang tính
1
2
3
$ pip install xlrd1____5
10
Tải nhiều tờ
Cũng có thể chỉ định một danh sách trong đối số sheet_name. Nó là OK ngay cả khi nó là một số 0 bắt đầu hoặc tên trang tính
Số hoặc tên trang tính được chỉ định là khóa chính và gấu trúc dữ liệu. DataFrame được đọc dưới dạng từ điển được đặt hàng OrderedDict với giá trị giá trị
Được phát hành vào năm 2008, pandas là phần mở rộng thư viện phần mềm của Python. Nó hoạt động với dữ liệu được lưu trữ trong Python để thao tác và phân tích dữ liệu. Trái ngược với Excel, Python hoàn toàn miễn phí tải xuống và sử dụng
Thư viện pandas được các nhà khoa học và phân tích dữ liệu sử dụng cho các nhiệm vụ từ rất lớn đến rất nhỏ. gấu trúc có thể
Kết hợp với BeautifulSoup để kết xuất văn bản từ máy cạo vào cơ sở dữ liệu
Dọn dẹp dữ liệu nhanh chóng và chuyển đổi định dạng tập tin
Xử lý tập dữ liệu lớn
Trực quan hóa dữ liệu với Matplotlib
Đó là một thư viện mạnh mẽ cho bất kỳ ai cần nhận được kết quả nhanh chóng. Chương trình có đường cong học tập dốc hơn so với Excel và nó yêu cầu kiến thức cơ bản về Python và viết mã
Phân tích tập dữ liệu lớn một cách dễ dàng
Pandas hoạt động ngay trên mặt sau của Python. Kết quả là, cực kỳ nhanh chóng và hiệu quả. Trong Excel, khi bạn vượt quá 10.000 hàng, nó sẽ bắt đầu chậm lại — đáng kể. Mặt khác, gấu trúc không có giới hạn thực sự và xử lý hàng triệu điểm dữ liệu một cách liền mạch. Về không gian thuần túy, Excel giới hạn chính xác một bảng tính ở 1.048.576 hàng. Tại thời điểm đó, tính toán của bạn sẽ mất mãi mãi để tính toán. Nhiều khả năng, Excel sẽ bị sập. Một triệu hàng có vẻ như rất nhiều dữ liệu, nhưng đối với các nhà khoa học dữ liệu, đây chỉ là giọt nước trong thùng
Tuy nhiên, Pandas không giới hạn số lượng điểm dữ liệu bạn có thể có trong DataFrame [phiên bản tập dữ liệu của chúng]. Nó chỉ bị giới hạn bởi sức mạnh tính toán và bộ nhớ của máy tính mà nó đang chạy
Việc tạo và sử dụng các phương trình và phép tính phức tạp trên dữ liệu của bạn cũng dễ dàng hơn. Bạn có thể áp dụng hàng trăm phép tính cho hàng triệu điểm dữ liệu ngay lập tức với gấu trúc. Vì Python là mã nguồn mở, nên đã có hàng trăm thư viện được tạo ra có thể sắp xếp hợp lý khoảng thời gian cần thiết để tính toán
Nhập bộ dữ liệu ở định dạng HTML, CSV và SQL
Trong thời đại ngày nay, có rất nhiều định dạng dữ liệu và điều quan trọng, đặc biệt đối với các nhà phân tích dữ liệu, là có thể chuyển đổi giữa chúng một cách dễ dàng. Khách hàng hoặc dự án có thể cung cấp dữ liệu ở định dạng SQL và mong đợi định dạng HTML trở lại. Đối với Excel, bạn sẽ phải dành thời gian chuyển đổi định dạng tệp trước khi nhập chúng, trong khi gấu trúc có thể xử lý hơn 15 định dạng khác nhau và chuyển đổi giữa chúng một cách dễ dàng
Ngoài ra, khi sử dụng các trình chuyển đổi định dạng để nhập dữ liệu vào Excel, định dạng thường bị hỏng và có thể dẫn đến Kills in data
Dọn dẹp và sắp xếp tập dữ liệu
Ngoài việc pandas nhanh hơn nhiều so với Excel, nó còn chứa một xương sống máy học thông minh hơn nhiều. Với phần mềm ML này, gấu trúc sẽ tự động đọc và phân loại dữ liệu tốt hơn. Nó có thể dọn dẹp dữ liệu dễ dàng hơn nhiều so với Excel và có khả năng tự động hóa nhiều quy trình bao gồm sửa chữa các lỗ hổng dữ liệu và loại bỏ các bản sao. Khi xử lý hàng triệu điểm dữ liệu, sẽ vô cùng khó khăn để lướt qua dữ liệu tìm kiếm thông tin còn thiếu. gấu trúc có thể giúp với điều đó và làm tất cả trong vài giây
Pandas cũng rất hiệu quả để trực quan hóa dữ liệu để xem các xu hướng và mẫu. Mặc dù giao diện của Excel để tạo đồ thị và biểu đồ rất dễ sử dụng, gấu trúc dễ uốn nắn hơn nhiều và có thể làm được nhiều hơn thế. Đồ thị có thể tùy chỉnh nhiều hơn và bạn có thể tạo khá nhiều khái niệm bạn muốn với gấu trúc.
Tại sao bạn nên sử dụng pandas và excel cùng nhau?
Cách hành động tốt nhất thực sự là sử dụng gấu trúc Microsoft Excel và Python cùng nhau. Khi làm việc với các tập dữ liệu nhỏ hơn, tốt nhất bạn nên sử dụng giao diện dễ sử dụng của Excel
Vì pandas rất linh hoạt — ngay cả khi bạn bắt đầu phân tích trong Excel — bạn có thể dễ dàng nhập nó vào Python và tiếp tục. Bạn cũng luôn có thể bắt đầu bằng gấu trúc và sử dụng phần mềm để dọn dẹp và sắp xếp dữ liệu của mình, sau đó chuyển sang Excel để trực quan hóa dễ dàng hơn. Khả năng thích ứng của gấu trúc giúp việc chuyển đổi giữa hai người trở nên dễ dàng. Bạn có thể thực hiện các phép tính đơn giản trong Excel, sau đó sử dụng các chương trình phức tạp hơn của gấu trúc để tìm hiểu sâu
Tải xuống
Hướng dẫn chứng chỉ quản trị hệ thống cơ bản
Hướng dẫn dài 158 trang về mọi chứng chỉ của Microsoft, VMware, Citrix, AWS, Google và Linux cũng như cách chúng phù hợp với sự nghiệp của bạn
Họ
Cần thiết
Họ
Vai trò công việc của bạn là gì?
Gửi cho tôi tin tức và tài nguyên đào tạo CNTT về CBT Nuggets. [không bắt buộc]
NộpBằng cách gửi biểu mẫu này, bạn đồng ý rằng bạn đã đọc, hiểu và có thể đồng ý với chính sách bảo mật của chúng tôi