Tệp Excel gấu trúc
Từ những gì tôi đã thấy cho đến nay, CSV dường như là định dạng phổ biến nhất để lưu trữ dữ liệu giữa các nhà khoa học dữ liệu. Và điều đó có thể hiểu được, nó hoàn thành công việc và là một định dạng khá đơn giản; Show Nhưng không phải lúc nào bạn cũng có thể tìm thấy dữ liệu mình cần ở định dạng CSV. Đôi khi định dạng có sẵn duy nhất có thể là tệp Excel. Ví dụ, tập dữ liệu này trên ons. chính phủ. uk về tội phạm ở Anh và xứ Wales, chỉ ở định dạng xlsx; Đọc tệp ExcelCách đơn giản nhất để đọc tệp Excel vào khung dữ liệu gấu trúc là sử dụng hàm sau (giả sử bạn đã làm
Trong đó Bây giờ, nếu chúng tôi sử dụng nó để đọc tệp Excel của mình, chúng tôi sẽ nhận được Đúng vậy, một lỗi. Hóa ra gấu trúc không thể tự đọc tệp Excel, vì vậy chúng ta cần cài đặt gói python khác để làm điều đó Có 2 lựa chọn mà chúng ta có.
Bây giờ, nếu chúng ta cố gắng đọc lại cùng một dữ liệu nó hoạt động Nhưng các tệp Excel có thể lộn xộn hơn một chút. Ngoài dữ liệu, họ có thể có nhận xét/giải thích khác trong vài hàng đầu tiên và/hoặc cuối cùng Để yêu cầu gấu trúc bắt đầu đọc một trang tính Excel từ một hàng cụ thể, hãy sử dụng đối số header = 0-indexed row nơi bắt đầu đọc. Theo mặc định, tiêu đề = 0 và hàng đầu tiên như vậy được sử dụng để cung cấp tên của các cột khung dữ liệu Để bỏ qua các hàng ở cuối trang tính, hãy sử dụng skipfooter = số hàng để bỏ qua Ví dụ cái này tốt hơn một chút. Vẫn còn một số vấn đề cụ thể đối với dữ liệu này. Tùy thuộc vào những gì chúng tôi muốn đạt được, chúng tôi cũng có thể cần sắp xếp lại các giá trị dữ liệu theo cách khác. Nhưng trong bài viết này, chúng tôi sẽ chỉ tập trung vào việc đọc và ghi vào và từ các khung dữ liệu Một cách khác để đọc tệp Excel ngoài cách trên là sử dụng đối tượng Sau đó, đối tượng Một ví dụ về phân tích trang tính thứ hai (chỉ mục 1) … và ở đây chúng tôi phân tích cú pháp của cùng một trang tính bằng tên của nó thay vì chỉ mục Các Điều tương tự bạn có thể làm bằng cách sử dụng phương thức … hoặc, nếu bạn chỉ muốn tất cả các trang tính, bạn có thể thực hiện Viết tệp ExcelBây giờ chúng ta đã biết cách đọc tệp excel, bước tiếp theo đối với chúng tôi là có thể ghi khung dữ liệu vào tệp excel. Chúng ta có thể làm điều đó bằng cách sử dụng phương pháp khung dữ liệu Trước tiên hãy tạo một khung dữ liệu đơn giản để ghi vào tệp excel Bây giờ chúng tôi muốn ghi nó vào một tệp excel … và chúng tôi gặp lỗi Một lần nữa, gấu trúc không thể tự ghi vào tệp excel; . Các tùy chọn chính mà chúng tôi có là
Nếu chúng ta muốn có thể viết thư cho người cũ. xls, chúng ta nên cài đặt
Bây giờ nếu chúng ta chạy lại đoạn mã trên, nó sẽ hoạt động; Theo mặc định, gấu trúc cũng ghi cột chỉ mục cùng với các cột của chúng tôi. Để loại bỏ nó, hãy sử dụng Cột chỉ mục hiện không có ở đó Nếu chúng ta muốn viết nhiều tờ hơn thì sao? Câu trả lời là không. Nó sẽ chỉ ghi đè lên tệp chỉ bằng một trang tính. tờ2 Để ghi thêm sheet vào file Excel ta cần sử dụng đối tượng Bây giờ tệp Excel của chúng tôi phải có 2 trang tính. Sau đó, nếu chúng ta muốn thêm một trang tính khác vào đó, chúng ta cần mở tệp ở chế độ chắp thêm và chạy mã tương tự như mã trước đó. Ví dụ File Excel của chúng ta bây giờ có 3 sheet và trông như thế này Làm việc với các công thức ExcelCó lẽ bạn đang tự hỏi, tại thời điểm này, về các công thức Excel. Còn họ thì sao? Chà… tin tốt đây. Nó khá dễ dàng. Viết công thức vào tệp Excel đơn giản như chỉ cần viết chuỗi công thức và các chuỗi này sẽ được Excel tự động diễn giải dưới dạng công thức như một ví dụ Tệp Excel được tạo bởi đoạn mã trên là Bây giờ, nếu chúng ta muốn đọc một tệp Excel có các công thức trong đó, gấu trúc sẽ đọc vào các khung dữ liệu kết quả của các công thức đó Ví dụ: hãy đọc tệp đã tạo trước đó của chúng tôi Đôi khi, bạn cần lưu tệp Excel theo cách thủ công để tệp này hoạt động và không nhận được số 0 thay vì kết quả của công thức (nhấn CTRL+S trước khi thực hiện mã trên) Gấu trúc có thể đọc tệp Excel không?Đọc tệp Excel vào DataFrame của gấu trúc. Hỗ trợ các phần mở rộng tệp xls , xlsx , xlsm , xlsb , odf , ods và odt được đọc từ hệ thống tệp cục bộ hoặc URL . Hỗ trợ tùy chọn đọc một trang tính hoặc danh sách các trang tính.
Làm cách nào để đọc Excel vào DataFrame của gấu trúc?Để đọc tệp excel dưới dạng DataFrame, hãy sử dụng phương thức pandas read_excel() . Bạn có thể đọc trang đầu tiên, trang cụ thể, nhiều trang hoặc tất cả các trang. Pandas chuyển đổi cấu trúc này thành cấu trúc DataFrame, đây là cấu trúc dạng bảng. |