Các tệp dữ liệu lớn hơn thường được lưu trữ ở định dạng văn bản, định dạng csv. Nhưng tệp Excel tôi. e. Tệp XLSX cũng vẫn là một định dạng lưu trữ quan trọng, vì nó cũng có thể lưu các định dạng và các tính năng khác cùng với dữ liệu. Nhập tệp Excel trong Pyspark đôi khi có thể là một thử thách khó khăn. Chúng tôi đang chia sẻ hướng dẫn từng bước về cách đọc tệp Excel trong Pyspark. Kích thước tệp của tệp XLSX không quá lớn vì tệp thường chứa lượng dữ liệu hạn chế. Nó hữu ích trong việc lưu trữ các tệp báo cáo và không phải là định dạng lưu trữ dữ liệu
Emma có sẵn tập dữ liệu Nhân viên ở định dạng XLSX. Có sẵn hai trang tính và cô ấy phải nhập “Data_Sheet2” từ tệp
visit here. Additionally, you can read books listed here to build strong knowledge around Pyspark.Ghé thăm chúng tôi dưới đây để xem video hướng dẫn
Looking to practice more with this example? Drop us a note, we will email you the Code file:
Tên của bạn
Email của bạn
Tin nhắn của bạn [tùy chọn]
Phần bổ trợ CData Excel cho Databricks cho phép bạn chỉnh sửa và lưu dữ liệu Databricks trực tiếp từ Excel. Bài viết hướng dẫn cách chuyển dữ liệu từ Excel sang Databricks. Kỹ thuật này hữu ích nếu bạn muốn làm việc trên dữ liệu Databricks trong Excel và cập nhật các thay đổi hoặc nếu bạn có toàn bộ bảng tính mà bạn muốn nhập vào Databricks. Trong ví dụ này, bạn sẽ sử dụng bảng Khách hàng;
Thiết lập kết nối
Nếu bạn chưa làm như vậy, hãy tạo một kết nối Databricks mới bằng cách nhấp vào From Databricks trên ruy-băng
Để kết nối với cụm Databricks, hãy đặt các thuộc tính như được mô tả bên dưới
Ghi chú. Bạn có thể tìm thấy các giá trị cần thiết trong phiên bản Databricks của mình bằng cách điều hướng đến Cụm và chọn cụm mong muốn, đồng thời chọn tab JDBC/ODBC trong Tùy chọn nâng cao
- Người phục vụ. Đặt thành Tên máy chủ của cụm Databricks của bạn
- Đường dẫn HTTP. Đặt thành Đường dẫn HTTP của cụm Databricks của bạn
- Mã thông báo. Đặt thành mã thông báo truy cập cá nhân của bạn [có thể nhận được giá trị này bằng cách điều hướng đến trang Cài đặt người dùng của phiên bản Databricks của bạn và chọn tab Mã thông báo truy cập]
Truy xuất dữ liệu từ Databricks
Để chèn dữ liệu vào Databricks, trước tiên bạn cần truy xuất dữ liệu từ bảng Databricks mà bạn muốn thêm vào. Điều này liên kết bảng tính Excel với bảng Databricks đã chọn. Sau khi bạn truy xuất dữ liệu, mọi thay đổi bạn thực hiện đối với dữ liệu sẽ được đánh dấu bằng màu đỏ
- Nhấp vào nút Từ Databricks trên dải băng CData. Trình hướng dẫn chọn dữ liệu được hiển thị
- Trong menu Bảng hoặc Dạng xem, chọn bảng Khách hàng
- Trong menu Hàng tối đa, chọn số hàng bạn muốn lấy. Nếu bạn muốn chèn hàng, bạn chỉ cần lấy một hàng. Sau đó, hộp Truy vấn sẽ hiển thị truy vấn SQL tương ứng với yêu cầu của bạn
- Trong hộp Tên trang tính, hãy nhập tên cho trang tính sẽ được điền. Theo mặc định, bổ trợ sẽ tạo một trang tính mới với tên của bảng
Chèn hàng vào Databricks
Sau khi lấy dữ liệu, bạn có thể thêm dữ liệu từ bảng tính có sẵn trong Excel
- Trong ô sau hàng cuối cùng, hãy nhập công thức tham chiếu đến ô tương ứng từ bảng tính khác; . A1.
- Sau khi sử dụng công thức để tham chiếu các ô bạn muốn thêm vào Databricks, hãy chọn các ô mà bạn đang chèn dữ liệu vào và kéo công thức xuống dưới nếu cần. Các giá trị được tham chiếu mà bạn muốn thêm sẽ được hiển thị trên trang Khách hàng.
- Đánh dấu các hàng bạn muốn chèn và nhấp vào nút Cập nhật hàng
Khi mỗi hàng được chèn vào, giá trị Id sẽ xuất hiện trong cột Id và văn bản của hàng sẽ chuyển sang màu đen, cho biết rằng bản ghi đã được chèn