Cách đọc file Excel trong Databricks

Các tệp dữ liệu lớn hơn thường được lưu trữ ở định dạng văn bản, định dạng csv. Nhưng tệp Excel tôi. e. Tệp XLSX cũng vẫn là một định dạng lưu trữ quan trọng, vì nó cũng có thể lưu các định dạng và các tính năng khác cùng với dữ liệu. Nhập tệp Excel trong Pyspark đôi khi có thể là một thử thách khó khăn. Chúng tôi đang chia sẻ hướng dẫn từng bước về cách đọc tệp Excel trong Pyspark. Kích thước tệp của tệp XLSX không quá lớn vì tệp thường chứa lượng dữ liệu hạn chế. Nó hữu ích trong việc lưu trữ các tệp báo cáo và không phải là định dạng lưu trữ dữ liệu

Emma có sẵn tập dữ liệu Nhân viên ở định dạng XLSX. Có sẵn hai trang tính và cô ấy phải nhập “Data_Sheet2” từ tệp

Cách đọc file Excel trong Databricks

Dưới đây là các bước chính để Emma làm theo để nhập tệp Excel trong Pyspark

  • Bước 1. Nhập tất cả các mô-đun cần thiết như Pandas. Đồng thời thiết lập SparkContext và SQLContext như hình bên dưới
import pandas as pd
 import findspark
 findspark.init()
 import pyspark
from pyspark import SparkContext
 from pyspark.sql import SQLContext 
 sc = SparkContext("local", "App Name")
 sql = SQLContext(sc)
  • Bước 2. Đọc tệp Excel dưới dạng Pandas Dataframe, tham khảo liên kết để thực hiện tương tự. Để minh họa, dưới đây là cú pháp
df2 = pd.read_excel("C:\Website\LearnEasySteps\Python\Excel_File_Data.xlsx",sheet_name="Data_Sheet2")
  • Bước 3. Chuyển đổi Pandas Dataframe thành Pyspark Dataframe, tham khảo liên kết để thực hiện tương tự
df2=sql.createDataFrame(df2) 
  • Bước 4. Kiểm tra một số hàng của tệp để đảm bảo mọi thứ đều ổn. Sử dụng lệnh show() để xem các hàng trên cùng của Khung dữ liệu Pyspark
df2.show()
Cách đọc file Excel trong Databricks
To get top certifications in Pyspark and build your resume visit here. Additionally, you can read books listed here to build strong knowledge around Pyspark.

Ghé thăm chúng tôi dưới đây để xem video hướng dẫn

 Looking to practice more with this example? Drop us a note, we will email you the Code file: 

Tên của bạn

Email của bạn

Tin nhắn của bạn (tùy chọn)

Phần bổ trợ CData Excel cho Databricks cho phép bạn chỉnh sửa và lưu dữ liệu Databricks trực tiếp từ Excel. Bài viết hướng dẫn cách chuyển dữ liệu từ Excel sang Databricks. Kỹ thuật này hữu ích nếu bạn muốn làm việc trên dữ liệu Databricks trong Excel và cập nhật các thay đổi hoặc nếu bạn có toàn bộ bảng tính mà bạn muốn nhập vào Databricks. Trong ví dụ này, bạn sẽ sử dụng bảng Khách hàng;

Thiết lập kết nối

Nếu bạn chưa làm như vậy, hãy tạo một kết nối Databricks mới bằng cách nhấp vào From Databricks trên ruy-băng

Để kết nối với cụm Databricks, hãy đặt các thuộc tính như được mô tả bên dưới

Ghi chú. Bạn có thể tìm thấy các giá trị cần thiết trong phiên bản Databricks của mình bằng cách điều hướng đến Cụm và chọn cụm mong muốn, đồng thời chọn tab JDBC/ODBC trong Tùy chọn nâng cao

  • Người phục vụ. Đặt thành Tên máy chủ của cụm Databricks của bạn
  • Đường dẫn HTTP. Đặt thành Đường dẫn HTTP của cụm Databricks của bạn
  • Mã thông báo. Đặt thành mã thông báo truy cập cá nhân của bạn (có thể nhận được giá trị này bằng cách điều hướng đến trang Cài đặt người dùng của phiên bản Databricks của bạn và chọn tab Mã thông báo truy cập)

Truy xuất dữ liệu từ Databricks

Để chèn dữ liệu vào Databricks, trước tiên bạn cần truy xuất dữ liệu từ bảng Databricks mà bạn muốn thêm vào. Điều này liên kết bảng tính Excel với bảng Databricks đã chọn. Sau khi bạn truy xuất dữ liệu, mọi thay đổi bạn thực hiện đối với dữ liệu sẽ được đánh dấu bằng màu đỏ

  1. Nhấp vào nút Từ Databricks trên dải băng CData. Trình hướng dẫn chọn dữ liệu được hiển thị
  2. Trong menu Bảng hoặc Dạng xem, chọn bảng Khách hàng
  3. Trong menu Hàng tối đa, chọn số hàng bạn muốn lấy. Nếu bạn muốn chèn hàng, bạn chỉ cần lấy một hàng. Sau đó, hộp Truy vấn sẽ hiển thị truy vấn SQL tương ứng với yêu cầu của bạn
  4. Trong hộp Tên trang tính, hãy nhập tên cho trang tính sẽ được điền. Theo mặc định, bổ trợ sẽ tạo một trang tính mới với tên của bảng

Chèn hàng vào Databricks

Sau khi lấy dữ liệu, bạn có thể thêm dữ liệu từ bảng tính có sẵn trong Excel

  1. Trong ô sau hàng cuối cùng, hãy nhập công thức tham chiếu đến ô tương ứng từ bảng tính khác; . A1.
  2. Sau khi sử dụng công thức để tham chiếu các ô bạn muốn thêm vào Databricks, hãy chọn các ô mà bạn đang chèn dữ liệu vào và kéo công thức xuống dưới nếu cần. Các giá trị được tham chiếu mà bạn muốn thêm sẽ được hiển thị trên trang Khách hàng.
  3. Đánh dấu các hàng bạn muốn chèn và nhấp vào nút Cập nhật hàng

Khi mỗi hàng được chèn vào, giá trị Id sẽ xuất hiện trong cột Id và văn bản của hàng sẽ chuyển sang màu đen, cho biết rằng bản ghi đã được chèn

Làm cách nào để đọc tệp trong Databricks bằng Python?

fs, bạn phải sử dụng tệp. / để đọc từ hệ thống tệp cục bộ tệp %fs ls. /tmp %fs tập tin mkdirs. /tmp/my_local_dir dbutils. fs. ls("tệp. /tmp/") dbutils. fs. đặt ("tệp. /tmp/my_new_file", "Đây là tệp trên nút trình điều khiển cục bộ. ")

Làm cách nào để chuyển đổi XLSX sang CSV trong pyspark?

Các bước chuyển đổi XLSX sang CSV qua Python .
Tải tệp XLSX với phiên bản Sổ làm việc
Gọi sổ làm việc. phương thức lưu
Truyền đường dẫn đầu ra với tiện ích mở rộng CSV làm tham số
Kiểm tra đường dẫn được chỉ định cho tệp CSV kết quả

Làm cách nào để chuyển đổi XLSX sang CSV?

Lưu bảng tính Excel dưới dạng tệp CSV .
Trong bảng tính Excel của bạn, hãy nhấp vào Tệp
Nhấp vào Lưu dưới dạng
Nhấp vào Duyệt để chọn nơi bạn muốn lưu tệp của mình
Chọn "CSV" từ menu thả xuống "Lưu dưới dạng"
Nhấp vào để lưu