Snowpark cho Python Hiện đã phổ biến

Một giải pháp kết hợp các gói máy học và dữ liệu của Anaconda vào Đám mây dữ liệu của Snowflake, Snowpark cho Python, gần đây đã được Snowflake và Anaconda cung cấp rộng rãi

Tích hợp gốc mới này, có sẵn trong bản xem trước công khai từ tháng 6, cho phép các nhà khoa học dữ liệu Python, kỹ sư dữ liệu, nhà phát triển và nhà phân tích tạo ra các đường dẫn dữ liệu và quy trình máy học trực tiếp bên trong Snowflake

Theo Snowflake, Python đang vượt qua SQL về mức độ phổ biến trong thế giới dữ liệu và mục tiêu chính của Snowpark cho Python là thúc đẩy lợi ích của việc hợp tác giữa SQL và Python mà không cần quản lý cơ sở hạ tầng phức tạp cho các ngôn ngữ riêng biệt

Snowpark cho Python Hiện đã phổ biến

Nguồn. bông tuyết

Những thứ sau đây được các doanh nghiệp liệt kê là Snowpark cho các khả năng của Python

  • Chạy quy trình công việc Python an toàn mà không cần sao chép hoặc di chuyển dữ liệu
  • Snowflake cung cấp quyền truy cập trực tiếp vào các gói Python nguồn mở phổ biến nhất, bao gồm NumPy, scikit-learning, SciPy, pandas, TensorFlow, v.v.
  • Tăng tốc quy trình công việc dựa trên Python bằng cách sử dụng quản lý phụ thuộc của Anaconda và các gói được xây dựng an toàn chạy bên trong công cụ xử lý an toàn của Snowflake
  • Tạo đường dẫn dữ liệu sản xuất và quy trình khoa học dữ liệu bằng thư viện Python do Anaconda chọn hoạt động trong hộp cát an toàn bên trong Snowflake

Các nhà khoa học dữ liệu đã nói rằng việc có thể sử dụng ngôn ngữ lập trình ưa thích của họ bên trong cơ sở dữ liệu đã thay đổi cuộc chơi kể từ khi chúng tôi công bố bản xem trước công khai của Anaconda trong Snowpark cho Python vào tháng 6, theo Peter Wang, Giám đốc điều hành và đồng tác giả. "Người dùng Snowflake có thể làm việc hiệu quả hơn với các công cụ máy học tiên tiến đồng thời đáp ứng nhu cầu quản trị tổ chức;”

Do tính chất riêng biệt của dữ liệu, mã hóa bằng nhiều ngôn ngữ có thể làm tăng rủi ro bảo mật. Một nhà nghiên cứu của Snowpark cho biết: "Quyền truy cập liền mạch của người dùng Snowpark vào kho lưu trữ gói được quản lý của Anaconda giúp giải quyết hai trong số những thách thức lớn nhất mà các nhà khoa học dữ liệu phải đối mặt khi sử dụng phần mềm nguồn mở". Anaconda đã nêu trong một bản phát hành rằng người dùng phải tuân thủ các tiêu chuẩn InfoSec và quản lý các gói phụ thuộc trong môi trường máy tính của họ

Snowpark cho Python Hiện đã phổ biến

Snowflake và Snowpark bản địa để tích hợp Python. NguồnAnaconda

Là người đóng góp đáng kể cho các dự án nguồn mở mong muốn, Snowflake đặt mục tiêu mang lại sự đổi mới nguồn mở cấp doanh nghiệp cho Đám mây dữ liệu Snowflake. Torsten Grabs, giám đốc quản lý sản phẩm của Snowflake cho biết: “Bằng cách nhúng kho lưu trữ và trình quản lý gói của Anaconda vào công cụ Snowflake, các nhà khoa học dữ liệu và kỹ sư có thể sử dụng các gói nguồn mở phổ biến nhất mà không cần phải sao chép hoặc di chuyển dữ liệu”. ”

Theo Snowflake, tính khả dụng chung của Snowpark dành cho Python mới chỉ là bước khởi đầu vì công ty đang tích cực bổ sung chức năng để đáp ứng các đề xuất từ ​​cộng đồng trên bảng ý tưởng Snowflake và Anaconda. Kể từ khi xem trước công khai, ví dụ về các gói được thêm vào bao gồm Prophet, PyNomaly, Datasketch, h3-py, Gensim, email_validator, PyPDF2 và tzdata, trong số những gói khác. Công ty sẽ tiếp tục thêm các gói vào kho lưu trữ hiện có hơn 2.000 gói có sẵn trong kênh Snowflake. Trong tương lai, Snowflake dự định cung cấp các hàm tổng hợp do người dùng định nghĩa, hỗ trợ Python 3. 9 trở lên và cho phép kiểm soát truy cập gói chính xác hơn

Ngoài ra, Snowflake đã tiết lộ bản xem trước công khai của kho được tối ưu hóa cho Snowpark, tuyên bố rằng mỗi nút của tùy chọn mới cung cấp bộ nhớ nhiều hơn 16 lần và bộ nhớ đệm gấp 10 lần so với kho thông thường. Theo Snowflake, điều này sẽ cho phép các hoạt động sử dụng nhiều bộ nhớ như phân tích thống kê, chuyển đổi kỹ thuật tính năng, đào tạo mô hình và suy luận cho các tập dữ liệu lớn, đồng thời cho phép đào tạo ML trong Snowflake

Snowflake và Anaconda gần đây đã công bố tính khả dụng rộng rãi của Snowpark cho Python, một giải pháp nhúng dữ liệu của Anaconda và các gói máy học trong Đám mây dữ liệu của Snowflake

Trước đây đã có trong bản xem trước công khai kể từ tháng 6, tích hợp gốc mới này dành cho cộng đồng Python gồm các nhà khoa học dữ liệu, kỹ sư dữ liệu, nhà phát triển và nhà phân tích muốn xây dựng các đường dẫn dữ liệu và quy trình máy học trực tiếp trong Snowflake

Snowflake cho biết Python đang bắt kịp SQL về mức độ phổ biến trong thế giới dữ liệu và động lực chính đằng sau Snowpark cho Python là thúc đẩy giá trị của SQL và Python hoạt động cùng nhau mà không cần quản lý cơ sở hạ tầng phức tạp cho các ngôn ngữ riêng biệt

Snowpark cho Python Hiện đã phổ biến

Nguồn. bông tuyết

Các công ty liệt kê các khả năng của Snowpark cho Python như sau

  • Chạy quy trình công việc dựa trên Python an toàn mà không cần sao chép hoặc di chuyển dữ liệu
  • Truy cập các gói Python nguồn mở phổ biến nhất như NumPy, scikit-learning, SciPy, pandas, TensorFlow và các gói khác trong Snowflake mà không cần cài đặt thủ công
  • Tăng tốc quy trình công việc dựa trên Python chạy bên trong công cụ xử lý an toàn của Snowflake với quản lý phụ thuộc của Anaconda và các gói được xây dựng an toàn
  • Xây dựng đường ống dữ liệu sản xuất và quy trình công việc khoa học dữ liệu với các thư viện Python do Anaconda quản lý chạy trong hộp cát an toàn bên trong Snowflake

“Kể từ khi chúng tôi công bố bản xem trước công khai của Anaconda trong Snowpark cho Python vào tháng 6 này, các nhà khoa học dữ liệu đã nói với chúng tôi rằng khả năng sử dụng ngôn ngữ lập trình yêu thích của họ trực tiếp bên trong cơ sở dữ liệu đã thay đổi cuộc chơi,” Peter Wang, Giám đốc điều hành và đồng tác giả cho biết. . “Người dùng Snowflake có thể làm việc hiệu quả hơn với các công cụ máy học tiên tiến đồng thời đáp ứng nhu cầu quản trị tổ chức; . ”

Mã hóa bằng nhiều ngôn ngữ có thể dẫn đến rủi ro bảo mật cao do dữ liệu bị tắt. “Quyền truy cập liền mạch của người dùng Snowpark vào kho lưu trữ gói được quản lý của Anaconda giúp giải quyết hai trong số những thách thức lớn nhất mà các nhà khoa học dữ liệu phải đối mặt khi sử dụng phần mềm nguồn mở. Đáp ứng các tiêu chuẩn của InfoSec và quản lý các gói phụ thuộc trong môi trường máy tính của họ,” Anaconda cho biết trong một bản phát hành

Snowpark cho Python Hiện đã phổ biến

Snowpark để tích hợp riêng với Python với Snowflake. Nguồn. Trăn Anaconda

Torsten Grabs, giám đốc quản lý sản phẩm của Snowflake cho biết: “Là người đóng góp chính cho các dự án nguồn mở, Snowflake muốn mang lại sự đổi mới nguồn mở cấp doanh nghiệp cho Snowflake Data Cloud. “Bằng cách nhúng kho lưu trữ và trình quản lý gói của Anaconda vào công cụ Snowflake, các nhà khoa học và kỹ sư dữ liệu có thể sử dụng các gói nguồn mở phổ biến nhất mà không cần sao chép hoặc di chuyển dữ liệu. ”

Snowflake cho biết GA của Snowpark dành cho Python mới chỉ là bước khởi đầu. Công ty đang tích cực mở rộng chức năng dựa trên phản hồi của cộng đồng từ bảng ý tưởng Snowflake và Anaconda. Công ty sẽ tiếp tục thêm các gói vào kho lưu trữ hiện có hơn 2.000 gói có sẵn trong kênh Snowflake. Kể từ khi xem trước công khai, các gói ví dụ được thêm vào bao gồm Prophet, PyNomaly, Datasketch, h3-py, Gensim, email_validator, PyPDF2 và tzdata, trong số những gói khác. Trong tương lai, Snowflake có kế hoạch bổ sung hỗ trợ cho Python 3. 9 trở lên, cung cấp các chức năng tổng hợp do người dùng xác định và cấp khả năng kiểm soát truy cập gói chi tiết hơn

Snowflake cũng đã công bố bản xem trước công khai của các kho được tối ưu hóa cho Snowpark. Công ty tuyên bố rằng mỗi nút của tùy chọn kho mới cung cấp bộ nhớ gấp 16 lần và bộ đệm gấp 10 lần so với kho tiêu chuẩn. Snowflake cho biết điều này sẽ mở khóa đào tạo ML bên trong Snowflake cho các bộ dữ liệu lớn và cho phép các hoạt động sử dụng nhiều bộ nhớ như phân tích thống kê, chuyển đổi kỹ thuật tính năng, đào tạo mô hình và suy luận

Hôm nay, chúng tôi rất vui mừng thông báo về việc cung cấp rộng rãi API Snowpark cho Scala và Java UDF trên AWS. Snowpark là khung dành cho nhà phát triển cho Snowflake, mang đến khả năng lập trình dữ liệu sâu, tích hợp ngôn ngữ cho người dùng bằng ngôn ngữ họ yêu thích.  

Về cốt lõi, Snowpark là tất cả về khả năng mở rộng. Nó được thiết kế để cho phép các kỹ sư dữ liệu, nhà khoa học dữ liệu và các nhà phát triển khác làm việc với dữ liệu hiệu quả và hiệu quả hơn bằng các ngôn ngữ lập trình và công cụ mà họ lựa chọn, bao gồm Scala, Python (trong bản xem trước riêng tư) và Java, sử dụng các cấu trúc lập trình quen thuộc như DataFrames. Và nó được xây dựng để di chuyển công việc đó đến ngay nơi chứa dữ liệu. trong công cụ tính toán an toàn, có thể mở rộng của Snowflake

Mục tiêu của chúng tôi là loại bỏ các đường dẫn dữ liệu không hiệu quả và tối ưu hóa các quy trình cũng như tác vụ mà các công ty có thể đang sử dụng chỉ để đưa mọi người vào cùng một trang (dữ liệu). Cuối cùng, Snowpark cho phép các nhóm có bộ kỹ năng khác nhau cộng tác và làm việc trên cùng một dữ liệu, xử lý dữ liệu nhanh hơn và dễ dàng hơn, đồng thời ưu tiên hàng đầu cho việc quản trị và bảo mật dữ liệu. Nó cũng mở ra khả năng truy cập và thao tác dữ liệu cho cộng đồng nhà phát triển, kỹ sư dữ liệu và nhà khoa học dữ liệu rộng lớn hơn

Kể từ khi chúng tôi giới thiệu bản xem trước Snowpark vào tháng 6 năm 2021, nhiều khách hàng và đối tác của Snowflake đã sử dụng công cụ này để xây dựng các giải pháp cho nhiều nhiệm vụ quan trọng. Ví dụ: một số khách hàng đang tận dụng Snowpark để phát hiện PII; . Nhiều công ty đang sử dụng Snowpark để đưa các mô hình học máy mà họ đã tích hợp vào Snowflake để chúng có thể được vận hành dễ dàng hơn. Và các đối tác của chúng tôi cũng đã nhảy vào vấn đề này thông qua. Chương trình tăng tốc Snowpark

GA này chỉ là một sự khởi đầu. Kể từ khi Snowflake lần đầu tiên bắt đầu mời những người dùng đầu tiên làm việc trong Snowpark trong bản xem trước công khai của chúng tôi, chúng tôi cũng đã mở rộng hỗ trợ của mình. Chúng tôi đã thêm Java UDTF và hỗ trợ cho cả đám mây của Google và Microsoft vào bản xem trước công khai của chúng tôi. Và chúng tôi có rất nhiều tính năng trong bản xem trước giới hạn mà chúng tôi sẽ mở ra trong tương lai gần, bao gồm các thủ tục được lưu trữ, hỗ trợ ghi nhật ký và hỗ trợ xử lý tệp phi cấu trúc. Và vâng, chúng tôi cũng có Python trong đường ống (hiện đang ở chế độ xem trước riêng tư)

“IQVIA cung cấp sức mạnh cho ngành chăm sóc sức khỏe và khoa học đời sống bằng cách kết nối dữ liệu và dịch vụ để đưa ra quyết định thông minh. Mohit Sauhta, Giám đốc Kiến trúc sư CNTT tại IQVIA cho biết, khả năng mở rộng và bảo mật của Snowflake rất phù hợp với các yêu cầu của chúng tôi và API DataFrame của Snowpark cũng như hỗ trợ mã Java tùy chỉnh rất mạnh mẽ để chuyển đổi dữ liệu. “Snowpark sẽ cho phép chúng tôi hiện đại hóa và hợp nhất các quy trình kỹ thuật dữ liệu của mình, đơn giản hóa kiến ​​trúc của chúng tôi bằng cách chuyển đổi dễ dàng từ Spark và cho phép nhóm kỹ thuật dữ liệu của chúng tôi tiếp tục làm việc với giao diện phát triển ưa thích của họ, API DataFrame với tính năng đánh giá lười biếng, bất chấp việc thay đổi các nền tảng cơ bản. ”

Sauhta cho biết: “Đây là giải pháp đôi bên cùng có lợi, giảm thời gian tìm hiểu thông tin chi tiết cho khách hàng của chúng tôi đồng thời giúp chúng tôi quản lý các quy trình dễ dàng hơn và rẻ hơn”. “Chúng tôi rất vui khi thấy các tính năng này chuyển sang GA và mong muốn mở khóa nhiều trường hợp sử dụng hơn với Snowpark trong tương lai. ”

Công viên tuyết có sẵn không?

8, 2022 – Anaconda Inc. , nhà cung cấp nền tảng khoa học dữ liệu phổ biến nhất thế giới, đã thông báo rằng Snowpark cho Python, ứng dụng nhúng dữ liệu của Anaconda và các gói máy học trong Đám mây dữ liệu của Snowflake, đã bước vào trạng thái Sẵn có chung (GA).

Làm cách nào để cài đặt Snowpark Python?

Cài đặt gói Snowpark Python vào Python 3. 8 môi trường ảo bằng cách sử dụng conda hoặc pip. .
conda cài đặt snowflake-snowpark-python
pip cài đặt bông tuyết-snowpark-python
conda cài đặt gấu trúc snowflake-snowpark-python
cài đặt pip "bông tuyết-snowpark-python [gấu trúc]"

Làm thế nào để bạn có được Snowpark?

Bắt đầu với Snowpark .
Tổng quan. .
Tải xuống kho lưu trữ. .
Định cấu hình cài đặt để kết nối với Snowflake. .
Kết nối với bông tuyết. .
Tải tệp dữ liệu và thư viện lên các giai đoạn nội bộ. .
Chạy bản trình diễn UDF. .
Tải dữ liệu từ một giai đoạn và tạo DataFrame. .
Xác định một UDF

Snowpark hỗ trợ những ngôn ngữ nào?

Một nền tảng, tất cả người dùng .
Phát triển các đường dẫn dữ liệu linh hoạt với sự hỗ trợ cho các ngôn ngữ lập trình phổ biến, chẳng hạn như Scala, Java và Python
Viết mã trong Môi trường phát triển tích hợp (IDE) mà bạn lựa chọn và thực hiện xử lý dữ liệu trong Snowflake với khả năng kéo xuống