Scikit-learning cheat sheet pdf

Thường thì phần khó nhất trong việc giải quyết vấn đề học máy có thể là tìm công cụ ước tính phù hợp cho công việc

Các công cụ ước tính khác nhau phù hợp hơn với các loại dữ liệu khác nhau và các vấn đề khác nhau

Sơ đồ bên dưới được thiết kế để cung cấp cho người dùng một chút hướng dẫn sơ bộ về cách tiếp cận các vấn đề liên quan đến việc thử công cụ ước tính nào trên dữ liệu của bạn

Nếu bạn cảm thấy khó nhớ tất cả các lệnh khác nhau để thực hiện các thao tác khác nhau trong Scikit Learn thì đừng lo lắng, bạn không đơn độc, điều này xảy ra thường xuyên hơn bạn nghĩ

Tải xuống bản PDF có thể in được của bảng cheat này

Python Scikit-Learn Cheat Sheet

Tại Intellipaat, chúng tôi đảm bảo rằng người học của chúng tôi tận dụng tốt nhất các dịch vụ học trực tuyến của chúng tôi và đó chính xác là lý do tại sao chúng tôi đã đưa ra Bảng lừa đảo Sklearn này để hỗ trợ người học của mình, trong trường hợp họ cần một tài liệu tham khảo hữu ích để giúp họ có được

Bảng gian lận này đã được thiết kế với giả định rằng bạn có kiến ​​thức cơ bản về python và máy học nhưng cần một tài liệu tham khảo nhanh để chuyển sang khi bạn cần tra cứu các lệnh trong Scikit

Tìm hiểu thêm về Scikit-Learn Cheat Sheet

Scikit Tìm hiểu là gì?

Scikit-Learn hay “sklearn“ là thư viện máy học mã nguồn mở, miễn phí dành cho ngôn ngữ lập trình Python. Đây là một công cụ đơn giản nhưng hiệu quả để khai thác dữ liệu, Phân tích dữ liệu và Học máy. Nó có nhiều thuật toán học máy khác nhau và cũng hỗ trợ các thư viện số và khoa học của Python, đó là SciPy và NumPy tương ứng. Quay lại học Python cho tất cả các chủ đề khác

Certification in Full Stack Web Development

Công ước nhập khẩu

Trước khi bạn có thể bắt đầu sử dụng Python Scikit-learning, bạn cần nhớ rằng đó là một thư viện Python và bạn cần nhập nó. Để làm điều đó, tất cả những gì bạn phải làm là gõ lệnh sau

import sklearn 

Sơ chế

Quá trình chuyển đổi tập dữ liệu thô thành tập dữ liệu sạch và có ý nghĩa được gọi là Tiền xử lý dữ liệu. Đây là kỹ thuật 'phải tuân theo' trước khi bạn có thể cung cấp tập dữ liệu của mình cho thuật toán máy học. Có ba bước chủ yếu bạn cần thực hiện trong khi tiền xử lý dữ liệu. Các bước được liệt kê dưới đây

1. Đang tải dữ liệu

Bạn cần dữ liệu của mình ở dạng số được lưu trữ trong mảng số. Sau đây là hai cách bạn có thể tải dữ liệu, bạn cũng có thể sử dụng một số mảng số khác để tải dữ liệu của mình

Sử dụng NumPy

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)

2. Dữ liệu Train-Test

Bước tiếp theo là chia dữ liệu của bạn trong tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm

>>>from sklearn.model_selection import train_test_split
>>>X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=0)

3. Chuẩn bị dữ liệu

tiêu chuẩn hóa. Nó làm cho quá trình đào tạo hoạt động tốt, cải thiện điều kiện số của các vấn đề tối ưu hóa

>>>from sklearn.preprocessing import StandardScaler
>>>get_names = df.columns
>>>scaler = preprocessing.StandardScaler()
>>>scaled_df = scaler.fit_transform(df)
>>>scaled_df = pd.DataFrame(scaled_df, columns=get_names)

bình thường hóa. Nó làm cho việc đào tạo ít nhạy cảm hơn với quy mô của các tính năng, đồng thời làm cho dữ liệu được điều hòa tốt hơn để hội tụ

>>>from sklearn.preprocessing import Normalizer
>>>pd.read_csv("File_name.csv")
>>>x_array = np.array(df[‘Column1’])#Normalize Column1
>>>normalized_X = preprocessing.normalize([x_array])

Become a Full Stack Web Developer

Làm việc trên một mô hình

Sau khi thực hiện tất cả các chuyển đổi cần thiết trong tập dữ liệu của chúng tôi, để làm cho nó sẵn sàng cho thuật toán, chúng tôi cần làm việc trên mô hình của mình, nghĩa là chọn một mô hình hoặc thuật toán chính xác đại diện cho tập dữ liệu của chúng tôi và sẽ giúp chúng tôi đưa ra loại dự đoán

Chọn người mẫu

  • Công cụ ước tính học tập có giám sát

Học có giám sát, đúng như tên gọi, là loại học máy trong đó chúng tôi giám sát kết quả bằng cách đào tạo mô hình với dữ liệu được gắn nhãn rõ ràng, có nghĩa là một số dữ liệu trong tập dữ liệu sẽ được gắn thẻ với các câu trả lời đúng

a. hồi quy tuyến tính

>>> from sklearn.linear_model import LinearRegression
>>>new_lr = LinearRegression(normalize=True)

b. Máy véc tơ hỗ trợ

>>>from sklearn.svm import SVC
>>>new_svc = SVC(kernel='linear')

c. Naive Bayes

________số 8

d. KNN

>>>from sklearn import neighbors
>>>knn=neighbors.KNeighborsClassifier(n_neighbors=1)
  • Công cụ ước tính học tập không giám sát

Không giống như Học có giám sát, học không giám sát là nơi chúng tôi huấn luyện mô hình với dữ liệu không được gắn nhãn hoặc dữ liệu không được phân loại và để thuật toán thực hiện tất cả công việc trên tập dữ liệu đó mà không cần bất kỳ sự trợ giúp nào.
a. Phân tích thành phần chính (PCA).

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
0

b. K có nghĩa là

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
1

lắp mô hình

Mục tiêu của việc triển khai khớp mô hình là để tìm hiểu xem một mô hình sẽ khái quát hóa tốt như thế nào khi được đào tạo với tập dữ liệu tương tự như tập dữ liệu mà mô hình được đào tạo ban đầu trên đó. Mô hình phù hợp hơn sẽ tạo ra kết quả chính xác hơn

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
2____13

Certification in Full Stack Web Development

hậu xử lý

Sau khi cảm thấy thoải mái với tập dữ liệu và mô hình của chúng tôi, bước tiếp theo là cuối cùng tuân theo mục tiêu chính của thuật toán học máy, đó là dự đoán kết quả và đưa ra dự đoán

Sự dự đoán

Sau khi hoàn tất việc chọn và điều chỉnh mô hình, bạn có thể đưa ra dự đoán trên tập dữ liệu của mình.
Được giám sát

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
4
import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
5

Đánh giá màn trình diễn

Đánh giá hiệu suất dự đoán của mô hình của bạn là cần thiết. Có nhiều kỹ thuật trong học máy có thể được sử dụng để sắp xếp các bộ phân loại và trực quan hóa hiệu suất của chúng. Sau đây là các công nghệ đã nói

phân loại

a. Ma trận hỗn loạn

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
6

b. Điểm chính xác

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
7

hồi quy

a. Có nghĩa là lỗi tuyệt đối

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
8

b. Có nghĩa là lỗi bình phương

import numpy as np
>>>a=np.array([(1,2,3,4),(7,8,9,10)],dtype=int)
>>>data = np.loadtxt('file_name.csv', delimiter=',')
9

c. Điểm R²

>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)
0

phân cụm

a. đồng nhất

>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)
1

b. thước đo chữ V

>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)
2

c. xác thực chéo

>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)
3

Điều chỉnh mô hình

Đây là bước cuối cùng khi triển khai học máy, trước khi trình bày kết quả cuối cùng. Trong Điều chỉnh mô hình, các mô hình được tham số hóa để hành vi của chúng được điều chỉnh cho một vấn đề nhất định. Điều này được thực hiện bằng cách tìm kiếm bộ tham số phù hợp và chúng tôi chủ yếu có hai cách để thực hiện điều đó

Trong Grid search, việc điều chỉnh tham số được thực hiện một cách có phương pháp và sau đó nó đánh giá mô hình cho từng bộ tham số được chỉ định trong lưới

>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)
4
  • Tối ưu hóa tham số ngẫu nhiên

Trong Tìm kiếm ngẫu nhiên, tìm kiếm ngẫu nhiên được thực hiện trên một bộ tham số cố định. Số lượng tham số được sử dụng được đưa ra bởi n-iter

>>>import pandas as pd
>>>df=pd.read_csv(‘file_name.csv’,header=0)
5

Với điều này, đến cuối bảng gian lận Sklearn này. Bạn có thể đăng ký Khóa đào tạo chứng chỉ Python do Intellipaat cung cấp để có kiến ​​thức chi tiết và chuyên sâu. Chương trình đào tạo này sẽ hướng dẫn bạn từng bước sẽ cung cấp cho bạn tất cả các bộ kỹ năng phù hợp để thành thạo một trong những ngôn ngữ phổ biến và được sử dụng rộng rãi nhất, Python. Không chỉ vậy, bạn cũng sẽ có được kiến ​​thức về tất cả các thư viện và mô-đun quan trọng trong python, chẳng hạn như SciPy, NumPy, MatPlotLib, Scikit-learning, Pandas, hàm Lambda, v.v. Ngoài ra, Intellipaat sẽ hỗ trợ bạn các câu hỏi phỏng vấn python miễn phí bởi các chuyên gia. Bạn sẽ được hỗ trợ kỹ thuật 24*7 và hỗ trợ từ các chuyên gia về các công nghệ tương ứng tại intellipaat trong suốt thời gian chứng nhận