programming python

Cơ hội Python 20

Khi học thống kê cho khoa học dữ liệu, chắc chắn bạn sẽ phải học về xác suất. Thật dễ dàng đánh mất chính mình trong các công thức và lý thuyết đằng sau xác suất, nhưng nó có những ứng dụng thiết yếu trong cả công việc và cuộc sống hàng ngày. Trước đây chúng ta đã thảo luận về một số khái niệm cơ bản trong thống kê mô tả;

điều kiện tiên quyết

Tương tự như bài viết trước, bài viết này giả định không có kiến thức thống kê trước đó, nhưng yêu cầu ít nhất kiến thức chung về Python và quy trình khoa học dữ liệu chung. Nếu bạn không thoải mái với các vòng lặp và danh sách, tôi khuyên bạn nên trình bày ngắn gọn về chúng trong khóa học Python cơ bản của chúng tôi trước khi tiếp tục

Xác suất là gì?

Ở cấp độ cơ bản nhất, xác suất tìm cách trả lời câu hỏi, "Khả năng xảy ra một sự kiện là bao nhiêu?" . Để tính xác suất xảy ra của một sự kiện, chúng ta cũng cần xem xét tất cả các sự kiện khác có thể xảy ra. Đại diện tinh túy của xác suất là tung đồng xu khiêm tốn. Trong một lần tung đồng xu, các biến cố duy nhất có thể xảy ra là

Lật đầu
Lật một cái đuôi

Hai sự kiện này từ không gian mẫu, tập hợp tất cả các sự kiện có thể xảy ra. Để tính xác suất của một sự kiện xảy ra, chúng ta đếm số lần sự kiện quan tâm có thể xảy ra [chẳng hạn như lật ngửa] và chia cho không gian mẫu. Do đó, xác suất sẽ cho chúng ta biết rằng một đồng xu lý tưởng sẽ có xác suất 1 trong 2 là mặt ngửa hoặc mặt sấp. Bằng cách xem xét các sự kiện có thể xảy ra, xác suất cho chúng ta một khuôn khổ để đưa ra dự đoán về tần suất các sự kiện sẽ xảy ra. Tuy nhiên, mặc dù điều đó có vẻ hiển nhiên, nhưng nếu chúng ta thực sự cố gắng tung một số đồng xu, thì thỉnh thoảng chúng ta có thể nhận được số lượng mặt ngửa cao hoặc thấp bất thường. Nếu chúng ta không muốn đưa ra giả định rằng đồng xu là công bằng, thì chúng ta có thể làm gì? . Chúng ta có thể sử dụng số liệu thống kê để tính toán xác suất dựa trên các quan sát từ thế giới thực và kiểm tra xem nó so với lý tưởng như thế nào

Từ thống kê đến xác suất

Dữ liệu của chúng tôi sẽ được tạo bằng cách tung đồng xu 10 lần và đếm số lần chúng tôi nhận được mặt ngửa. Chúng tôi sẽ gọi một bộ 10 đồng xu tung thử. Điểm dữ liệu của chúng tôi sẽ là số lượng đầu chúng tôi quan sát. Chúng tôi có thể không nhận được 5 đầu “lý tưởng”, nhưng chúng tôi sẽ không quá lo lắng vì một lần dùng thử chỉ là một điểm dữ liệu. Nếu chúng tôi thực hiện nhiều, rất nhiều thử nghiệm, chúng tôi hy vọng số lượng mặt ngửa trung bình trong tất cả các thử nghiệm của chúng tôi sẽ đạt đến mức 50%. Đoạn mã dưới đây mô phỏng 10, 100, 1000 và 1000000 thử nghiệm, sau đó tính toán tỷ lệ mặt ngửa trung bình được quan sát. Quá trình của chúng tôi cũng được tóm tắt trong hình ảnh bên dưới


import random
def coin_trial[]:
heads = 0
for i in range[100]:
    if random.random[] >> 5.4
simulate[100]
>>> 4.83
simulate[1000]
>>> 5.055
simulate[1000000]
>>> 4.999781

Hàm coin_trial là hàm mô phỏng 10 lần tung đồng xu. Nó sử dụng hàm random[] để tạo số float từ 0 đến 1 và tăng số lượng heads của chúng tôi nếu nó nằm trong một nửa phạm vi đó. Sau đó, simulate lặp lại các thử nghiệm này tùy thuộc vào số lần bạn muốn, trả về số lượng mặt ngửa trung bình trong tất cả các thử nghiệm. Mô phỏng tung đồng xu cho chúng ta một số kết quả thú vị

Đầu tiên, dữ liệu xác nhận rằng số lượng mặt ngửa trung bình của chúng tôi đạt đến xác suất cho thấy nó phải là. Hơn nữa, mức trung bình này được cải thiện với nhiều thử nghiệm hơn. Trong 10 lần dùng thử sẽ có một số lỗi nhỏ nhưng lỗi này gần như biến mất hoàn toàn sau 1.000.000 lần dùng thử. Khi chúng tôi nhận được nhiều thử nghiệm hơn, độ lệch so với mức trung bình sẽ giảm. Nghe có vẻ quen? . Khi chúng tôi nhận được ngày càng nhiều dữ liệu, thế giới thực bắt đầu giống với thế giới lý tưởng

Do đó, được cung cấp đủ dữ liệu, số liệu thống kê cho phép chúng tôi tính toán xác suất bằng cách sử dụng các quan sát trong thế giới thực. Xác suất cung cấp lý thuyết, trong khi thống kê cung cấp các công cụ để kiểm tra lý thuyết đó bằng dữ liệu. Các thống kê mô tả, cụ thể là trung bình và độ lệch chuẩn, trở thành đại diện cho lý thuyết. Bạn có thể hỏi, "Tại sao tôi cần một proxy nếu tôi chỉ có thể tự tính toán xác suất lý thuyết?"

Cơ hội của một người nào đó phát triển bệnh theo thời gian là gì? . Với ngày càng nhiều dữ liệu, chúng ta có thể tự tin hơn rằng những gì chúng ta tính toán đại diện cho xác suất thực sự của những sự kiện quan trọng này xảy ra. Điều đó đang được nói, hãy nhớ từ bài đăng thống kê trước đây của chúng tôi rằng bạn là một sommelier đang được đào tạo. Bạn cần tìm ra loại rượu nào ngon hơn những loại khác trước khi bắt đầu mua chúng. Bạn có rất nhiều dữ liệu trong tay, vì vậy chúng tôi sẽ sử dụng số liệu thống kê của mình để hướng dẫn quyết định của chúng tôi

Dữ liệu và phân phối

Trước khi có thể giải quyết câu hỏi “rượu nào ngon hơn mức trung bình”, chúng ta phải lưu ý đến bản chất của dữ liệu của mình. Theo trực giác, chúng tôi muốn sử dụng điểm số của các loại rượu để so sánh các nhóm, nhưng có một vấn đề. điểm số thường nằm trong một phạm vi. Làm thế nào để chúng ta so sánh các nhóm điểm số giữa các loại rượu vang và biết chắc chắn rằng loại này tốt hơn loại kia? . Phân phối chuẩn đề cập đến một hiện tượng đặc biệt quan trọng trong lĩnh vực xác suất và thống kê. Phân phối bình thường trông như thế này.

Đặc điểm quan trọng nhất cần lưu ý về phân phối chuẩn là tính đối xứng và hình dạng của nó. Chúng tôi đã gọi nó là phân phối, nhưng chính xác thì cái gì đang được phân phối? . Trong xác suất, phân phối chuẩn là một phân phối cụ thể của xác suất trên tất cả các sự kiện. Trục x nhận các giá trị của các sự kiện mà chúng ta muốn biết xác suất của. Trục y là xác suất liên quan đến từng sự kiện, từ 0 đến 1

Chúng ta chưa thảo luận sâu về phân phối xác suất ở đây, nhưng biết rằng phân phối chuẩn là một loại phân phối xác suất đặc biệt quan trọng. Trong thống kê, đó là các giá trị của dữ liệu của chúng tôi đang được phân phối. Ở đây, trục x là giá trị của dữ liệu của chúng tôi và trục y là số lượng của từng giá trị này. Đây là bức tranh tương tự về phân phối chuẩn, nhưng được dán nhãn theo bối cảnh xác suất và thống kê.

Trong ngữ cảnh xác suất, điểm cao nhất trong phân phối chuẩn biểu thị sự kiện có xác suất xảy ra cao nhất. Khi bạn càng xa sự kiện này ở cả hai bên, xác suất sẽ giảm nhanh chóng, tạo thành hình chuông quen thuộc đó. Điểm cao trong bối cảnh thống kê thực sự đại diện cho giá trị trung bình. Có khả năng là, khi bạn đi xa hơn mức trung bình, bạn sẽ nhanh chóng giảm tần suất. Điều đó có nghĩa là, độ lệch cực cao và thấp so với giá trị trung bình là có nhưng cực kỳ hiếm

Nếu bạn nghi ngờ có một mối quan hệ khác giữa xác suất và thống kê thông qua phân phối chuẩn, thì bạn đã đúng khi nghĩ như vậy. Chúng ta sẽ khám phá mối quan hệ quan trọng này ở phần sau của bài viết, vì vậy hãy giữ chặt. Vì chúng tôi sẽ sử dụng phân phối điểm số để so sánh các loại rượu khác nhau, nên chúng tôi sẽ thực hiện một số thiết lập để nắm bắt một số loại rượu mà chúng tôi quan tâm. Chúng tôi sẽ đưa dữ liệu về rượu vào và sau đó tách riêng điểm số của một số loại rượu mà chúng tôi quan tâm. Để mang lại dữ liệu, chúng tôi cần đoạn mã sau

import csv
with open["wine-data.csv", "r", encoding="latin-1"] as f:
    wines = list[csv.reader[f]]

Dữ liệu được hiển thị dưới đây ở dạng bảng. Chúng tôi cần cột points, vì vậy chúng tôi sẽ trích xuất cột này vào danh sách riêng của nó. Chúng tôi đã nghe từ một chuyên gia về rượu vang rằng rượu vang Tokaji của Hungary rất tuyệt vời, trong khi một người bạn gợi ý rằng chúng tôi nên bắt đầu với Lambrusco của Ý. Chúng tôi có dữ liệu để so sánh các loại rượu này. Nếu bạn không nhớ dữ liệu trông như thế nào, đây là bảng nhanh để tham khảo và làm quen lại

indexcountrydescriptiondesignationpointspriceprovinceregion_1region_2varietywinery0US“This tremendous 100%…”Martha's Vineyard96235CaliforniaNapa ValleyNapaCabernet SauvignonHeitz1Spain“Ripe aromas of fig…Carodorum Selecci Especial Reserva96110Northern SpainToroTinta de ToroBodega Carmen Rodriguez2US“Mac Watson honors…Special Selected Late Harvest9690CaliforniaKnights ValleySonomaSauvignon BlancMacauley3US“This spent 20 months…Reserve9665OregonWillamette ValleyWillamette ValleyPinot NoirPonzi4France“This


# Extract the Tokaji scores
tokaji = []
non_tokaji = []
for wine in wines:
    if points != '':
        points = wine[4]
    if wine[9] == "Tokaji":
    tokaji.append[float[points]]
    else:
        non_tokaji.append[points]
# Extract the Lambrusco scores
lambrusco = []
non_lambrusco = []
for wine in wines:
    if points != '':
        points = wine[4]
    if wine[9] == "Lambrusco":
        lambrusco.append[float[points]]
    else:
        non_lambrusco.append[float[points]]

Nếu chúng ta hình dung mỗi nhóm điểm là các phân phối chuẩn, chúng ta có thể biết ngay liệu hai phân phối có khác nhau hay không dựa trên vị trí của chúng. Nhưng chúng tôi sẽ nhanh chóng gặp vấn đề với cách tiếp cận này, như hình dưới đây. Chúng tôi cho rằng điểm số sẽ được phân phối bình thường vì chúng tôi có rất nhiều dữ liệu. Mặc dù giả định đó không sao ở đây, nhưng chúng ta sẽ thảo luận sau khi thực sự có thể nguy hiểm khi làm như vậy.

Khi hai bản phân phối điểm trùng nhau quá nhiều, có lẽ tốt hơn là giả sử bạn thực sự đến từ cùng một bản phân phối và không khác nhau. Ở một thái cực khác, không có sự trùng lặp, sẽ an toàn khi cho rằng các bản phân phối không giống nhau. rắc rối của chúng tôi nằm trong trường hợp của một số chồng chéo. Cho rằng các mức cực cao của một phân phối có thể giao nhau với các mức cực thấp của một phân phối khác, làm thế nào chúng ta có thể nói liệu các nhóm có khác nhau hay không?

Xem lại bình thường

Phân phối chuẩn có ý nghĩa đối với xác suất và thống kê nhờ hai yếu tố. định lý giới hạn trung tâm và quy tắc ba sigma

Định lý giới hạn trung tâm

Trong phần trước, chúng tôi đã chứng minh rằng nếu chúng tôi lặp lại thử nghiệm tung 10 lần nhiều lần, thì số lần ngửa trung bình của tất cả các thử nghiệm này sẽ đạt tới mức 50% mà chúng tôi mong đợi từ một đồng xu lý tưởng. Với nhiều thử nghiệm hơn, mức trung bình của các thử nghiệm này càng gần với xác suất thực, ngay cả khi bản thân các thử nghiệm riêng lẻ là không hoàn hảo. Ý tưởng này là một nguyên lý chính của Định lý giới hạn trung tâm. Trong ví dụ tung đồng xu của chúng tôi, một lần thử 10 lần tung sẽ tạo ra một ước tính duy nhất về xác suất gợi ý sẽ xảy ra [5 mặt ngửa]. Chúng tôi gọi đó là ước tính vì chúng tôi biết rằng nó sẽ không hoàn hảo [tôi. e. chúng tôi sẽ không nhận được 5 mặt ngửa mỗi lần]

Nếu chúng ta thực hiện nhiều ước tính, Định lý giới hạn trung tâm chỉ ra rằng phân phối của các ước tính này sẽ giống như một phân phối bình thường. Đỉnh cao của phân phối này sẽ phù hợp với giá trị thực mà các ước tính sẽ nhận được. Trong thống kê, đỉnh của đường phân phối chuẩn thẳng hàng với giá trị trung bình và đó chính xác là những gì chúng tôi quan sát được. Do đó, với nhiều “thử nghiệm” làm dữ liệu của chúng ta, Định lý Giới hạn Trung tâm gợi ý rằng chúng ta có thể trau dồi lý tưởng lý thuyết do xác suất đưa ra, ngay cả khi chúng ta không biết xác suất thực sự. Định lý giới hạn trung tâm cho chúng ta biết rằng trung bình của nhiều phép thử có nghĩa là sẽ tiệm cận với giá trị trung bình thực, Quy tắc Three Sigma sẽ cho chúng ta biết dữ liệu sẽ trải rộng bao nhiêu xung quanh giá trị trung bình này

Quy tắc ba Sigma

Quy luật Three Sigma hay còn gọi là quy luật thực nghiệm hay 68-95-99. 7, là biểu thức cho biết có bao nhiêu quan sát của chúng ta nằm trong một khoảng cách nhất định so với giá trị trung bình. Hãy nhớ rằng độ lệch chuẩn [a. k. a. “sigma”] là khoảng cách trung bình mà một quan sát trong tập dữ liệu tính từ giá trị trung bình. Quy tắc Three Sigma quy định rằng với phân phối bình thường, 68% quan sát của bạn sẽ nằm giữa một độ lệch chuẩn của giá trị trung bình. 95% sẽ giảm trong vòng hai và 99. 7% sẽ rơi vào vòng ba. Rất nhiều phép toán phức tạp liên quan đến việc tạo ra các giá trị này, và do đó, nằm ngoài phạm vi của bài viết này. Điều quan trọng cần biết là Quy tắc Ba Sigma cho phép chúng ta biết lượng dữ liệu được chứa trong các khoảng khác nhau của phân phối chuẩn. Hình ảnh dưới đây là một bản tóm tắt tuyệt vời về những gì mà Quy tắc 3 Sigma thể hiện.

Chúng tôi sẽ kết nối các khái niệm này trở lại với dữ liệu rượu của chúng tôi. Là một sommelier, chúng tôi muốn biết chắc chắn rằng Chardonnay và Pinot Noir phổ biến hơn rượu vang trung bình. Chúng tôi có hàng nghìn bài đánh giá về rượu, do đó, theo Định lý giới hạn trung tâm, điểm trung bình của những bài đánh giá này phải phù hợp với cái gọi là đại diện “đúng” về chất lượng của rượu [theo đánh giá của người đánh giá]. Mặc dù quy tắc Three Sigma là một tuyên bố về mức độ dữ liệu của bạn nằm trong các giá trị đã biết, nhưng nó cũng là một tuyên bố về sự hiếm có của các giá trị cực đoan. Bất kỳ giá trị nào vượt quá ba độ lệch chuẩn so với giá trị trung bình đều phải được xử lý thận trọng hoặc cẩn thận. Bằng cách tận dụng Quy tắc Three Sigma và chỉ số Z, cuối cùng chúng ta sẽ có thể quy định một giá trị về khả năng Chardonnay và Pinot Noir khác với rượu vang trung bình như thế nào

điểm Z

Điểm Z là một phép tính đơn giản trả lời câu hỏi, "Cho trước một điểm dữ liệu, nó cách xa giá trị trung bình bao nhiêu độ lệch chuẩn?" .

Bản thân điểm Z không cung cấp nhiều thông tin cho bạn. Nó đạt được nhiều giá trị nhất khi so sánh với bảng Z, bảng này lập bảng xác suất tích lũy của phân phối chuẩn chuẩn cho đến một điểm Z nhất định. Một tiêu chuẩn bình thường là một phân phối bình thường với giá trị trung bình là 0 và độ lệch chuẩn là 1. Điểm Z cho phép chúng tôi tham khảo bảng Z này ngay cả khi phân phối bình thường của chúng tôi không chuẩn. Xác suất tích lũy là tổng xác suất của tất cả các giá trị xảy ra, cho đến một điểm nhất định

Một ví dụ đơn giản là chính giá trị trung bình. Giá trị trung bình chính xác ở giữa của phân phối chuẩn, vì vậy chúng tôi biết rằng tổng của tất cả các xác suất nhận được các giá trị từ phía bên trái cho đến khi giá trị trung bình là 50%. Các giá trị từ Quy tắc Ba Sigma thực sự xuất hiện nếu bạn cố gắng tính xác suất tích lũy giữa các độ lệch chuẩn. Hình dưới đây cung cấp một hình dung về xác suất tích lũy.

Chúng ta biết rằng tổng của tất cả các xác suất phải bằng 100%, vì vậy chúng ta có thể sử dụng bảng Z để tính toán xác suất ở cả hai phía của chỉ số Z theo phân phối chuẩn.

Cách tính xác suất vượt qua một điểm Z nhất định này rất hữu ích cho chúng tôi. Nó cho phép chúng ta đặt câu hỏi đi từ “một giá trị cách giá trị trung bình bao xa” thành “giá trị này cách xa giá trị trung bình đến mức nào từ cùng một nhóm quan sát?” .


import numpy as np
tokaji_avg = np.average[tokaji]
lambrusco_avg = np.average[lambrusco]
tokaji_std = np.std[tokaji]
lambrusco = np.std[lambrusco]
# Let's see what the results are
print["Tokaji: ", tokaji_avg, tokaji_std]
print["Lambrusco: ", lambrusco_avg, lambrusco_std]
>>> Tokaji: 90.9 2.65015722804
>>> Lambrusco: 84.4047619048 1.61922267961

Điều này có vẻ không phù hợp với đề xuất của bạn bè bạn. Với mục đích của bài viết này, chúng tôi sẽ coi cả hai điểm số Tokaji và Lambrusco là phân phối bình thường. Như vậy, điểm trung bình của mỗi loại rượu sẽ thể hiện điểm “thật” của chúng về chất lượng. Chúng tôi sẽ tính điểm Z và xem mức trung bình của Tokaji cách Lambrusco bao xa


z = [tokaji_avg - lambrusco_avg] / lambrusco_std
>>> 4.0113309781438229
# We'll bring in scipy to do the calculation of probability from the Z-table
import scipy.stats as st
st.norm.cdf[z]
>>> 0.99996981130231266
# We need the probability from the right side, so we'll flip it!
1 - st.norm.cdf[z]
>>> 3.0188697687338895e-05

Câu trả lời là khá nhỏ, nhưng chính xác nó có nghĩa là gì? . Giả sử rằng chúng tôi tin rằng không có sự khác biệt giữa rượu Lambrusco của bạn mình và rượu Tokaji của chuyên gia rượu vang. Điều đó có nghĩa là, chúng tôi tin rằng chất lượng của Lambrusco và Tokaji là như nhau. Tương tự như vậy, do sự khác biệt cá nhân giữa các loại rượu vang, sẽ có một số chênh lệch về điểm số của những loại rượu này. Điều này sẽ tạo ra điểm số được phân phối bình thường nếu chúng ta tạo biểu đồ của rượu vang Tokaji và Lambrusco, nhờ Định lý giới hạn trung tâm

Bây giờ, chúng tôi có một số dữ liệu cho phép chúng tôi tính toán giá trị trung bình và độ lệch chuẩn của cả hai loại rượu được đề cập. Những giá trị này cho phép chúng tôi thực sự kiểm tra niềm tin của mình rằng Lambrusco và Tokaji có chất lượng tương tự nhau. Chúng tôi đã sử dụng điểm rượu vang Lambrusco làm cơ sở và so sánh mức trung bình của Tokaji, nhưng chúng tôi có thể dễ dàng thực hiện theo cách khác. Sự khác biệt duy nhất sẽ là điểm Z âm. Điểm Z là 4. 01. Hãy nhớ rằng Quy tắc Three Sigma cho chúng ta biết rằng 99. 7% dữ liệu phải nằm trong 3 độ lệch chuẩn, giả sử rằng Tokaji và Lambrusco tương tự nhau

Xác suất đạt điểm trung bình cao như của Tokaji trong một thế giới mà rượu vang Lambrusco và Tokaji được cho là giống nhau là rất, rất nhỏ. Nhỏ đến mức chúng ta buộc phải xem xét điều ngược lại. Rượu vang Tokaji khác với rượu vang Lambrusco và sẽ tạo ra sự phân bổ điểm số khác nhau. Chúng tôi đã chọn từ ngữ của chúng tôi ở đây một cách cẩn thận. Tôi cẩn thận để không nói, “Rượu Tokaji ngon hơn Lambrusco. ” Họ có khả năng cao là. Điều này là do chúng tôi đã tính toán một xác suất, mặc dù nhỏ về mặt vi mô, nhưng không bằng không. Nói một cách chính xác, chúng ta có thể nói rằng rượu vang Lambrusco và Tokaji chắc chắn không có cùng tỷ lệ phân phối, nhưng chúng ta không thể nói rằng loại này tốt hơn hoặc kém hơn loại kia

Loại lập luận này thuộc lĩnh vực thống kê suy luận và bài viết này chỉ cố gắng cung cấp cho bạn một phần giới thiệu ngắn gọn về cơ sở lý luận đằng sau nó. Chúng tôi đã đề cập đến rất nhiều khái niệm trong bài viết này, vì vậy nếu bạn thấy mình bị lạc, hãy quay lại và từ từ. Có khuôn khổ suy nghĩ này là vô cùng mạnh mẽ, nhưng dễ bị lạm dụng và hiểu lầm

Phần kết luận

Chúng tôi bắt đầu với thống kê mô tả và sau đó kết nối chúng với xác suất. Từ xác suất, chúng tôi đã phát triển một cách để hiển thị định lượng nếu hai nhóm đến từ cùng một phân phối. Trong trường hợp này, chúng tôi đã so sánh hai đề xuất về rượu vang và nhận thấy rằng rất có thể chúng không đến từ cùng một điểm phân phối. Nói cách khác, một loại rượu rất có thể tốt hơn loại kia. Thống kê không nhất thiết phải là một lĩnh vực chỉ dành cho các nhà thống kê. Là một nhà khoa học dữ liệu, việc có hiểu biết trực quan về các biện pháp thống kê phổ biến đại diện sẽ giúp bạn có lợi thế trong việc phát triển các lý thuyết của riêng mình và khả năng kiểm tra các lý thuyết này sau đó. Ở đây, chúng ta hầu như không tìm hiểu sơ qua về thống kê suy luận, nhưng những ý tưởng chung tương tự ở đây sẽ giúp hướng dẫn trực giác của bạn trong hành trình thống kê của mình. Bài viết của chúng tôi đã thảo luận về những ưu điểm của phân phối bình thường, nhưng các nhà thống kê cũng đã phát triển các kỹ thuật để điều chỉnh các phân phối không bình thường

Đọc thêm

Bài viết này xoay quanh phân phối chuẩn và mối liên hệ của nó với thống kê và xác suất. Nếu bạn muốn đọc về các bản phân phối có liên quan khác hoặc tìm hiểu thêm về thống kê suy luận, vui lòng tham khảo các tài nguyên bên dưới

Phân phối T của sinh viên. khi chúng tôi chỉ có một vài điểm dữ liệu
Tìm hiểu sâu hơn về thử nghiệm giả thuyết và thống kê suy luận
Đi sâu vào thống kê với Python

Nhận tài nguyên khoa học dữ liệu miễn phí

Đăng ký miễn phí để nhận bản tin hàng tuần của chúng tôi với các liên kết tài nguyên khoa học dữ liệu, Python, R và SQL. Ngoài ra, bạn có quyền truy cập vào nội dung khóa học trực tuyến tương tác miễn phí của chúng tôi

ĐĂNG KÝ

rượu mới bắt đầu định lý giới hạn trung tâm xác suất thực phẩm và đồ uống trăn giải trísố liệu thống kêquy tắc ba sigmaHướng dẫnđiểm số winezđiểm số z

Giới thiệu về tác giả

Christian pascual

Christian là nghiên cứu sinh tiến sĩ ngành thống kê sinh học ở California. Anh ấy thích làm cho số liệu thống kê và lập trình dễ tiếp cận hơn với nhiều đối tượng hơn. Ngoài giờ học, anh ấy thích đi tập thể dục, học ngôn ngữ và chế biến gỗ