programming python

Sự khác biệt giữa pdf và cdf trong python là gì?

Các biến ngẫu nhiên và các hàm phân phối khác nhau tạo thành nền tảng của Machine Learning

Mục lục

Giới thiệu
Biến ngẫu nhiên và các loại của nó
PDF [hàm mật độ xác suất]
PMF [Hàm khối xác suất]
CDF [Hàm phân phối tích lũy]
Ví dụ
Đọc thêm

Giới thiệu

PDF và CDF là các kỹ thuật thường được sử dụng trong phân tích dữ liệu Khám phá để tìm mối quan hệ xác suất giữa các biến

Trước khi xem qua nội dung trong trang này, trước tiên hãy xem qua các khái niệm cơ bản như biến ngẫu nhiên, pmf, pdf và cdf

biến ngẫu nhiên

Biến ngẫu nhiên là biến mà hàm số i chưa biết giá trị. e, giá trị phụ thuộc vào kết quả của thí nghiệm

Ví dụ, trong khi tung xúc xắc, giá trị biến phụ thuộc vào kết quả

Hầu hết các biến ngẫu nhiên được sử dụng để phân tích hồi quy nhằm xác định mối quan hệ thống kê giữa các biến. Có 2 loại biến ngẫu nhiên

1 — Biến ngẫu nhiên liên tục

2 — Biến ngẫu nhiên rời rạc

Biến ngẫu nhiên liên tục. - Biến có giá trị nằm trong khoảng/khoảng và có vô số cách nhận được gọi là Biến ngẫu nhiên liên tục. HOẶC các biến có giá trị thu được bằng cách đo được gọi là Biến ngẫu nhiên liên tục. cho e. g, Chiều cao trung bình của 100 người, đo lượng mưa

Biến ngẫu nhiên rời rạc. -Một biến có thể đếm được các giá trị riêng biệt. HOẶC các biến có giá trị nhận được bằng cách đếm được gọi là Biến ngẫu nhiên rời rạc. cho e. g, số học sinh có mặt trong lớp

PDF [Hàm mật độ xác suất]. -

Công thức cho PDF

PDF là một thuật ngữ thống kê mô tả phân phối xác suất của biến ngẫu nhiên liên tục

PDF phổ biến nhất tuân theo Phân phối Gaussian. Nếu các tính năng/biến ngẫu nhiên được phân phối Gaussian thì PDF cũng tuân theo Phân phối Gaussian. Trên biểu đồ PDF, xác suất của một kết quả duy nhất luôn bằng 0, điều này xảy ra do một điểm duy nhất đại diện cho đường không bao phủ khu vực dưới đường cong

PMF [Hàm khối xác suất]. -

Quả sung. - Công thức cho PMF

PMF là một thuật ngữ thống kê mô tả phân phối xác suất của biến ngẫu nhiên rời rạc

Mọi người thường nhầm lẫn giữa PDF và PMF. PDF được áp dụng cho biến ngẫu nhiên liên tục trong khi PMF được áp dụng cho biến ngẫu nhiên rời rạc Đối với e. g, Tung xúc xắc [Bạn chỉ được chọn từ 1 đến 6 số [đếm được] ]

CDF [Hàm phân phối tích lũy]. -

Quả sung. - Công thức cho CDF

PMF là một cách để mô tả phân phối nhưng nó chỉ áp dụng cho các biến ngẫu nhiên rời rạc và không áp dụng cho các biến ngẫu nhiên liên tục. Hàm phân phối tích lũy được áp dụng để mô tả phân phối của các biến ngẫu nhiên là liên tục hoặc rời rạc

Ví dụ: nếu X là chiều cao của một người được chọn ngẫu nhiên thì F[x] là khả năng người đó thấp hơn x. Nếu F[180cm]=0. 8. thì có 80% khả năng một người được chọn ngẫu nhiên sẽ thấp hơn 1m80 [tương đương, 20% khả năng họ sẽ cao hơn 1m80]

Hướng dẫn này cung cấp một lời giải thích đơn giản về sự khác biệt giữa PDF [hàm mật độ xác suất] và CDF [hàm phân phối tích lũy] trong thống kê

Biến ngẫu nhiên

Trước khi có thể định nghĩa PDF hoặc CDF, trước tiên chúng ta cần hiểu các biến ngẫu nhiên

Biến ngẫu nhiên, thường được ký hiệu là X, là biến có giá trị là kết quả bằng số của một quy trình ngẫu nhiên nào đó. Có hai loại biến ngẫu nhiên. rời rạc và liên tục

Biến ngẫu nhiên rời rạc

Một biến ngẫu nhiên rời rạc là một biến chỉ có thể nhận một số lượng đếm được các giá trị riêng biệt như 0, 1, 2, 3, 4, 5…100, 1 triệu, v.v. Một số ví dụ về các biến ngẫu nhiên rời rạc bao gồm

Số lần đồng xu xuất hiện mặt sấp sau khi tung 20 lần
Số lần xúc xắc rơi xuống số 4 sau khi lăn 100 lần

Biến ngẫu nhiên liên tục

Biến ngẫu nhiên liên tục là biến có thể nhận vô số giá trị có thể. Một số ví dụ về các biến ngẫu nhiên liên tục bao gồm

Chiều cao của một người
Trọng lượng của một con vật
Thời gian cần thiết để chạy một dặm

Ví dụ, chiều cao của một người có thể là 60. 2 inch, 65. 2344 inch, 70. 431222 inch, v.v. Có vô số giá trị có thể có cho chiều cao

Quy tắc ngón tay cái. Nếu bạn có thể đếm số lượng kết quả, thì bạn đang làm việc với một biến ngẫu nhiên rời rạc [e. g. đếm số lần đồng xu xuất hiện mặt ngửa]. Nhưng nếu bạn có thể đo lường kết quả, thì bạn đang làm việc với một biến ngẫu nhiên liên tục [e. g. đo lường, chiều cao, cân nặng, thời gian, vv. ]

Hàm mật độ xác suất

Hàm mật độ xác suất [pdf] cho chúng ta biết xác suất mà một biến ngẫu nhiên nhận một giá trị nhất định

Ví dụ, giả sử chúng ta tung xúc xắc một lần. Nếu chúng ta đặt x biểu thị số mà xúc xắc rơi vào, thì hàm mật độ xác suất cho kết quả có thể được mô tả như sau

p[x < 1]. 0

P[x = 1]. 1/6

P[x = 2]. 1/6

P[x = 3]. 1/6

P[x = 4]. 1/6

P[x = 5]. 1/6

P[x = 6]. 1/6

P[x > 6]. 0

Lưu ý rằng đây là một ví dụ về biến ngẫu nhiên rời rạc, vì x chỉ có thể nhận các giá trị nguyên

Đối với một biến ngẫu nhiên liên tục, chúng ta không thể sử dụng PDF trực tiếp vì xác suất mà x nhận bất kỳ giá trị chính xác nào đều bằng không

Ví dụ: giả sử chúng ta muốn biết xác suất để một chiếc bánh mì kẹp thịt từ một nhà hàng cụ thể nặng một phần tư pound [0. 25 lbs]. Vì trọng số là một biến liên tục nên nó có thể nhận vô số giá trị

Ví dụ: một chiếc bánh mì kẹp thịt nhất định có thể thực sự nặng 0. 250001 bảng, hoặc 0. 24 pound, hoặc 0. 2488 bảng Anh. Xác suất mà một chiếc bánh mì kẹp thịt đã cho có trọng lượng chính xác. 25 pounds về cơ bản là số không

Hàm phân phối tích lũy

Hàm phân phối tích lũy [cdf] cho chúng ta biết xác suất mà một biến ngẫu nhiên nhận giá trị nhỏ hơn hoặc bằng x

Ví dụ, giả sử chúng ta tung xúc xắc một lần. Nếu chúng ta đặt x biểu thị số mà xúc xắc rơi vào, thì hàm phân phối tích lũy cho kết quả có thể được mô tả như sau

P[x ≤ 0]. 0

P[x ≤ 1]. 1/6

P[x ≤ 2]. 2/6

P[x ≤ 3]. 3/6

P[x ≤ 4]. 4/6

P[x ≤ 5]. 5/6

P[x ≤ 6]. 6/6

P[x > 6]. 0

Lưu ý rằng xác suất mà x nhỏ hơn hoặc bằng 6 là 6/6, tức là bằng 1. Điều này là do xúc xắc sẽ rơi vào 1, 2, 3, 4, 5 hoặc 6 với xác suất 100%

Ví dụ này sử dụng biến ngẫu nhiên rời rạc, nhưng hàm mật độ liên tục cũng có thể được sử dụng cho biến ngẫu nhiên liên tục

Các hàm phân phối tích lũy có các tính chất sau

Xác suất để một biến ngẫu nhiên nhận giá trị nhỏ hơn giá trị nhỏ nhất có thể bằng không. Ví dụ: xác suất để xúc xắc rơi xuống giá trị nhỏ hơn 1 bằng không
Xác suất để một biến ngẫu nhiên nhận giá trị nhỏ hơn hoặc bằng giá trị lớn nhất có thể là một. Ví dụ: xác suất để một con xúc xắc rơi vào giá trị 1, 2, 3, 4, 5 hoặc 6 là một. Nó phải hạ cánh trên một trong những con số đó
cdf luôn không giảm. Tức là, xác suất để xúc xắc rơi vào một số nhỏ hơn hoặc bằng 1 là 1/6, xác suất để nó rơi vào một số nhỏ hơn hoặc bằng 2 là 2/6, xác suất để nó rơi vào một số . Xác suất tích lũy luôn không giảm

Có liên quan. Bạn có thể sử dụng đồ thị ogive để trực quan hóa hàm phân phối tích lũy

Mối quan hệ giữa CDF và PDF

Về mặt kỹ thuật, hàm mật độ xác suất [pdf] là đạo hàm của hàm phân phối tích lũy [cdf].

Ngoài ra, diện tích dưới đường cong của pdf giữa vô cực âm và x bằng với giá trị của x trên cdf

Để được giải thích sâu hơn về mối quan hệ giữa pdf và cdf, cùng với bằng chứng tại sao pdf là dẫn xuất của cdf, hãy tham khảo sách giáo khoa thống kê

Sự khác biệt giữa PDF và CDF là gì?

Hàm mật độ xác suất [PDF] so với Hàm phân phối tích lũy [CDF] CDF là xác suất mà các giá trị biến ngẫu nhiên nhỏ hơn hoặc bằng x trong khi PDF là xác suất mà a . .

PDF và CDF trong Python là gì?

CDF là hàm mật độ tích lũy được sử dụng cho các loại biến liên tục. Mặt khác, PDF là hàm mật độ xác suất cho cả biến rời rạc và biến liên tục .

Mối quan hệ giữa PDF và CDF là gì?

PDF chỉ đơn giản là dẫn xuất của CDF . Do đó, PDF cũng là một hàm của một biến ngẫu nhiên, x, và độ lớn của nó sẽ là một dấu hiệu nào đó về khả năng tương đối của việc đo một giá trị cụ thể. Vì nó là hệ số góc của CDF nên PDF phải luôn dương; .

CDF trong Python là gì?

A hàm phân phối tích lũy [CDF] cho chúng ta biết xác suất mà một biến ngẫu nhiên nhận một giá trị nhỏ hơn hoặc bằng một giá trị nào đó. Hướng dẫn này giải thích cách tính toán và vẽ các giá trị cho CDF thông thường trong Python.