Các biến ngẫu nhiên và các hàm phân phối khác nhau tạo thành nền tảng của Machine Learning
Mục lục
- Giới thiệu
- Biến ngẫu nhiên và các loại của nó
- PDF [hàm mật độ xác suất]
- PMF [Hàm khối xác suất]
- CDF [Hàm phân phối tích lũy]
- Ví dụ
- Đọc thêm
PDF và CDF là các kỹ thuật thường được sử dụng trong phân tích dữ liệu Khám phá để tìm mối quan hệ xác suất giữa các biến
Trước khi xem qua nội dung trong trang này, trước tiên hãy xem qua các khái niệm cơ bản như biến ngẫu nhiên, pmf, pdf và cdf
biến ngẫu nhiênBiến ngẫu nhiên là biến mà hàm số i chưa biết giá trị. e, giá trị phụ thuộc vào kết quả của thí nghiệm
Ví dụ, trong khi tung xúc xắc, giá trị biến phụ thuộc vào kết quả
Hầu hết các biến ngẫu nhiên được sử dụng để phân tích hồi quy nhằm xác định mối quan hệ thống kê giữa các biến. Có 2 loại biến ngẫu nhiên
1 — Biến ngẫu nhiên liên tục
2 — Biến ngẫu nhiên rời rạc
Biến ngẫu nhiên liên tục. - Biến có giá trị nằm trong khoảng/khoảng và có vô số cách nhận được gọi là Biến ngẫu nhiên liên tục. HOẶC các biến có giá trị thu được bằng cách đo được gọi là Biến ngẫu nhiên liên tục. cho e. g, Chiều cao trung bình của 100 người, đo lượng mưa
Biến ngẫu nhiên rời rạc. -Một biến có thể đếm được các giá trị riêng biệt. HOẶC các biến có giá trị nhận được bằng cách đếm được gọi là Biến ngẫu nhiên rời rạc. cho e. g, số học sinh có mặt trong lớp
PDF [Hàm mật độ xác suất]. -Công thức cho PDF
PDF là một thuật ngữ thống kê mô tả phân phối xác suất của biến ngẫu nhiên liên tục
PDF phổ biến nhất tuân theo Phân phối Gaussian. Nếu các tính năng/biến ngẫu nhiên được phân phối Gaussian thì PDF cũng tuân theo Phân phối Gaussian. Trên biểu đồ PDF, xác suất của một kết quả duy nhất luôn bằng 0, điều này xảy ra do một điểm duy nhất đại diện cho đường không bao phủ khu vực dưới đường cong
PMF [Hàm khối xác suất]. -
Quả sung. - Công thức cho PMF
PMF là một thuật ngữ thống kê mô tả phân phối xác suất của biến ngẫu nhiên rời rạc
Mọi người thường nhầm lẫn giữa PDF và PMF. PDF được áp dụng cho biến ngẫu nhiên liên tục trong khi PMF được áp dụng cho biến ngẫu nhiên rời rạc Đối với e. g, Tung xúc xắc [Bạn chỉ được chọn từ 1 đến 6 số [đếm được] ]
CDF [Hàm phân phối tích lũy]. -
Quả sung. - Công thức cho CDF
PMF là một cách để mô tả phân phối nhưng nó chỉ áp dụng cho các biến ngẫu nhiên rời rạc và không áp dụng cho các biến ngẫu nhiên liên tục. Hàm phân phối tích lũy được áp dụng để mô tả phân phối của các biến ngẫu nhiên là liên tục hoặc rời rạc
Ví dụ: nếu X là chiều cao của một người được chọn ngẫu nhiên thì F[x] là khả năng người đó thấp hơn x. Nếu F[180cm]=0. 8. thì có 80% khả năng một người được chọn ngẫu nhiên sẽ thấp hơn 1m80 [tương đương, 20% khả năng họ sẽ cao hơn 1m80]
Hướng dẫn này cung cấp một lời giải thích đơn giản về sự khác biệt giữa PDF [hàm mật độ xác suất] và CDF [hàm phân phối tích lũy] trong thống kêBiến ngẫu nhiên
Trước khi có thể định nghĩa PDF hoặc CDF, trước tiên chúng ta cần hiểu các biến ngẫu nhiên
Biến ngẫu nhiên, thường được ký hiệu là X, là biến có giá trị là kết quả bằng số của một quy trình ngẫu nhiên nào đó. Có hai loại biến ngẫu nhiên. rời rạc và liên tục
Biến ngẫu nhiên rời rạc
Một biến ngẫu nhiên rời rạc là một biến chỉ có thể nhận một số lượng đếm được các giá trị riêng biệt như 0, 1, 2, 3, 4, 5…100, 1 triệu, v.v. Một số ví dụ về các biến ngẫu nhiên rời rạc bao gồm
- Số lần đồng xu xuất hiện mặt sấp sau khi tung 20 lần
- Số lần xúc xắc rơi xuống số 4 sau khi lăn 100 lần
Biến ngẫu nhiên liên tục
Biến ngẫu nhiên liên tục là biến có thể nhận vô số giá trị có thể. Một số ví dụ về các biến ngẫu nhiên liên tục bao gồm
- Chiều cao của một người
- Trọng lượng của một con vật
- Thời gian cần thiết để chạy một dặm
Ví dụ, chiều cao của một người có thể là 60. 2 inch, 65. 2344 inch, 70. 431222 inch, v.v. Có vô số giá trị có thể có cho chiều cao
Quy tắc ngón tay cái. Nếu bạn có thể đếm số lượng kết quả, thì bạn đang làm việc với một biến ngẫu nhiên rời rạc [e. g. đếm số lần đồng xu xuất hiện mặt ngửa]. Nhưng nếu bạn có thể đo lường kết quả, thì bạn đang làm việc với một biến ngẫu nhiên liên tục [e. g. đo lường, chiều cao, cân nặng, thời gian, vv. ]
Hàm mật độ xác suất
Hàm mật độ xác suất [pdf] cho chúng ta biết xác suất mà một biến ngẫu nhiên nhận một giá trị nhất định
Ví dụ, giả sử chúng ta tung xúc xắc một lần. Nếu chúng ta đặt x biểu thị số mà xúc xắc rơi vào, thì hàm mật độ xác suất cho kết quả có thể được mô tả như sau
p[x < 1]. 0
P[x = 1]. 1/6
P[x = 2]. 1/6
P[x = 3]. 1/6
P[x = 4]. 1/6
P[x = 5]. 1/6
P[x = 6]. 1/6
P[x > 6]. 0
Lưu ý rằng đây là một ví dụ về biến ngẫu nhiên rời rạc, vì x chỉ có thể nhận các giá trị nguyên
Đối với một biến ngẫu nhiên liên tục, chúng ta không thể sử dụng PDF trực tiếp vì xác suất mà x nhận bất kỳ giá trị chính xác nào đều bằng không
Ví dụ: giả sử chúng ta muốn biết xác suất để một chiếc bánh mì kẹp thịt từ một nhà hàng cụ thể nặng một phần tư pound [0. 25 lbs]. Vì trọng số là một biến liên tục nên nó có thể nhận vô số giá trị
Ví dụ: một chiếc bánh mì kẹp thịt nhất định có thể thực sự nặng 0. 250001 bảng, hoặc 0. 24 pound, hoặc 0. 2488 bảng Anh. Xác suất mà một chiếc bánh mì kẹp thịt đã cho có trọng lượng chính xác. 25 pounds về cơ bản là số không
Hàm phân phối tích lũy
Hàm phân phối tích lũy [cdf] cho chúng ta biết xác suất mà một biến ngẫu nhiên nhận giá trị nhỏ hơn hoặc bằng x
Ví dụ, giả sử chúng ta tung xúc xắc một lần. Nếu chúng ta đặt x biểu thị số mà xúc xắc rơi vào, thì hàm phân phối tích lũy cho kết quả có thể được mô tả như sau
P[x ≤ 0]. 0
P[x ≤ 1]. 1/6
P[x ≤ 2]. 2/6
P[x ≤ 3]. 3/6
P[x ≤ 4]. 4/6
P[x ≤ 5]. 5/6
P[x ≤ 6]. 6/6
P[x > 6]. 0
Lưu ý rằng xác suất mà x nhỏ hơn hoặc bằng 6 là 6/6, tức là bằng 1. Điều này là do xúc xắc sẽ rơi vào 1, 2, 3, 4, 5 hoặc 6 với xác suất 100%
Ví dụ này sử dụng biến ngẫu nhiên rời rạc, nhưng hàm mật độ liên tục cũng có thể được sử dụng cho biến ngẫu nhiên liên tục
Các hàm phân phối tích lũy có các tính chất sau
- Xác suất để một biến ngẫu nhiên nhận giá trị nhỏ hơn giá trị nhỏ nhất có thể bằng không. Ví dụ: xác suất để xúc xắc rơi xuống giá trị nhỏ hơn 1 bằng không
- Xác suất để một biến ngẫu nhiên nhận giá trị nhỏ hơn hoặc bằng giá trị lớn nhất có thể là một. Ví dụ: xác suất để một con xúc xắc rơi vào giá trị 1, 2, 3, 4, 5 hoặc 6 là một. Nó phải hạ cánh trên một trong những con số đó
- cdf luôn không giảm. Tức là, xác suất để xúc xắc rơi vào một số nhỏ hơn hoặc bằng 1 là 1/6, xác suất để nó rơi vào một số nhỏ hơn hoặc bằng 2 là 2/6, xác suất để nó rơi vào một số . Xác suất tích lũy luôn không giảm
Có liên quan. Bạn có thể sử dụng đồ thị ogive để trực quan hóa hàm phân phối tích lũy
Mối quan hệ giữa CDF và PDF
Về mặt kỹ thuật, hàm mật độ xác suất [pdf] là đạo hàm của hàm phân phối tích lũy [cdf].
Ngoài ra, diện tích dưới đường cong của pdf giữa vô cực âm và x bằng với giá trị của x trên cdf
Để được giải thích sâu hơn về mối quan hệ giữa pdf và cdf, cùng với bằng chứng tại sao pdf là dẫn xuất của cdf, hãy tham khảo sách giáo khoa thống kê