Trong bài viết này, chúng ta sẽ khám phá một trong những phân phối thống kê cơ bản mà mọi Nhà khoa học dữ liệu nên biết. phân phối lũy thừa
Tóm lại, Phân phối hàm mũ suy ra xác suất thời gian chờ đợi giữa các sự kiện. Ví dụ: thời gian chờ đợi cho đến khi ai đó đưa ra yêu cầu bảo hiểm
nguồn gốcĐể thực sự hiểu Phân phối Hàm mũ, chúng ta cần bắt đầu với Quy trình Poisson. Quá trình Poisson được sử dụng để mô tả một quá trình đếm trong đó các sự kiện xảy ra ngẫu nhiên nhưng với tốc độ nhất định. Ví dụ: quay lại kịch bản yêu cầu bảo hiểm, chúng tôi biết rằng chúng tôi có 5 yêu cầu mỗi giờ nhưng những yêu cầu đó xảy ra ngẫu nhiên trong khung thời gian đó. Chúng có thể cách đều nhau hoặc tất cả vào phút chót
Quá trình Poisson được đặc trưng bởi Phân phối Poisson có Hàm khối lượng xác suất [PMF]
Hình ảnh được tạo trong LaTeX bởi tác giả
Trong đó X là biến ngẫu nhiên là số sự kiện xảy ra trong một khoảng thời gian nhất định và λ là số sự kiện dự kiến trong khoảng thời gian đó
Chuyển sang ví dụ tương tự về khiếu nại của chúng tôi, chúng tôi có khoảng thời gian là 1 giờ với khoảng 5 khiếu nại dự kiến sẽ xảy ra trong khoảng thời gian đó. Xác suất để có 1 yêu cầu là gì?
Rất nhỏ
Nếu chúng ta vẽ sơ đồ PMF cho Phân phối Poisson này bằng Python
# import packages
from scipy.stats import poisson
import numpy as np
import matplotlib.pyplot as plt
# random variable
x = np.arange[0, 15]
# poisson distribution
y = poisson.pmf[x, mu=5]
# plotting
plt.figure[figsize=[9,5]]
plt.plot[x, y, marker='o', color='black']
plt.xlabel['Random Variable X', fontsize=14]
plt.ylabel['Probability', fontsize=14]
plt.xticks[fontsize=14]
plt.yticks[fontsize=14]
plt.show[]
Cốt truyện được tạo bằng Python bởi tác giả
Chúng tôi thấy xác suất cao nhất là tại x = 5, điều này có ý nghĩa trực quan vì đó là con số dự kiến
Ghi chú. Bạn có thể lấy Phân phối Poisson từ Phân phối nhị thức. Có một bài viết tuyệt vời mà tôi đã liên kết ở đây sẽ đưa bạn qua sự phát sinh này
Điều này có liên quan gì đến Phân phối Hàm mũ?
Nguồn gốcPhân phối hàm mũ cho chúng ta biết xác suất thời gian chờ đợi giữa các sự kiện trong Quy trình Poisson. Đọc giữa các dòng, điều này có nghĩa là trong khoảng thời gian nhất định không có sự kiện nào xảy ra
Bây giờ, đây chỉ là một khoảng thời gian, tuy nhiên, chúng tôi khái quát hóa điều này thành khoảng thời gian t. Do đó, chúng ta phải chờ T khoảng thời gian để có được sự kiện đầu tiên
Hình ảnh được tạo trong LaTeX bởi tác giả
Điều này có nghĩa không?
Mặt khác, xác suất để một sự kiện xảy ra là
Hình ảnh được tạo trong LaTeX bởi tác giả
Đây cũng là định nghĩa của Hàm phân phối tích lũy [CDF]
Đạo hàm của CDF là Hàm mật độ xác suất [PDF]
Hình ảnh được tạo trong LaTeX bởi tác giả
Ghi chú. PDF dành cho các biến ngẫu nhiên liên tục trong khi PMF dành cho các biến ngẫu nhiên rời rạc
Và như vậy, chúng ta đã suy ra Phân phối Hàm mũ
Thí dụHãy vẽ biểu đồ Phân phối theo cấp số nhân cho ví dụ về yêu cầu bảo hiểm của chúng tôi. Chúng tôi có tỷ lệ trung bình là 5 yêu cầu mỗi giờ, tương đương với thời gian chờ trung bình là 12 phút giữa các yêu cầu
Đây cũng là giá trị kỳ vọng hoặc giá trị trung bình, E[X], của Phân phối Hàm mũ chỉ bằng 1/λ. Điều này có thể được hiển thị bằng cách sử dụng Hàm tạo khoảnh khắc mà tôi đã viết trong bài viết trước tại đây
# generate data
x = np.arange[0, 2, 0.1]
y = 5 * np.exp[-5*x]# plot
plt.figure[figsize=[9,5]]
plt.plot[x, y, marker='o', color='black']
plt.xlabel['Random Variable X [Time in Hours]', fontsize=14]
plt.ylabel['PDF', fontsize=14]
plt.xticks[fontsize=14]
plt.yticks[fontsize=14]
plt.savefig['plot1.png']
plt.show[]
Cốt truyện được tạo bằng Python bởi tác giả
Bây giờ xác suất yêu cầu đầu tiên xảy ra trong vòng một giờ là bao nhiêu?
Hình ảnh được tạo trong LaTeX bởi tác giả
Vì vậy, xác suất là khá cao, điều này hợp lý vì chúng tôi dự kiến thời gian chờ trung bình giữa các yêu cầu là 12 phút
Phần kết luậnTrong bài viết này, chúng tôi đã mô tả Phân phối theo cấp số nhân và cách nó được bắt nguồn. Nói một cách đơn giản, nó đo xác suất thời gian chờ đợi giữa các sự kiện trong Quy trình Poisson