Bài tập phân bố phối đều liên tục

TÓM TẮT: Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá dữ liệu và khám phá tri thức. Trong mấy năm gần đây, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ (Fuzzy Rough Set FRS) nhằm nâng cao độ chính xác mô hình phân lớp. Tuy nhiên, số lượng thuộc tính thu được theo tiếp cận FRS chưa tối ưu do ràng buộc giữa các đối tượng trong bảng quyết định chưa được xem xét đầy đủ. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ trực cảm (Intuitionistic Fuzzy Rough Set IFRS) dựa trên các đề xuất mới về hàm thành viên và không thành viên. Kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính của tập rút gọn theo phương pháp đề xuất giảm đáng kể so với các phương pháp FRS và một số phương pháp IFRS khác.

Văn học Việt Nam nửa đầu thế kỉ XX được xem là giai đoạn “giao thời”, với sự đấu tranh giữa thơ Cũ và thơ Mới, giữa truyền thống và cách tân, tồn tại nhiều khuynh hướng, dòng phái khác nhau. Từ góc độ thể loại, không ít người cho đây là thời điểm thơ tự do thắng thế, thơ Đường luật nói chung bị xem là hết mùa, lỗi thời. Song vẫn còn đó một minh chứng hùng hồn cho sự hiện diện của thơ Nôm Đường luật Việt Nam ở nửa đầu thế kỉ XX, đó là Nôm Đường luật Phan Bội Châu. Bài viết trên cơ sở chỉ ra một vài đặc điểm về ngôn ngữ trong thơ Nôm Đường luật Phan Bội Châu thời kỳ ở Huế, từ đó cho thấy những đổi mới, cách tân của Phan Sào Nam trong việc sử dụng thể thơ truyền thống của dân tộc.

Công trình này công bố kết quả nghiên cứu cấu trúc, độ bền và bản chất liên kết hóa học của các cluster silic pha tạp Si2M với M là một số kim loại hóa trị I bằng phương pháp phiếm hàm mật độ tại mức lý thuyết B3P86/6-311+G(d). Theo kết quả thu được, đồng phân bền của các cluster pha tạp Si2M có cấu trúc tam giác cân, đối xứng C2v và tồn tại hai trạng thái giả suy biến có cùng độ bội spin (A1 và B1). Kết quả thu được cho thấy liên kết Si-M được hình thành chủ yếu từ sự chuyển electron từ AO-s của các nguyên tử Li, Na, K, Cu, Cr sang khung Si2 và sự xen phủ của các AO-d của nguyên tử Cu, Cr với AO của khung Si2. Kết quả nghiên cứu các cluster Si2M (M là Li, Na, K, Cu, Cr) cho ra kết luận rằng cluster Si2Cr là bền nhất.

Việc khảo sát, đánh giá về kiểu hình cũng như kiểu gen là cần thiết nhằm làm tăng hiệu quả cho quá trình nhận dạng, phát triển và chọn tạo giống mới đối với cây trồng. Nguồn gen thuộc một số dòng bơ đã qua chọn lọc để canh tác được thu thập từ một số nơi trong địa bàn tỉnh Lâm Đồng để phân tích đa dạng di truyền và nhận dạng giống. Đặc điểm sơ bộ về hình thái quả và năng suất của 11 dòng bơ tiềm năng đã được ghi nhận để hỗ trợ cho cơ sở dữ liệu nhận dạng dòng. Với đặc trưng nhận dạng DNA thu nhận được với 10 mồi ISSR, chúng tôi thu được tổng số 125 band điện di trên gel để tiến hành phân tích đa dạng di truyền tập hợp 11 mẫu khảo sát đại diện cho 11 dòng trên, kết quả cho thấy: tập hợp mẫu có mức dị hợp trông đợi (chỉ số đa dạng gene) đạt He = h = 0,3072, chỉ số Shannon đạt: I = 0,4608, tỷ lệ band đa hình: PPB = 91,84%. Cũng sử dụng 10 mồi ISSR như trên, từ đặc trưng nhận dạng DNA của 18 mẫu đại diện cho 6 dòng bơ tiềm năng (mỗi dòng 3 mẫu), dựa trên sự xuất hiện hay thiếu vắng các ...

Lúc này ta đã hiểu cách làm việc với xác suất cho biến ngẫu nhiên rời rạc và liên tục, hãy làm quen với một số phân phối xác suất thường gặp. Tùy thuộc vào lĩnh vực học máy, ta có thể phải làm quen với nhiều phân phối hơn, hoặc đối với một số lĩnh vực trong học sâu thì có khả năng sẽ không gặp. Tuy nhiên, ta vẫn nên biết các phân phối cơ bản. Đầu tiên hãy nhập một số thư viện phổ biến.

%matplotlib inline from d2l import mxnet as d2l from IPython import display from math import erf, factorial import numpy as np

18.8.1. Phân phối Bernoulli

Đây là phân phối thường gặp đơn giản nhất. Giả sử khi tung một đồng xu, biến ngẫu nhiên \(X\) tuân theo phân phối này lấy giá trị mặt ngửa\(1\) với xác suất \(p\) và mặt sấp \(0\) với xác suất\(1-p\). Ta viết:

(18.8.1)\[X \sim \mathrm{Bernoulli}(p).\]

Hàm phân phối tích lũy là:

(18.8.2)\[\begin{split}F(x) = \begin{cases} 0 & x < 0, \\ 1-p & 0 \le x < 1, \\ 1 & x >= 1 . \end{cases}\end{split}\]

Hàm khối xác suất (probability mass function) được minh họa dưới đây:

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

Bây giờ, hãy vẽ đồ thị cho hàm phân phối tích lũy .

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

Nếu \(X \sim \mathrm{Bernoulli}(p)\), thì:

  • \(\mu_X = p\),
  • \(\sigma_X^2 = p(1-p)\).

Ta có thể lấy mẫu một mảng có kích thước tùy ý từ một biến ngẫu nhiên Bernoulli như sau:

1*(np.random.rand(10, 10) < p)

array([[0, 1, 1, 0, 0, 1, 1, 0, 0, 1],

   [1, 0, 0, 0, 0, 0, 0, 1, 1, 1],
   [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
   [0, 0, 0, 1, 0, 1, 0, 1, 1, 0],
   [0, 0, 0, 0, 1, 0, 0, 0, 0, 1],
   [0, 1, 0, 0, 0, 0, 0, 0, 0, 1],
   [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
   [1, 1, 1, 0, 0, 0, 0, 1, 1, 0],
   [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
   [0, 0, 1, 0, 0, 0, 0, 1, 1, 0]])

18.8.2. Phân phối Đều Rời rạc

Biến ngẫu nhiên thường gặp tiếp theo là biến phân phối đều rời rạc. Ta giả sử biến này được phân phối trên tập các số nguyên\(\{1, 2, \ldots, n\}\), tuy nhiên, có thể chọn bất kỳ tập giá trị nào khác. Ý nghĩa của từ đều trong ngữ cảnh này là mọi giá trị đều có thể xảy ra với khả năng như nhau. Xác suất cho mỗi giá trị\(i \in \{1, 2, 3, \ldots, n\}\) là \(p_i = \frac{1}{n}\). Ta ký hiệu một biến ngẫu nhiên \(X\) tuân theo phân phối này là:

(18.8.3)\[X \sim U(n).\]

Hàm phân phối tích lũy là:

(18.8.4)\[\begin{split}F(x) = \begin{cases} 0 & x < 1, \\ \frac{k}{n} & k \le x < k+1 \text{ with } 1 \le k < n, \\ 1 & x >= n . \end{cases}\end{split}\]

Trước hết ta hãy vẽ đồ thị hàm khối xác suất:

n = 5 d2l.plt.stem([i+1 for i in range(n)], n*[1 / n], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

Tiếp theo hãy vẽ đồ thị hàm phân phối tích luỹ .

x = np.arange(-1, 6, 0.01) def F(x):

return 0 if x < 1 else 1 if x > n else np.floor(x) / n
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

Nếu \(X \sim U(n)\), thì:

  • \(\mu_X = \frac{1+n}{2}\),
  • \(\sigma_X^2 = \frac{n^2-1}{12}\).

Ta có thể lấy mẫu một mảng có kích thước tùy ý từ một biến ngẫu nhiên rời rạc tuân theo phân phối đều như sau:

np.random.randint(1, n, size=(10, 10))

array([[3, 1, 3, 2, 1, 3, 2, 3, 1, 2],

   [4, 2, 1, 2, 1, 2, 3, 3, 2, 2],
   [1, 4, 4, 2, 4, 4, 3, 3, 1, 4],
   [2, 4, 3, 1, 3, 1, 1, 4, 2, 1],
   [3, 3, 4, 2, 1, 1, 3, 4, 2, 4],
   [4, 2, 3, 2, 2, 1, 4, 2, 4, 4],
   [4, 3, 4, 3, 2, 4, 2, 3, 3, 2],
   [1, 4, 3, 3, 2, 4, 2, 3, 3, 3],
   [4, 2, 3, 3, 1, 4, 1, 1, 2, 3],
   [4, 2, 1, 2, 1, 4, 1, 3, 2, 1]])

18.8.3. Phân phối Đều Liên tục

Tiếp theo, hãy thảo luận về phân phối đều liên tục. Ý tưởng phía sau là nếu ta tăng \(n\) trong phân phối đều rời rạc, rồi biến đổi tỷ lệ để nó nằm trong đoạn \([a, b]\), ta sẽ tiến đến một biến ngẫu nhiên liên tục mà mọi điểm bất kỳ trong \([a, b]\) đều có xác suất bằng nhau. Ta sẽ ký hiệu phân phối này bằng

(18.8.5)\[X \sim U(a, b).\]

Hàm mật độ xác suất là:

(18.8.6)\[\begin{split}p(x) = \begin{cases} \frac{1}{b-a} & x \in [a, b], \\ 0 & x \not\in [a, b].\end{cases}\end{split}\]

Hàm phân phối tích lũy là:

(18.8.7)\[\begin{split}F(x) = \begin{cases} 0 & x < a, \\ \frac{x-a}{b-a} & x \in [a, b], \\ 1 & x >= b . \end{cases}\end{split}\]

Trước hết hãy vẽ hàm mật độ xác suất .

a, b = 1, 3 x = np.arange(0, 4, 0.01) p = (x > a)*(x < b)/(b - a) d2l.plot(x, p, 'x', 'p.d.f.')

Giờ hãy vẽ hàm phân phối tích lũy .

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

0

Nếu \(X \sim U(a, b)\), thì:

  • \(\mu_X = \frac{a+b}{2}\),
  • \(\sigma_X^2 = \frac{(b-a)^2}{12}\).

Ta có thể lấy mẫu một mảng với kích thước bất kỳ từ một biến ngẫu nhiên liên tục tuân theo phân phối đều như sau. Chú ý rằng theo mặc định việc lấy mẫu là từ \(U(0,1)\), nên nếu lấy mẫu trên miền giá trị khác, ta cần phải biến đổi tỷ lệ.

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

1

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

2

18.8.4. Phân phối Nhị thức

Biến ngẫu nhiên nhị thức thì phức tạp hơn một chút. Biến ngẫu nhiên này bắt nguồn từ việc thực hiện liên tiếp \(n\) thí nghiệm độc lập, mỗi thí nghiệm có xác suất thành công \(p\), và hỏi xem số lần thành công kỳ vọng là bao nhiêu.

Hãy biểu diễn dưới dạng toán học. Mỗi thí nghiệm là một biến ngẫu nhiên độc lập \(X_i\) với \(1\) có nghĩa là thành công, \(0\) có nghĩa là thất bại. Vì mỗi thí nghiệm là một lần tung đồng xu độc lập với xác suất thành công \(p\), ta có thể nói\(X_i \sim \mathrm{Bernoulli}(p)\). Biến ngẫu nhiên nhị thức là:

(18.8.8)\[X = \sum_{i=1}^n X_i.\]

Trong trường hợp này, ta viết:

(18.8.9)\[X \sim \mathrm{Binomial}(n, p).\]

Để lấy hàm phân phối tích lũy, ta cần chú ý rằng \(k\) lần thành công có thể xảy ra theo \(\binom{n}{k} = \frac{n!}{k!(n-k)!}\) cách, với mỗi cách có xác suất xảy ra \(p^k(1-p)^{n-k}\). Do đó, hàm phân phối tích lũy là:

(18.8.10)\[\begin{split}F(x) = \begin{cases} 0 & x < 0, \\ \sum_{m \le k} \binom{n}{m} p^m(1-p)^{n-m} & k \le x < k+1 \text{ với } 0 \le k < n, \\ 1 & x >= n . \end{cases}\end{split}\]

Trước hết hãy vẽ hàm khối xác suất.

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

3

Giờ hãy vẽ hàm phân phối tích lũy .

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

4

Dù không dễ để suy ra công thức, kỳ vọng và phương sai của phân phối được tính như sau:

  • \(\mu_X = np\),
  • \(\sigma_X^2 = np(1-p)\).

Ta có thể lấy mẫu từ phân phối này theo cách bên dưới.

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

5

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

6

18.8.5. Phân phối Poisson

Hãy cùng thực hiện một thí nghiệm tưởng tượng. Ta đang đứng ở một trạm xe buýt và muốn biết có bao nhiêu chiếc xe buýt sẽ đi qua trong phút tiếp theo. Hãy bắt đầu bằng việc coi\(X^{(1)} \sim \mathrm{Bernoulli}(p)\) đơn giản là xác suất một chiếc xe buýt sẽ đến trong khoảng một phút tiếp theo. Với những trạm xe buýt xa trung tâm thành phố, đây có thể là một xấp xỉ rất tốt vì ta hầu như sẽ không bao giờ thấy nhiều hơn một chiếc xe buýt trong một phút.

Tuy nhiên, trong một khu vực đông đúc, ta có thể và thậm chí khả năng cao sẽ thấy hai chiếc xe buýt đi qua. Ta có thể mô hình hóa điều này bằng cách chia nhỏ biến độc lập của ta thành hai phần với khoảng thời gian 30 giây. Trong trường hợp này ta có thể viết:

(18.8.11)\[X^{(2)} \sim X^{(2)}_1 + X^{(2)}_2,\]

với \(X^{(2)}\) là tổng toàn phần, và\(X^{(2)}_i \sim \mathrm{Bernoulli}(p/2)\). Toàn bộ phân phối vì thế sẽ là \(X^{(2)} \sim \mathrm{Binomial}(2, p/2)\).

Hãy tiếp tục chia nhỏ một phút này thành \(n\) phần. Lập luận tương tự như trên, ta có:

(18.8.12)\[X^{(n)} \sim \mathrm{Binomial}(n, p/n).\]

Hãy xem xét các biến ngẫu nhiên này. Ở mục trước, ta đã biết có kỳ vọng\(\mu_{X^{(n)}} = n(p/n) = p\), và phương sai\(\sigma_{X^{(n)}}2 = n(p/n)(1-(p/n)) = p(1-p/n)\). Nếu cho\(n \rightarrow \infty\), ta có thể thấy rằng hai giá trị này dần tiến về \(\mu_{X{(\infty)}} = p\), và phương sai\(\sigma_{X^{(\infty)}}^2 = p\). Điều này gợi ý rằng ta có thể định nghĩa thêm một biến ngẫu nhiên nào đó trong trường hợp việc chia nhỏ này tiến ra vô cùng.

Điều này không có gì ngạc nhiên, trong thực tế ta có thể chỉ cần đếm số lần xe buýt đến, tuy nhiên sẽ tốt hơn nếu định nghĩa một mô hình toán học hoàn chỉnh, được biết đến là định luật của biến cố hiếm - law of rare events.

Bám sát chuỗi lập luận một cách cẩn thận, ta có thể suy ra một mô hình như sau. Ta nói \(X \sim \mathrm{Poisson}(\lambda)\) nếu nó là một biến ngẫu nhiên nhận các giá trị \(\{0,1,2, \ldots\}\) với xác suất:

(18.8.13)\[p_k = \frac{\lambda^ke^{-\lambda}}{k!}.\]

Giá trị \(\lambda > 0\) được gọi là tốc độ (hoặc tham số hình dạng), tượng trưng cho số lần xuất hiện trung bình trong một đơn vị thời gian.

Ta có thể lấy tổng hàm khối xác suất này để có được hàm phân phối tích lũy.

(18.8.14)\[\begin{split}F(x) = \begin{cases} 0 & x < 0, \\ e^{-\lambda}\sum_{m = 0}^k \frac{\lambda^m}{m!} & k \le x < k+1 \text{ với } 0 \le k. \end{cases}\end{split}\]

Trước hết hãy vẽ hàm khối xác suất .

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

7

Bây giờ, ta hãy vẽ hàm phân phối tích lũy .

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

8

Như ta thấy ở trên, kỳ vọng và phương sai của phân phối này đặc biệt súc tích. Nếu \(X \sim \mathrm{Poisson}(\lambda)\):

  • \(\mu_X = \lambda\),
  • \(\sigma_X^2 = \lambda\).

Ta có thể lấy mẫu từ phân phối này như sau.

p = 0.3 d2l.set_figsize() d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True) d2l.plt.xlabel('x') d2l.plt.ylabel('p.m.f.') d2l.plt.show()

9

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

0

18.8.6. Phân phối Gauss

Bây giờ ta hãy thử một thí nghiệm khác có liên quan. Giả sử ta lại thực hiện \(n\) phép đo \(\mathrm{Bernoulli}(p)\) độc lập\(X_i\). Tổng của chúng có phân phối là\(X^{(n)} \sim \mathrm{Binomial}(n, p)\). Thay vì lấy giới hạn khi\(n\) tăng và \(p\) giảm, hãy cố định \(p\), rồi cho\(n \rightarrow \infty\). Trong trường hợp này\(\mu_{X^{(n)}} = np \rightarrow \infty\) và\(\sigma_{X ^{(n)}}^2 = np (1-p) \rightarrow \infty\), vì vậy giới hạn này không thể xác định được.

Tuy nhiên, vẫn có cách giải quyết khác! Có thể làm kỳ vọng và phương sai xác định bằng cách định nghĩa:

(18.8.15)\[Y^{(n)} = \frac{X^{(n)} - \mu_{X^{(n)}}}{\sigma_{X^{(n)}}}.\]

Biến này được coi là có kỳ vọng bằng không và phương sai bằng một, và do đó là hợp lý để tin rằng nó sẽ hội tụ đến một phân phối giới hạn nào đó. Nếu minh hoạ phân phối này, ta có thể kiểm chứng giả thuyết trên.

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

1

Một điều cần lưu ý: so với phân phối Poisson, ta đang chia cho độ lệch chuẩn, có nghĩa là ta đang ép các kết quả có thể xảy ra vào các vùng ngày càng nhỏ hơn. Đây là một dấu hiệu cho thấy giới hạn này sẽ không còn rời rạc mà trở nên liên tục.

Trình bày đầy đủ cách suy ra kết quả cuối cùng nằm ngoài phạm vi của tài liệu này, nhưng định lý giới hạn trung tâm - central limit theorem phát biểu rằng khi \(n \rightarrow \infty\), giới hạn này sẽ tiến tới Phân phối Gauss (hoặc tên khác là phân phối chuẩn). Tường minh hơn, với bất kỳ \(a, b\) nào:

(18.8.16)\[\lim_{n \rightarrow \infty} P(Y^{(n)} \in [a, b]) = P(\mathcal{N}(0,1) \in [a, b]),\]

trong đó, một biến ngẫu nhiên \(X\) tuân theo phân phối chuẩn với kỳ vọng \(\mu\) và phương sai \(\sigma^2\), ký hiệu\(X \sim \mathcal{N}(\mu, \sigma^2)\) nếu nó có mật độ:

(18.8.17)\[p_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.\]

Đầu tiên hãy vẽ đồ thị của hàm mật độ xác suất .

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

2

Giờ hãy vẽ đồ thị hàm phân phối tích luỹ. Tuy nằm ngoài phạm vi của phụ lục này nhưng hàm phân phối tích lũy của phân phối Gauss không có công thức dạng đóng dựa trên các hàm số sơ cấp. Ta sẽ sử dụng

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

6 để tính toán xấp xỉ tích phân này.

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

3

Những bạn đọc tinh ý sẽ nhận ra một vài số hạng ở đây. Quả thực, ta đã gặp tích phân này trong . Và ta cần chính phép tính này để xem liệu \(p_X(x)\) có tổng diện tích bằng một và do đó là một hàm mật độ hợp lệ.

Không có một lý do cơ sở nào để ta chọn mô tả bài toán bằng việc tung đồng xu ngoài việc nó giúp quá trình tính toán ngắn hơn. Thật vậy, nếu lấy bất kỳ tập các biến ngẫu nhiên độc lập có cùng phân phối \(X_i\)nào, và gọi:

(18.8.18)\[X^{(N)} = \sum_{i=1}^N X_i.\]

Thì

(18.8.19)\[\frac{X^{(N)} - \mu_{X^{(N)}}}{\sigma_{X^{(N)}}}\]

sẽ xấp xỉ phân phối Gauss. Ta sẽ cần thêm vài điều kiện bổ sung, phổ biến nhất là \(E[X^4] < \infty\), nhưng ý tưởng cốt lõi đã rõ ràng.

Định lý giới hạn trung tâm là lý do mà phân phối Gauss là nền tảng của xác suất, thống kê, và học máy. Mỗi khi ta có thể nói rằng thứ gì đó ta đo được là tổng của nhiều phần nhỏ độc lập, ta có thể giả sử rằng thứ được đo sẽ gần với phân phối Gauss.

Có rất nhiều tính chất hấp dẫn khác của phân phối Gauss, và chúng tôi muốn thảo luận thêm một tính chất nữa ở đây. Phân phối Gauss được biết tới là phân phối entropy cực đại. Ta sẽ phân tích entropy sâu hơn trong , tuy nhiên lúc này chỉ cần biết nó là một phép đo sự ngẫu nhiên. Theo nghĩa toán học một cách chặt chẽ, ta có thể hiểu phân phối Gauss là cách chọn ngẫu nhiên nhất với kỳ vọng và phương sai cố định. Do đó, nếu ta biết biến ngẫu nhiên có kỳ vọng và phương sai nào đó, về trực giác phân phối Gauss là lựa chọn an toàn nhất trong những phân phối mà ta có thể chọn.

Để kết lại phần này, hãy nhớ lại rằng nếu\(X \sim \mathcal{N}(\mu, \sigma^2)\), thì:

  • \(\mu_X = \mu\),
  • \(\sigma_X^2 = \sigma^2\).

Ta có thể lấy mẫu từ phân phối Gauss (chuẩn tắc) như mô tả dưới.

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

4

x = np.arange(-1, 2, 0.01) def F(x):

return 0 if x < 0 else 1 if x > 1 else 1 - p
d2l.plot(x, np.array([F(y) for y in x]), 'x', 'c.d.f.')

5

18.8.7. Họ hàm Mũ

Một tính chất chung của tất cả các phân phối liệt kê ở trên là chúng đều thuộc họ được gọi là họ hàm mũ (exponential family). Họ hàm mũ là tập các phân phối có mật độ được biểu diễn dưới dạng sau:

(18.8.20)\[p(\mathbf{x} | \mathbf{\eta}) = h(\mathbf{x}) \cdot \mathrm{exp} \big{(} \eta^{\top} \cdot T\mathbf(x) - A(\mathbf{\eta}) \big{)}\]

Định nghĩa này có vài điểm khá tinh tế nên hãy cùng xem xét kĩ lưỡng hơn.

Đầu tiên, \(h(\mathbf{x})\) được gọi là phép đo cơ bản (underlying measure) hay phép đo cơ sở (base measure). Đây có thể được coi là thang đo ban đầu mà chúng ta đang biến đổi khi điều chỉnh trọng số mũ.

Thứ hai, ta có vector\(\mathbf{\eta} = (\eta_1, \eta_2, ..., \eta_l) \in \mathbb{R}^l\)được gọi là tham số tự nhiên (natural parameters) hay tham số chính tắc (canonical parameters). Các vector này xác định phép đo cơ sở sẽ được điều chỉnh thế nào. Ta tiến hành phép đo mới bằng cách tính tích vô hướng của các tham số tự nhiên với hàm \(T(\cdot)\) nào đó của\(\mathbf{x}= (x_1, x_2, ..., x_n) \in \mathbb{R}^n\) và lấy luỹ thừa.\(T(\mathbf{x})= (T_1(\mathbf{x}), T_2(\mathbf{x}), ..., T_l(\mathbf{x}))\)được gọi là thống kê đầy đủ (sufficient statistics) của \(\eta\), do thông tin biểu diễn bởi \(T(\mathbf{x})\) là đủ để tính mật độ xác suất và không cần thêm bất cứ thông tin nào khác từ mẫu\(\mathbf{x}\).

Thứ ba, ta có \(A(\mathbf{\eta})\), được gọi là hàm tích luỹ (cumulant function), hàm này đảm bảo phân phối trên có tích phân bằng 1, và có dạng:

(18.8.21)\[ A(\mathbf{\eta}) = \log \left[\int h(\mathbf{x}) \cdot \mathrm{exp} \big{(}\eta^{\top} \cdot T\mathbf(x) \big{)} dx \right].\]

Để ngắn gọn, ta xét phân phối Gauss. Giả sử \(\mathbf{x}\) là đơn biến (univariate variable) và có mật độ là:

(18.8.22)\[\begin{split}\begin{aligned} p(x | \mu, \sigma) &= \frac{1}{\sqrt{2 \pi \sigma^2}} \mathrm{exp} \Big{\{} \frac{-(x-\mu)^2}{2 \sigma^2} \Big{\}} \\ &= \frac{1}{\sqrt{2 \pi}} \cdot \mathrm{exp} \Big{\{} \frac{\mu}{\sigma^2}x - \frac{1}{2 \sigma^2} x^2 - \big{(} \frac{1}{2 \sigma^2} \mu^2 + \log(\sigma) \big{)} \Big{\}} . \end{aligned}\end{split}\]

Hàm này phù hợp với định nghĩa của họ hàm mũ với:

  • phép đo cơ sở: \(h(x) = \frac{1}{\sqrt{2 \pi}}\),
  • tham số tự nhiên:\(\eta = \begin{bmatrix} \eta_1 \\ \eta_2 \end{bmatrix} = \begin{bmatrix} \frac{\mu}{\sigma^2} \\ \frac{1}{2 \sigma^2} \end{bmatrix}\),
  • thống kê đầy đủ:\(T(x) = \begin{bmatrix}x\\-x^2\end{bmatrix}\), và
  • hàm tích luỹ:\(A(\eta) = \frac{1}{2 \sigma^2} \mu^2 + \log(\sigma) = \frac{\eta_1^2}{4 \eta_2} - \frac{1}{2}\log(2 \eta_2)\).

Đáng chú ý rằng việc lựa chọn chính xác từng số hạng trên hơi có phần tuỳ ý. Quả thật, đặc trưng quan trọng nhất chính là việc phân phối có thể được biểu diễn ở dạng này, chứ không cần bất kỳ dạng chính xác nào.