Các mô hình thống kê và khuôn khổ cho học máy (Phần 1)

Một mô hình chỉ đơn giản là một biểu diễn của dữ liệu có thể mà người ta có thể quan sát được. Mô hình hóa là trung tâm của các ngành khoa học. Các mô hình cho phép một người đưa ra dự đoán, hiểu các hiện tượng và định lượng, so sánh và kiểm tra sự sai lệch các giả thuyết. Một mô hình cho học máy phải có khả năng đưa ra dự đoán, dự đoán kết quả của các hành động của chúng và cập nhật khả năng đưa ra dự đoán dựa trên dữ liệu mới.

Mô hình cho học máy phụ thuộc vào loại học.

1. Mô hình thống kê và khung cho việc học có giám sát.

2. Mô hình thống kê và khuôn khổ cho việc học tập không giám sát.

3. Mô hình thống kê và khung cho việc học củng cố .

1. Một số khái niệm về lý thuyết độ đo và xác suất

Để tiếp cận Machine Learning dưới góc nhìn chặt chẽ nhất về mặt toán học, chúng ta phải hiểu xác suất như một độ đo chứ không phải cho các định nghĩa truyền thống. Tôi sẽ tóm tắt những nội dung quan trọng của cách tiếp cận xác suất bằng độ đo trong các mục dưới đây.

1.1 Khái niệm về Sigma đại số:

Cho X là một tập hợp. Gọi T là tập hợp gồm tất cả các tập con của X. ''sigma-đại số'' (''$\sigma$-đại số'') $\Sigma$ trên tập hợp X là một tập con của T thỏa mãn:

  • $\Sigma$ không rỗng
  • $\Sigma$ đóng kín với phép bù (tức là nếu E thuộc $\Sigma$ thì X\E cũng phải thuộc $\Sigma$)
  • $\Sigma$ đóng kín với phép hợp đếm được (tức là nếu $E_i$ thuộc $\Sigma$ thì hợp của tất cả các $E_i$ cũng phải thuộc $\Sigma$)

1.2 Khái niệm về độ đo:

Một độ đo là một hàm số cho tương ứng một "độ lớn" với một phần nào đó của một tập hợp cho sẵn. Nó là một khái niệm quan trọng trong giải tích và trong lý thuyết xác suất. Một cách hình thức, độ đo 
$\mu$ là một hàm số cho tương ứng mỗi phần tử S của một tập $\sigma$-đại số X với một giá trị 
$\mu (S)$ là một số thực không âm hoặc vô hạn. Các tính chất sau đây phải được thỏa mãn:

Tập rỗng có độ đo bằng không: $\mu (\emptyset )=0$
Độ đo là $\sigma$-cộng tính: nếu E1, E2,... là các tập hợp chứa trong $\sigma$-đại số X, đếm được và không giao nhau từng đôi một, và nếu E là hợp của chúng, thì độ đo $\mu (E)$ bằng tổng $\sum _{k=1}^{\infty }\mu (E_{k})$. Nghĩa là $\mu (\bigcup _{k=1}^{\infty }E_{k})=\sum _{k=1}^{\infty }\mu (E_{k})$

Nếu $\mu$ là một độ đo trên $\sigma$-đại số X, thì mọi phần tử của $\sigma$-đại số X được gọi là $\mu$-đo được, hay đơn giản hơn là đo được. Một bộ gồm tập hợp $\Omega$, một $\sigma$-đại số X trên $\Omega$ và một độ đo $\mu$ trên X được gọi là một không gian đo được, ký hiệu là ($\Omega$, X, $\mu$).

1.3 Khái niệm về xác suất:

Ta có một tập hợp $\Omega$, một $\sigma$-đại số $\Sigma$ của các tập con của $\Omega$, và một hàm P ánh xạ mỗi thành viên của $\Sigma$ tới một giá trị là số thực. Các thành viên của $\Sigma$, nghĩa là các tập con của Ω, được gọi là các "biến cố". P được gọi là xác suất nếu nó thỏa mãn 3 tiên đề Kolmogorov như sau:

  • Với tập bất kỳ $ E\in \Sigma$, thì $P(E)\geq 0$ Nghĩa là, xác suất của một biến cố là một số thực không âm.
  • $ P(\Omega )=1.$ Nghĩa là, xác suất một biến cố nào đó trong tập mẫu sẽ xảy ra là 1.
  • Một chuỗi đếm được bất kỳ gồm các biến cố đôi một không giao nhau $E_{1},E_{2},...$ thỏa mãn $ P(E_{1}\cup E_{2}\cup \cdots )=\sum P(E_{i}).$

Nghĩa là, xác suất của một tập biến cố là hợp của các tập con không giao nhau bằng tổng các xác suất của các tập con đó. Đó gọi là tính chất $\sigma$-cộng tính. Quan hệ này không đúng nếu có hai tập con giao nhau.

Vậy ta có thể hiểu, xác suất chính là một độ đo trên một không gian mẫu. Trong trường hợp này ($\Omega, \Sigma, P$) là một không gian xác suất.

2. Mô hình thống kê và khuôn khổ cho học có giám sát 

Mô hình học có giám sát dựa trên lý thuyết học tập thống kê của Vapnik và lý thuyết học tập toán học của Cucker-Smale. Giống như với cách tiếp cận xác suất, chúng ta cũng sẽ tiếp cận các mô hình học máy bằng các công cụ của lý thuyết độ đo.

Định nghĩa (Vladimir Vapnik) Học là một bài toán ước lượng hàm trên cơ sở dữ liệu thực nghiệm.

Ví dụ: Một công ty ML muốn ước tính tiềm năng của ứng viên vào các vị trí mới của nhà phát triển thuật toán trong ML của công ty dựa trên kinh nghiệm của mình rằng tiềm năng của một nhà phát triển phần mềm phụ thuộc vào ba phẩm chất của ứng viên: 

- kỹ năng toán học phân tích của họ được đánh giá theo điểm (từ 1 đến 20), 

- Kỹ năng khoa học máy tính của anh ấy / cô ấy, được đánh giá theo điểm (từ 1 đến 20)

- Kỹ năng giao tiếp của anh ấy / cô ấy được đánh giá bởi bài kiểm tra công ty (thang điểm từ 1 đến 5).

Tiềm năng của một ứng viên cho vị trí mở được đánh giá theo thang điểm 1-10. Vì vị trí của nhà phát triển thuật toán trong ML sẽ được mở lại định kỳ và do đó họ muốn thiết kế một chương trình ML để dự đoán tiềm năng của những người nộp đơn để chương trình tự động được cải thiện theo thời gian.

Loại học máy này là học có giám sát.

• Tập miền X (còn gọi là không gian đầu vào) có các phần tử $x \in X$, được gọi là tham số đầu vào, được phân phối bởi một phép đo xác suất $\mu X$ chưa biết. Nói cách khác, xác suất x thuộc tập con $A \subset X$ là $\mu X(A)$. Theo tiên đề xác suất của Kolmogorov, chúng ta cần cung cấp cho X một $\sigma$ đại số $\Sigma X$ và chúng ta chỉ có thể tính $\mu (A)$ cho $ A \in \Sigma (X)$.

• Một không gian đầu ra Y, còn được gọi là tập nhãn, có các phần tử là các đặc trưng có thể có (còn được gọi là nhãn) y cho mỗi đầu vào $x \in X$. (Chúng ta có thể ước tính xác suất y là một đặc điểm của x, được biểu thị bằng một độ đo có điều kiện chưa biết $P(y \in B | x)$ - xác suất mà $y \in B \subset \Sigma Y$ là một đặc điểm của $x \in X$).

Chúng ta giả định rằng $P (y \in B | x)$ là xác suất có điều kiện thông thường, xác suất này bị chi phối nhiều hơn, tức là có một độ đo $\mu Y$ trên Y sao cho $P (y \in B | x = x_0) =\int B f^{\mu Y} (y | x = x_0) \mu Y$ cho hàm mật độ $f ^{(\mu Y)}(y | x = x_0)$ của xác suất có điều kiện $P (y \in B | x = x_0)$ w.r.t. một độ đo xác suất $\mu Y$ trên Y.

• Một dãy $S = \{ (x_1, y_1), · · · (x_n, y_n) \} \in (X × Y)^n$ của i.i.d (phân bố độc lập giống hệt nhau) là các cặp thể hiện được quan sát và nhãn của chúng. S còn được gọi là dữ liệu đào tạo, được cung cấp bởi một “người giám sát”.

• Tập con $H\subset Y^X$ của các yếu tố dự đoán có thể $h: X \rightarrow Y$.

• Mục đích của máy học là tìm ra quy tắc dự đoán tốt nhất - một ánh xạ $h_S \in H$, cho một dữ liệu huấn luyện S.

• Người học cần tìm một thuật toán

$A : \bigcup_{n\in N}(X × Y)^n \rightarrow H, S \rightarrow h_S.$

Lưu ý rằng, trong một mô hình phân biệt của học có giám sát, chúng ta ước tính hàm mong muốn từ H.

(Trong một mô hình tổng quát về học có giám sát, chúng ta ước tính sự phân phối chung của các cá thể và tính năng của chúng hoặc phân phối có điều kiện của một đối tượng, cho một trường hợp).

Chúng ta hãy xem xét ví dụ minh họa về các ứng viên của một công ty ML. Tập miền X = [1, 20]×[1, 20]×[1, 5]. Bộ nhãn Y = [1,10]. Tập hợp H gồm các giả thuyết có thể có mà chúng ta muốn xem xét là tập con của tập hợp tất cả các hàm từ [1, 20]×[1, 20]×[1, 20] với các giá trị trong [1, 10], ví dụ: H là tập hợp tất cả các hàm có giá trị bằng 5 hoặc 6. Trong mô hình học tập phân biệt, chúng ta ước tính tiềm năng của những người nộp đơn là đạt yêu cầu (với điểm 6) hoặc không đạt yêu cầu (với điểm 5), nhưng không phải xác suất có điều kiện của tiềm năng cho các điểm của người nộp đơn (mà chúng ta học trong một mô hình tổng quát).

Các mô hình xác suất khác nhau của các vật thể quan sát ngẫu nhiên.

(i) Cách chung nhất là mô hình hóa mối tương quan ngẫu nhiên của $x \in X$ với $y \in Y$ thông qua số đo $\mu_{X × Y}$, còn được gọi là phân phối khớp, trên X×Y. Xác suất mà $(x, y) \in D \subset X×Y$ tương quan bằng $\mu_{X× Y (D)}$. Trong hầu hết các trường hợp (nếu Y là một tập hữu hạn, một không gian tôpô phân biệt có thể phân biệt được với đại số Borel), số đo trên lát cắt {(y, x) | x = $x_0$} là xác suất có điều kiện của điều kiện y theo $x_0$.

Ví dụ. Gọi X là tập hữu hạn gồm n phần tử và Y là tập hữu hạn gồm m phần tử.

1) Giả sử rằng mối tương quan giữa x và y được xác định thông qua độ đo $\mu$ trên X×Y. Khi đó, độ đo xác suất có điều kiện $P (y \in B | x = x_0)$ bằng với độ đo $\mu_{Y (B)}$ trên lát $x = x_0$ không phụ thuộc vào $x_0$, hơn nữa mật độ có điều kiện $f ^{\mu Y} (y | x) = 1 / m$ cũng không phụ thuộc vào y.

2) $P^{\mu_{count}} (A | B) = \frac{\mu_{count}(A\cap B)}{\mu_{count}(B)}$.

(ii) Một cách khác để mô hình hóa mối tương quan ngẫu nhiên giữa một dữ liệu $x \in X$ và đặc điểm có thể có của nó là $y \in Y$ là coi y như một giá trị của ánh xạ xác suất (hoặc ngẫu nhiên) K từ X đến Y. Xác suất mà $K(x) \in B$ được xác định bởi xác suất có điều kiện $P ^{\mu Y} (y ∈ B | x)$ đối với một độ đo $\mu Y$ trên Y. Nếu K là ánh xạ xác suất từ ​​X đến Y thì đồ thị của nó $GrK: X \rightarrow X × Y, x \rightarrow ( x, K (x))$, là ánh xạ xác suất từ ​​X tới không gian tích X×Y với xác suất $K(x) \in A × B$ bằng (∗) $\int_A P (y \in B | x) \mu X = \int_A \int_B p^{\mu Y} (y | x) \mu Y\mu X$.

• Mọi ánh xạ xác suất $K: X \rightarrow Y$ xác định mối tương quan ngẫu nhiên trên X×Y, tức là K xác định độ đo xác suất trên X×Y. Cho một độ đo $\mu_X$ trên X và ánh xạ xác suất $K: X \rightarrow Y$, chúng ta xác định độ đo xác suất $(Gr_K)∗(\mu_X)$, chuyển tiếp đẩy $\mu_X$ qua ánh xạ $Gr_K$, trên X × Y như sau

$(Gr_K)∗µ_X (D) := \int_X P ^{\mu Y}((x, y) \in D | x) \mu_X =^{*} \int_D p^{\mu_Y} (y | x) \mu_Y \mu_X$ cho $D \subset X × Y$.

• Giả sử $K ∗ \mu_X = f (x, y) dxdy$ và $\mu_X = f (x)dx$, từ công thức trên ta suy ra quan hệ sau $f (x, y) = f (x) f (y | x)$. Xác suất của phân phối chung x và y là tích của xác suất của x và xác suất của y với điều kiện x.

• Bất kỳ xác định nào (thông thường) $K: X \rightarrow Y$ có thể được coi là ánh xạ xác suất với $P^{ \mu_K} (y \in B | x) = \sigma_{K(x)} (B) = 1_B (K (x))$.


(iii) Trong tài liệu ML và SL hiện tại, theo gợi ý từ Fisher, chúng ta xem xét các mô hình phân biệt của học có giám sát trong đó $p(y | x) = f (x) + \varepsilon$, và sai số ngẫu nhiên $\varepsilon$ (một hàm có thể đo lường trên X) có $E_\mu (\varepsilon) = 0$ và không phụ thuộc vào x.


• Một lời giải (một dự đoán mong muốn) cho vấn đề học tập có giám sát phải có lỗi/mất mát/rủi ro tối thiểu (dự kiến) $R_{\mu X × Y}: H \rightarrow R$.

• Gọi $L: X × Y × H \rightarrow R$ là hàm mất mát tức thời $L(x, y, f): = d (y, f (x))$ trong đó $d: Y × Y \rightarrow R$ gần như là một khoảng cách trên Y, tức là, $d (y, y_0) \geq 0$ và $d (y, y_0) = 0 $ với $y = y_0$.

Khi đó $R_{\mu_{X × Y}} (f): = \int_{X × Y} L (x, y, f) \mu_{X × Y}$ trong đó $\mu_{X × Y}$ là phân phối khớp chưa biết của (x, y).


• (Hàm mất mát 0-1) Lấy $H = Y^X$ - tập con của tất cả các xác suất có điều kiện xác định. Hàm mất mát tức thời 0-1 $L: X × Y × H \rightarrow \{ 0, 1 \}$ được định nghĩa như sau: $L(x, y, f) := d (y, f (x)) = \sigma^y_{f(x)}$. Mất mát dự kiến ​​0-1 tương ứng xác định xác suất của câu trả lời $f_\alpha (x)$ không tương quan với x:

$R_{\mu X×Y}(f) = \mu_{X × Y}\{ (x, y) \in X × Y | f (x) \neq y \} = 1 - \mu_{X × Y} (\{x, f (x)\}).$


• Chúng ta không biết $\mu$ và do đó chúng ta không biết $R_\mu$. Do đó, chúng ta phải tìm một giả thuyết $h_S$, cho một chuỗi dữ liệu thực nghiệm S được tạo ra bởi phân phối xác suất $\mu$ xác định xác suất của mối tương quan của các cặp có nhãn trong $X × Y$, sao cho sai số kỳ vọng của $h_S$ là nhỏ nhất có thể. Điều này thúc đẩy khái niệm về rủi ro thực nghiệm được thảo luận dưới đây.

Đối với hàm mất mát $L: X × Y × H \rightarrow R$, $L (x, y, h) = d (y, h (x))$, $S = \{(x_1, y_1) · · ·, (x_n, y_n) \} \in (X × Y)^n$ chúng ta xác định rủi ro thực nghiệm của h như sau

$\hat{R}^L_S (h) := \frac{1}{n} \Sigma^n_{ i = 1} d (y_i, h (x_i)) \in R.$


Với S, người học có thể tính $\hat{R}_S(h)$ cho bất kỳ hàm $h: X \rightarrow Y$. Một bộ giảm thiểu rủi ro thực nghiệm cũng phải có rủi ro kỳ vọng rất nhỏ, sẽ bằng không khi kích thước của dữ liệu thực nghiệm tăng lên. Đây là nguyên tắc giảm thiểu rủi ro theo thực nghiệm, hay nguyên tắc ERM. 

Chúng ta sẽ đưa ra một ví dụ ngược lại về nguyên tắc ERM.

• Rủi ro thực nghiệm tương ứng với hàm mất mát 0-1 $L: X × Y × Y^X \rightarrow \{0, 1\}$ được gọi là lỗi huấn luyện. Nó được định nghĩa như sau:

$\hat{R} S(h): = \frac{| i ∈ [n]: h (x_i) \neq y_i |}{ n}$ cho một dữ liệu huấn luyện $S = \{ (x_1, y_1), · · ·, (xn, yn)\}$ và một hàm $h: X \rightarrow Y$.

Đưa ra dữ liệu huấn luyện $S = \{(x_i, y_i = f (x_i))\}$ cho ánh xạ $f: X \rightarrow Y$, chúng ta sẽ tìm thấy một dự báo $h_S$ với sai số huấn luyện biến mất $\hat{R}_S (h_S)$, tuy nhiên rủi ro 0-1 dự kiến ​​của nó là bằng nhau và thành $\varepsilon$ với bất kỳ $\varepsilon \in (0, 1)$ cho trước. Cho phép

(**)

  • $h_S (x) = f(x_i), x_i = x \text{ và } \exists i \in [n]$
  • $h_S(x) = 0$ trong các trường hợp khác.

• Rõ ràng $\hat{R}_S (h_S) = 0$, vì $h_S (x) = 0$ ngoại trừ (nhiều nhất là n) điểm x trong X.

• Gọi X là khối lũy thừa đơn vị $I^k$ theo $R^k, k \geq 1$, và $Y = \mathbb{Z}_2$. Gọi $\mu_0$ là độ đo Lebesgue trên $I^k$. Với $\varepsilon \in (0, 1)$, chúng ta sẽ tìm một ánh xạ $f: X \rightarrow Y$, sao cho rủi ro 0-1 kỳ vọng của hàm $h_S$ được xác định trong (**) bằng $R_{(Gr_f) ∗ \mu_0} (hS) = \varepsilon$.

Cho $X = A_1 \cup˙ A_2$ s.t. $\mu_0 (A_2) = \epsilon$.

Gọi $f: X → \mathbb{Z}_2$ là hàm chỉ thị $\mathbb{1}_{A_1}$ sau đó

(♠) $R_{(Grf) ∗ \mu_0} (h_S) = (\{x \in X | h_S(x) \neq \mathbb{1}_{A_1} (x)\})$.


Vì $h_S (x) = 0$ hầu khắp nơi trên X nó được suy ra từ (♠) rằng $R_{(Gr_f) ∗ \mu_0} (h_S) = \mu_0 (A_2) = \varepsilon$. Một dự báo $h_S$ như vậy được cho là quá phù hợp (overfitting), tức là nó phù hợp tốt với dữ liệu đào tạo nhưng không phù hợp với cuộc sống thực.

Ý tưởng cho việc xây dựng mẫu đối số của nguyên tắc ERM rất đơn giản: rủi ro 0-1 dự kiến ​​của một hàm $f$ là giá trị trung bình của hàm mất mát 0-1 của $f$, bằng 0 nếu $f$ bằng 0 ở mọi nơi ngoại trừ một tập hợp rỗng. Mặt khác, bất kỳ dãy số thực nghiệm nào $\{ x_1, · · ·, x_n\}$ là tập rỗng trong khối đơn vị $(I_k)^n$ trong đó $k \geq 1$, và tập 0 của hàm chỉ thị $\mathbb{1}_{A_1}$ là tập $A_2$ của độ đo $\varepsilon$.

• Ngoài ra còn có một phương pháp khác để giảm thiểu rủi ro mong đợi, mà không cần biết độ đo xác suất $\mu$ tương ứng với phân phối chung của các cặp có nhãn $(x, y)$ trên $Z = X × Y$. Nó được gọi là phương pháp xấp xỉ ngẫu nhiên, được đề xuất bởi Robbins và Monroe. vào năm 1951. Phương pháp này đã được phát triển thành các phương pháp chính của học máy ngày nay: phương pháp truyền ngược (back propagation) và phiên bản của nó - gradient tự nhiên Amari. Phương pháp xấp xỉ ngẫu nhiên cũng hoạt động để ước tính mật độ, vì vậy chúng ta sẽ xem xét nó trong phương pháp học không giám sát.

Bài viết đã khá dài nên tôi xin phép tạm dừng tại đây. Phần tiếp theo, chúng ta sẽ đề cập tới các mô hình thống kê cho các phương pháp học khác.

Thank Ms LHV for material.

Liên hệ

Tên

Email *

Thông báo *