Học sâu, lý thuyết khuôn mẫu và đại số hóa suy nghĩ của con người
1. Mạng nơron.
• Ngày nay hầu hết các máy học mạnh mẽ là mạng nơ-ron nhân tạo (ANN hoặc NN).
• Mạng nơ-ron mã hóa một lớp giả thuyết / dự đoán nhất định có thể trình bày hầu hết các chức năng mà máy có thể học được.
• Một mạng Nơ-ron được định nghĩa bởi $(V, E, \sigma, \omega)$ trong đó V là đỉnh (nút), E là cạnh có hướng của mạng.
• Đồ thị (V, E) được gọi là đồ thị bên dưới của mạng.
• Mỗi nút, còn được gọi là nơ-ron, trong V được mô hình hóa dưới dạng một hàm $\sigma : R \rightarrow R$, mà chúng ta cũng có thể gọi là hàm kích hoạt.
Các hàm kích hoạt phổ biến nhất là:
- hàm dấu $\sigma (x)$ = dấu (x),
- hàm ngưỡng $\sigma (x) = 1_{R+} (x)$,
- hàm sigmoid $\sigma (x): = \frac{1}{ 1 + e^{−x}}$, là một ước lượng gần đúng trơn tru cho hàm ngưỡng.
• $\omega : E \rightarrow R$ được gọi là hàm trọng số của mạng.
• Kiến trúc mạng của mạng nơ-ron là bộ ba $G = (V, E, \sigma)$.
• Đầu vào I(n) của một nơ ron n bằng tổng trọng số của các đầu ra của tất cả các nơ ron được kết nối với nó: $I(n) = \Sigma \omega(n'n)O(n')$, trong đó $n'n \in E$ là một cạnh có hướng, $\omega(n'n) \in R$ và $O(n')$ là đầu ra của nơ ron $n'$ trong mạng.
• Đầu ra O(n) của nơ ron n nhận được từ đầu vào I(n) như sau: $O(n) = \sigma (I (n))$.
• Các nút đầu vào thứ i cho đầu ra $x_i$. Đối với không gian đầu vào $R^n$, chúng ta có n+1 nút đầu vào, một trong số chúng là nơ-ron “hằng số”, có đầu ra là 1.
• $(E, V, \omega, \sigma)$ đại diện cho một hàm $h_{V, E, \sigma, \omega}$.
• $H_{V, E, \sigma} = \{ h_{V, E, \sigma, \omega} : \omega \in R^E \}$ lớp giả thiết cơ bản của các hàm từ không gian đầu vào đến không gian đầu ra của mạng.
Lưu ý Mạng nơ-ron là sự trừu tượng hóa của mạng nơ-ron sinh học và hàm kích hoạt thường là một phần trừu tượng thể hiện tốc độ kích hoạt điện thế hoạt động trong tế bào. Ở dạng đơn giản nhất, hàm này là hàm nhị phân, tức là nơ-ron có đang kích hoạt hoặc không. Có thể coi hàm kích hoạt là một bộ lọc thông tin liên quan.
Mạng nơ-ron được phân loại theo loại đồ thị bên dưới của chúng.
- Một mạng chuyển tiếp có biểu đồ hướng xoay chiều bên dưới. Nếu không, nó được gọi là mạng lặp lại.
- Một mạng nơron truyền thẳng phân lớp $FN$ có các đỉnh được sắp xếp thành một tổ hợp rời rạc của các lớp $V = \bigcup^n_{l = 0} V_i$ sao cho mọi cạnh trong E đều kết nối các nút ở các lớp lân cận $V_i, V_{i + 1}$.
Độ sâu của mạng $FN$ là n. $V_0$ được gọi là lớp đầu vào, $V_n$ được gọi là lớp đầu ra, lớp còn lại được gọi là ẩn.
Ví dụ Một perceptron $f(\omega, b)$, trong đó $\omega \in R^n$, là một mạng nơron với (n + 1) đầu vào và với một nơ-ron duy nhất và có độ sâu 1. Hàm kích hoạt là $x \rightarrow sign(x)$. Perceptron, được phát minh vào năm 1957 bởi Frank Rosenblatt, là một thuật toán để học có giám sát các bộ phân loại nhị phân: $f_{(w, b)}: R^n \rightarrow \{0, 1 \}$.
Ở đây $\omega \in R^n$ và $b \in R$ được xác định như sau $f_{(\omega, b)}(x) = 1$ nếu $\left< \omega, x \right> + b > 0$, 0 trong trường hợp khác.
Cho một dãy các cặp có nhãn $(x_1, y_1), · · ·, (x_n, y_n)$, trong đó $y_i \in \{0, 1\}$, một perceptron phải xác định hàm tốt nhất có thể $f _{(\omega, b)} \in H$ sao cho $f _{(\omega, b)}(x_i) = y_i$ với mọi i.
Huấn luyện perceptron trong điều kiện lý tưởng $\tilde{\omega}: = (\omega, b)\in R^{n + 1}, \tilde{x}: = (x, 1) \in R^{n + 1}$.
Với ký hiệu mới này, mục tiêu của chúng ta là có $\tilde{\omega} s.t. (P)
$y_i \left< \tilde{\omega},\tilde{x_i} \right> > 0$ với mọi i $\Leftrightarrow f_{(\omega, b)} (x_i) = y_i$.
Bước 1: đặt $\tilde{\omega}(1): = (0, · · ·, 0) \in R^n$.
Bước t đối với $t \geq 2$:
Nếu $\exists i = i(t)$ s.t. $y_i \left< \tilde{\omega} (t),\tilde{x_i} \right> \leq 0$ thì ta đặt $\tilde{\omega} (t + 1) = \tilde{\omega}(t) + y_i \tilde{x}_i$, $\tilde{\omega}(t + 1) = \tilde{\omega}(t)$ trong các trường hợp còn lại.
• Quá trình đào tạo này sẽ dừng lại sau một số bước hữu hạn, nếu phương trình (P) có nghiệm $\tilde{\omega}$ và chúng ta không cần xác định hàm mất mát và tìm cách tối thiểu nó.
• Mạng Nơ ron phổ biến vì thứ nhất chúng mã hóa hầu hết các hàm chúng ta cần tính toán một cách thuận tiện và thứ hai là chúng ta có thể đào tạo chúng một cách hiệu quả.
Định lý:
(1) Mọi hàm liên tục $f: [0, 1]^n \rightarrow R$ đều có thể được biểu diễn bằng mạng nơ-ron có độ sâu 2.
(2) Mọi hàm Boolean $f: \{0, 1\}^d \rightarrow \{0, 1\}$ có thể được biểu diễn chính xác bởi một mạng nơ-ron truyền thẳng với một lớp ẩn duy nhất chứa nhiều nhất $2^d$ nơron, nếu $\sigma (x) = (sign(x ) + 1) / 2$ được sử dụng làm hàm kích hoạt.
Làm thế nào để đào tạo một mạng nơ-ron?
Chúng ta sẽ chỉ xem xét trường hợp không gian đầu vào và không gian đầu ra của mạng lần lượt là không gian euclide $R^n$ và $R^m$.
Hàm rủi ro mà chúng tôi sử dụng đào tạo mạng của mình là MSE với hàm mất mát $L(h_{\omega} (x), y) = \frac{1}{2} || h_{\omega}(x) - y ||^2$.
Do đó với $D \in P (R^n × R^m)$ thì $R^L_D (h_{\omega}) = E_D L(h_{\omega} (x), y)$.
Vì chưa biết D nên nguyên tắc ERM sẽ tối thiểu hóa $R^L_S$ và sử dụng độ phức tạp của mẫu để chứng minh rằng nếu $h_S$ làm tối thiểu $R^L_S$ thì nó cũng làm tối thiểu hóa $R^L_D$ với độ chính xác $\varepsilon$ và độ tin cậy $\delta$ nếu $\sharp (S) \geq m(\varepsilon, \delta)$.
2. Học sâu
Sự thành công của các thuật toán học máy thường phụ thuộc vào biểu diễn dữ liệu, còn được gọi là học tính năng (feature learning).
Trong học máy, học biểu diễn là một tập hợp các kỹ thuật cho phép hệ thống tự động khám phá các biểu diễn cần thiết để phát hiện hoặc phân loại tính năng từ dữ liệu thô. Điều này thay thế kỹ thuật xử lý tính năng thủ công và cho phép máy tính tìm hiểu các tính năng và sử dụng chúng để thực hiện một tác vụ cụ thể.
Học tính năng có thể được giám sát hoặc không được giám sát. Câu hỏi đặt ra là: làm cách nào để chúng ta tự động tìm thấy các biểu diễn nhỏ gọn của dữ liệu? Trong mô hình xác suất, chúng ta xem đây là vấn đề tìm kiếm các biến tiềm ẩn, cung cấp cách biểu diễn đơn giản hơn và thường có chiều thấp hơn cho dữ liệu chiều cao ban đầu.
Trong thống kê, các biến tiềm ẩn (từ tiếng Latinh: phân từ hiện tại của lateo (“nằm ẩn), trái ngược với các biến có thể quan sát), là các biến không được quan sát trực tiếp mà được suy ra (thông qua mô hình toán học) từ các biến khác được quan sát (đo lường trực tiếp). Các mô hình toán học nhằm giải thích các biến quan sát dưới dạng các biến tiềm ẩn được gọi là mô hình biến tiềm ẩn.
3. Lý thuyết khuôn mẫu và đại số hóa tư duy con người
Các phương pháp trong học biểu diễn mà tôi vừa đề cập ở trên ít nhiều mang tính thực nghiệm và kinh nghiệm. Một lý thuyết toán học về lý thuyết biểu diễn có thể được phát triển từ lý thuyết mẫu của Grenander.
Lý thuyết khuôn mẫu
1. Trong thế giới thực, các tín hiệu chủ yếu là ngẫu nhiên. Xử lý tín hiệu sử dụng các thuộc tính ngẫu nhiên để tìm ra cấu trúc ẩn mà chúng ta muốn biết.
1a. Tập hợp các biến, quan sát và ẩn, thường tạo thành các đỉnh của biểu đồ, như trong các mô hình Gibbs và người ta phải lập công thức các phân phối xác suất trước cho các biến ẩn cũng như các mô hình cho các biến quan sát.
1b. Khi tất cả các yếu tố ngẫu nhiên ảnh hưởng đến bất kỳ quan sát nhất định nào được xác định một cách thích hợp, chúng cho thấy một lượng lớn tính độc lập có điều kiện. Chúng ta cần các kỹ thuật, vd. PCA (phân tích thành phần chính), ICA (phân tích thành phần độc lập), để phân tách tín hiệu thành các thành phần độc lập.
2. Các đối tượng, quá trình và quy tắc khác nhau của thế giới tạo ra các mẫu có thể được mô tả như là các mẫu thuần túy chính xác bị bóp méo và biến đổi bởi một họ biến dạng giới hạn, giống nhau trên tất cả các phương thức.
2a. Người ta có thể liệt kê các loại mô hình biến dạng khác nhau phải tuân theo, do đó tạo ra các lớp cơ bản của mô hình ngẫu nhiên mà có thể được áp dụng.
2b. Tín hiệu phân hủy thành các thành phần cơ bản kết hợp và biến đổi thông qua các quy tắc ngẫu nhiên thành các tín hiệu phức tạp hơn.
Chúng ta có thể công thức hóa tư duy của con người.
• Aristotle (384-322 TCN) đã phát minh ra thuyết âm tiết (một quá trình logic trong đó hai phát biểu chung dẫn đến một phát biểu cụ thể hơn) làm nền tảng cho lý luận và tư duy.
• David Hume (1711-1776) “Mặc dù tư tưởng của chúng ta dường như sở hữu sự tự do không bị ràng buộc, nhưng khi kiểm tra kỹ hơn, chúng ta sẽ thấy rằng nó thực sự bị giới hạn trong những giới hạn rất hẹp, và tất cả sức mạnh sáng tạo này của trí óc không nhiều hơn là khả năng ghép nối, chuyển vị, tăng thêm hoặc giảm bớt các vật liệu mà chúng ta có được bằng các giác quan và kinh nghiệm.”
• Immanuel Kant (1724-1804) lập luận rằng tư tưởng của con người về cơ bản là kiến trúc: bắt đầu với những đầu vào giác quan đơn giản, người tư duy kết hợp chúng thành những trừu tượng, sau đó kết hợp chúng thành những trừu tượng cấp cao hơn, v.v.
• Siegmund Freud (1856-1939) đã phân tích các thuật ngữ tư duy cảm xúc của các yếu tố: id, ego, superego, kiểm duyệt, ham muốn tình dục, nỗi sợ thiến, tình dục trẻ em, chuyển giao, đàn áp, phức hợp Oedipus .... Chúng được kết hợp với nhau để tạo thành hạt nhân của tâm trí của bệnh nhân, hoặc ít nhất là phần tiềm thức của nó, và được nhà phân tích cho rằng sẽ được khám phá ra thông qua việc kiểm tra các giấc mơ, dấu vết, các liên tưởng tự do và các biểu hiện khác của tiềm thức.
Trong lý thuyết của Grenander, mô hình của tâm trí được xây dựng theo các thuật ngữ lý thuyết khuôn mẫu. Bắt đầu từ các thực thể đơn giản, nguyên tử, tinh thần (Kẻ tạo ra lý thuyết mẫu), chúng ta sẽ kết hợp chúng thành các cấu trúc, suy nghĩ, (cấu hình) thông thường để sau này được kiểm soát bởi các quy tắc xác suất của các kết nối. Theo cách này, các mẫu tư duy sẽ được xây dựng như một hệ thống phân cấp của ngày càng nhiều cấu trúc phức tạp mà chúng ta sẽ giới thiệu một phép tính toán các ý tưởng.
Các quy tắc tư duy chính trong lý thuyết của Grenander:
1. Suy nghĩ được tạo thành từ những thực thể rời rạc: ý tưởng.
2. Ý tưởng được kết nối thông qua trái phiếu; xác định ngữ nghĩa.
3. Số lượng kết nối đến một ý tưởng, sự hiếm có, là rất lớn.
4. Các ý tưởng cấu thành một ý nghĩ được ràng buộc chặt chẽ với nhau: một p-clique (một đồ thị liên thông đầy đủ với p nút).
5. Các quá trình suy nghĩ tạo thành một không gian tâm trí có độ đo.
6. Suy nghĩ được thực hiện một cách vật lý bởi một mạng kết nối.
7. Phương trình tâm trí quy định điểm mạnh cho các ý tưởng và kết nối giữa các ý tưởng.
8. Cấu trúc mạng ngụ ý rằng tư duy được tổ chức dưới dạng đồ thị.
9. Ngôn ngữ, một tập hợp con nhỏ của tư duy, cũng phải được tổ chức bằng biểu đồ.
10. Suy nghĩ được tạo ra một cách xác suất bởi phương trình tâm trí.
11. Suy nghĩ bị điều kiện bởi các điều kiện biên.
12. Suy nghĩ tập trung đến vùng lân cận N (suy nghĩ) trong không gian tâm trí.
13. Hàm năng lượng E có nhiều cực tiểu cục bộ tập trung xung quanh các ý nghĩ.
14. Nghiên cứu cấp độ cao về tư duy nên diễn ra trong không gian tâm trí, không phải không gian vật lý.
Kết luận:
Kỹ thuật mạnh mẽ nhất của ML ngày nay là học sâu được thực hiện với mạng nơ-ron. Có một số động lực để áp dụng mạng nơ-ron. Mạng nơ-ron có sức mạnh biểu đạt tuyệt vời và hiệu suất tốt khi sử dụng SGD. Chúng có khả năng xử lý dữ liệu kích thước lớn.
• Nhiều vấn đề học máy trở nên cực kỳ khó khăn khi số lượng chiều trong dữ liệu cao. Hiện tượng này được gọi là lời nguyền của chiều không gian.
• Học biểu diễn là một giải pháp để giải quyết vấn đề về chiều.
• Lý thuyết Mẫu có thể phục vụ một nền tảng toán học cho việc học biểu diễn.
Thank Ms LHV for material.