Học, máy học và AI (Phần II).

Ở trong bài viết trước, chúng ta đã đi qua phần tổng quan về Machine Learning, cũng như điểm qua chiều dài phát triển của nó, chặng đường đó không ngắn nhưng cũng không quá dài, nó chỉ là một giai đoạn nhỏ bắt đầu từ thế kỷ 20. Bây giờ chúng ta sẽ cùng đến với phần tiếp theo của loạt bài về Machine learning. Phần này sẽ điểm qua về, những tasks chính mà Machine Learning đang làm hiện nay, cách phân loại Machine Learning, và góc nhìn về sự phát triển của Machine Learning trong thời gian tới.

3. Nhiệm vụ hiện tại của ML.

Ngày nay, ML có các nhiệm vụ chính như sau:

• Nhiệm vụ phân loại ấn định một danh mục cho mỗi mục.

Ví dụ:

- Phân loại tài liệu có thể chỉ định các mục với các danh mục như chính trị, spam email, thể thao hoặc thời tiết,

- Phân loại hình ảnh có thể chỉ định các mục có phong cảnh, chân dung hoặc động vật.

Nhiệm vụ phân loại là việc xây dựng một hàm trên tập hợp các mục nhận giá trị trong một tập hợp các danh mục có thể đếm được.

Như chúng ta đã nhận xét trong ví dụ toán học về Learning, thông thường chúng ta có phép đo không rõ ràng/không chính xác và chúng ta phải thêm “nhiễu” vào phép đo của mình. Nếu mọi thứ đều chính xác, thì nhiệm vụ phân loại là bài toán hàm nội suy cổ điển trong toán học. Trong cuộc sống thực và đối với việc học máy, chúng ta cần lập mô hình nhiễu bằng lý thuyết xác suất.

• Nhiệm vụ hồi quy dự đoán giá trị thực cho mỗi mục. Ví dụ về nhiệm vụ hồi quy bao gồm dự đoán giá trị cổ phiếu hoặc các thực thể kinh tế. Trong bài toán này, hình phạt cho một dự đoán không chính xác phụ thuộc vào độ lớn của khoảng cách giữa giá trị thực và giá trị dự đoán, ngược lại với bài toán phân loại, nơi thường không có khái niệm về sự gần gũi giữa các loại khác nhau. Nhiệm vụ hồi quy là một (cấu trúc của) hàm, trên tập hợp các mục nhận giá trị trong R, có tính đến "nhiễu" do phép đo không chính xác. Thuật ngữ hồi quy được đặt ra bởi Francis Galton vào thế kỷ 19 để mô tả hiện tượng sinh học rằng chiều cao của con cháu của tổ tiên cao lớn có xu hướng thoái lui về mức trung bình bình thường (một hiện tượng còn được gọi là hồi quy về phía trung bình của dân số). Đối với Galton, hồi quy chỉ có ý nghĩa sinh học, nhưng công việc của ông sau đó đã được mở rộng sang một bối cảnh thống kê tổng quát hơn. Phương pháp điều tra của Galton là phi tiêu chuẩn vào thời điểm đó: Đầu tiên ông thu thập dữ liệu, sau đó ông xây dựng mô hình mối quan hệ của các sự kiện.

• Nhiệm vụ ước lượng mật độ tìm sự phân bố của các yếu tố đầu vào trong một số không gian phân phối. Karl Pearson (1857-1936) đề xuất rằng tất cả các quan sát đến từ một số phân bố xác suất và mục đích của khoa học là ước tính tham số của các phân bố này. Bài toán ước lượng mật độ đã được Ronald Fisher (1980-1962) đề xuất như một yếu tố quan trọng trong việc đơn giản hóa lý thuyết thống kê của ông, cụ thể là ông đã giả định sự tồn tại của một hàm mật độ p(ξ) xác định tính ngẫu nhiên (nhiễu) của một vấn đề quan tâm.

Độ đo ν được gọi là chi phối bởi µ (hoặc liên tục tuyệt đối đối với µ), nếu ν(A) = 0 với mọi tập A với µ(A) = 0.

Kí hiệu: ν << µ. Theo định lý Radon-Nykodym, chúng ta có thể viết

ν = f·µ và f là hàm mật độ của ν w.r.t. µ.

Ví dụ, phân phối Gaussian trên đường thực bị chi phối bởi số đo chính tắc dx và chúng ta biểu thị phân phối chuẩn chuẩn theo mật độ của nó: $f(x) = \frac{1}{\sqrt{2\pi}} exp(-\frac{x^2}{2})$

Bài toán cổ điển về ước lượng mật độ được xây dựng như sau.

Gọi một mô hình thống kê A là một loại mật độ chịu sự chi phối của một số đo nhất định. Cho mật độ chưa biết p(x, ξ), trong đó ξ ∈ A. Vấn đề là ước lượng tham số ξ bằng cách sử dụng i.i.d. dữ liệu $X_1, · · ·, X_l$ phân phối theo mật độ p(x,ξ) chưa biết này.

• Nhiệm vụ xếp hạng các thứ tự (Raking) theo một số tiêu chí. Tìm kiếm trên web, ví dụ: trả về các trang web có liên quan đến truy vấn tìm kiếm, là ví dụ về xếp hạng chuẩn. Nếu số lượng xếp hạng là hữu hạn, thì nhiệm vụ này gần giống với bài toán phân loại, nhưng chúng không là một, vì trong nhiệm vụ xếp hạng chúng ta cần chỉ định từng cấp bậc trong khi thực hiện nhiệm vụ chứ không phải trước khi thực hiện nhiệm vụ như trong bài toán phân loại. (Đã có sẵn các nhóm cần xác định).

• Nhiệm vụ phân cụm các mục thành các vùng (đồng nhất). Phân cụm thường được thực hiện để phân tích các tập dữ liệu rất lớn. Phân cụm là một trong những kỹ thuật được sử dụng rộng rãi nhất để phân tích dữ liệu cần khám phá. Ví dụ, các nhà sinh học tính toán phân nhóm các gen trên cơ sở những điểm tương đồng trong biểu hiện của chúng trong các thí nghiệm khác nhau; các nhà bán lẻ tập hợp khách hàng, trên cơ sở hồ sơ khách hàng của họ, nhằm mục đích tiếp thị mục tiêu; và các nhà thiên văn tập hợp các ngôi sao trên cơ sở khoảng cách không gian của chúng.

• Giảm kích thước hoặc học đa tạp chuyển đổi biểu diễn ban đầu của các mục trong không gian chiều cao thành một không gian của kích thước thấp hơn trong khi vẫn bảo toàn một số thuộc tính của biểu diễn ban đầu. Một ví dụ phổ biến liên quan đến tiền xử lý kỹ thuật số hình ảnh trong các nhiệm vụ thị giác máy tính. Chúng ta cũng có thể coi phân cụm là giảm kích thước.

4. Các loại ML chính

Phân loại ML được xác định bởi loại tương tác giữa người học và môi trường:

- Loại dữ liệu đào tạo, tức là dữ liệu có sẵn cho người học trước khi đưa ra quyết định và dự đoán;

- Loại dữ liệu thử nghiệm được sử dụng để đánh giá và áp dụng thuật toán học tập.

Các loại ML chính là học có giám sát, học không giám sát và học tăng cường.

• Trong học có giám sát, máy học là một thiết bị nhận dữ liệu huấn luyện được gắn nhãn, tức là cặp của một phiên bản đã biết và tính năng của nó, còn được gọi là nhãn. Trong ngôn ngữ khoa học máy tính, một cá thể đã biết là một đầu vào và tính năng của nó là đầu ra của một chương trình dự đoán nhãn cho các cá thể không nhìn thấy. Ví dụ về tập hợp dữ liệu được gắn nhãn là các email được gắn nhãn “spam” hoặc “không có spam” và các bệnh sử được gắn nhãn có sự xuất hiện hoặc không có bệnh nhất định.

Hầu hết các vấn đề phân loại và hồi quy của học máy thuộc về học có giám sát.

• Trong học tập không có giám sát, không có nhãn bổ sung nào được gắn vào dữ liệu và nhiệm vụ là mô tả cấu trúc của dữ liệu. Vì các ví dụ (dữ liệu khả dụng) được cung cấp cho thuật toán học tập không được gắn nhãn, không có cách nào đơn giản để đánh giá độ chính xác của cấu trúc được tạo ra bởi thuật toán. Ước tính mật độ, phân cụm và giảm số chiều là những ví dụ về các vấn đề học tập không có giám sát.

Hầu hết các ứng dụng quan trọng của việc học không giám sát là tìm ra các quy tắc liên kết quan trọng trong phân tích thị trường, bảo mật ngân hàng và bao gồm một phần quan trọng là nhận dạng mẫu, điều này rất quan trọng để hiểu AI phát triển. Tại thời điểm hiện tại, học tập không giám sát chủ yếu mang tính mô tả và thực nghiệm trong khi học tập có giám sát mang tính dự đoán nhiều hơn (và có nền tảng lý thuyết sâu sắc hơn).

• Học tăng cường là loại học máy trong đó người học tích cực tương tác với môi trường để đạt được một mục tiêu nhất định. Chính xác hơn, người học thu thập thông tin thông qua một quá trình hành động bằng cách tương tác với môi trường. Tương tác tích cực này biện minh cho thuật ngữ của tác nhân được sử dụng để chỉ người học. Các việc đạt được mục tiêu của người đại diện thường được đo lường bằng phần thưởng anh ta nhận được từ môi trường và anh ta tìm cách tối đa hóa phần thưởng đó. Ví dụ, học tăng cường được sử dụng trong xe tự lái.

Học tăng cường nhằm đạt được khả năng khái quát hóa giống như cách học có giám sát, nhưng người giám sát không trực tiếp đưa ra câu trả lời cho các câu hỏi của người học. Thay vào đó, người giám sát đánh giá hành vi của người học và đưa ra phản hồi về điều đó.

Các câu hỏi cơ bản về nền tảng toán học của ML Học tập là một quá trình đạt được kiến thức về một đặc điểm của vật có thể quan sát bằng cách kiểm tra dữ liệu có sẵn một phần. Việc học sẽ thành công nếu chúng ta có thể đưa ra dự đoán "tốt" về dữ liệu không nhìn thấy, điều này sẽ cải thiện khi chúng ta có nhiều dữ liệu hơn.

5. Tương lai của học máy và AI

Ngày nay, nhiều hệ thống máy học có thể tự động hóa những thứ mà con người làm tốt. Các ví dụ bao gồm nhận dạng hình ảnh, nhận dạng giọng nói và phân loại thư rác, phần lớn là học có giám sát.

Chúng ta hiện đang vượt qua hiệu suất của con người trên ngày càng nhiều nhiệm vụ mà chúng ta có thể dễ dàng nhận được dữ liệu đào tạo được gắn nhãn. Học tập không giám sát hiện chủ yếu là thử nghiệm, vì chúng ta không thể định lượng khái niệm thành công cho học tập không giám sát, ví dụ: Để phân cụm. Ví dụ, không rõ đâu là phân cụm “đúng” cho dữ liệu đã cho hoặc cách đánh giá phân nhóm được đề xuất. Nếu chúng ta có thể định lượng sự “thành công” cho một bài toán học tập không có giám sát thì chúng ta có thể tạo ra một mô hình toán học cho vấn đề này.

Kết luận Học máy là học tự động hóa, có hiệu suất được cải thiện khi khối lượng dữ liệu thực nghiệm ngày càng tăng. Máy học sử dụng thống kê toán học để mô hình hóa thông tin không đầy đủ và bản chất ngẫu nhiên của dữ liệu quan sát. Học máy là phần cốt lõi của trí tuệ nhân tạo. Máy học rất thành công trong thực nghiệm và có nhiều câu hỏi mở liên quan đến cơ sở toán học của nó. Nền tảng toán học của học máy rất quan trọng để xây dựng trí tuệ nhân tạo có mục đích chung, còn được gọi là AGI, hoặc UAI.

Thank Ms LHV for material.

GÓC AI

Học, máy học và AI (Phần II).

Liên hệ