1. Tổng quan về AI, ML
AI (Artificial Intelligence) và ML (Machine Learning) là hai thuật ngữ
liên quan đến công nghệ, đặc biệt là trong lĩnh vực máy tính. Dưới đây là sự
khác biệt giữa AI và ML:
AI (Trí thông minh nhân tạo) là một lĩnh vực của khoa học máy tính, mô phỏng
khả năng tư duy của con người và thực hiện các nhiệm vụ thông minh như nhận dạng
giọng nói, phân loại hình ảnh, dịch thuật, và tự động hóa quy trình. ML (Học
máy) là một phương pháp trong lĩnh vực AI, dựa trên việc cho máy tính học từ dữ
liệu để tự động cải thiện hiệu suất của chúng trong việc giải quyết các nhiệm vụ.
AI là một hệ thống tổng thể, trong đó có thể có nhiều công nghệ khác nhau
như ML, học sâu (deep learning), xử lý ngôn ngữ tự nhiên (NLP), và robotics.
Trong khi đó, ML là một phương pháp cụ thể trong AI để xây dựng các mô hình dự
đoán và phân tích dữ liệu, không phải là toàn bộ lĩnh vực.
Trong AI, các thuật toán được lập trình để giải quyết các vấn đề cụ thể hoặc
có thể tự học để giải quyết các vấn đề chưa biết trước. Trong ML, các thuật toán
được sử dụng để học từ dữ liệu và phát triển các mô hình dự đoán tự động.
2. Học máy (ML)
2.1. Khái niệm
và học máy và phân loại
Học máy (Machine Learning - ML) là một phương pháp trong lĩnh
vực trí tuệ nhân tạo (Artificial Intelligence - AI) giúp máy tính học hỏi từ dữ
liệu mà không cần được lập trình trực tiếp để giải quyết một vấn đề cụ thể.
Thay vào đó, máy tính sử dụng các thuật toán và mô hình học máy để tự động tìm
ra các quy luật hoặc mối quan hệ trong dữ liệu.
Với học máy, ta cung cấp cho máy tính một tập dữ liệu đầu vào
(input data) và đầu ra mong muốn (output data), sau đó máy tính sử dụng các thuật
toán để học từ dữ liệu này và xây dựng một mô hình dự đoán. Mô hình này sẽ được
sử dụng để dự đoán đầu ra mới từ một tập dữ liệu đầu vào mới.
Các thuật toán
học máy phổ biến bao gồm:
-
Học có giám sát
(Supervised learning): là phương pháp học máy trong đó máy tính được cung cấp với
cả dữ liệu đầu vào và đầu ra mong muốn (label), và nhiệm vụ của máy tính là học
các mối quan hệ giữa dữ liệu đầu vào và đầu ra để có thể dự đoán đầu ra mới cho
các dữ liệu đầu vào khác. Các mô hình học máy phổ biến trong học có giám sát
bao gồm: Hồi quy tuyến tính, Máy vector hỗ trợ (SVM), Cây quyết định, Mạng
nơ-ron nhân tạo (ANN), v.v.
-
Học không giám
sát (Unsupervised learning): là phương pháp học máy trong đó máy tính chỉ được
cung cấp với dữ liệu đầu vào mà không có đầu ra mong muốn. Nhiệm vụ của máy
tính là tìm ra các mẫu hoặc cấu trúc ẩn trong dữ liệu. Các mô hình học máy phổ
biến trong học không giám sát bao gồm: Phân cụm (Clustering), Giảm chiều dữ liệu
(Dimensionality reduction), Vô hướng hoá (Singular value decomposition - SVD),
v.v.
-
Học bán giám
sát (Semi-supervised learning): là phương pháp học máy kết hợp giữa học có giám
sát và học không giám sát, trong đó một phần dữ liệu có được nhãn và một phần không
có nhãn. Nhiệm vụ của máy tính là học từ cả dữ liệu có nhãn và không có nhãn để
tạo ra một mô hình dự đoán tốt hơn.
Học máy là một
phương pháp quan trọng trong AI, giúp máy tính học hỏi từ dữ liệu và tạo ra các
mô hình dự đoán để giải quyết các vấn đề phức tạp của thế giới thực.
2.2. Các thuật toán học máy phổ biến
2.2.1. Hồi quy tuyến tính (Linear Regression)
Hồi quy tuyến tính là một thuật toán trong học có giám sát (supervised
learning) được sử dụng để dự đoán giá trị đầu ra liên tục dựa trên các giá trị
đầu vào. Thuật toán này giả sử có một mối quan hệ tuyến tính giữa các biến đầu
vào và đầu ra, và tìm cách tối ưu hóa các tham số phù hợp để đạt được một mô
hình dự đoán tốt.
2.2.2. Máy vector hỗ trợ (Support Vector
Machine - SVM)
SVM là một thuật toán trong học có giám sát được sử dụng cho các bài toán
phân loại và hồi quy. SVM tìm cách tìm ra một đường biên phân chia tối ưu giữa
các lớp dữ liệu khác nhau (phân loại) hoặc giữa các điểm dữ liệu (hồi quy)
trong không gian đặc trưng.
2.2.3. Cây quyết định (Decision Trees)
Cây quyết định là một thuật toán trong học có giám sát được sử dụng để
phân loại và dự đoán dựa trên các quyết định điều kiện trên các đặc trưng của dữ
liệu. Thuật toán này tạo ra một cây quyết định, trong đó mỗi nút đại diện cho một
quyết định điều kiện và mỗi lá là một lớp hoặc giá trị dự đoán.
2.2.4. Mạng nơ-ron nhân tạo (Artificial Neural
Networks - ANN)
Mạng nơ-ron nhân tạo là một loại thuật toán học sâu (deep learning) được lấy
cảm hứng từ cấu trúc nơ-ron của não người. Thuật toán này sử dụng một mạng
nơ-ron nhân tạo với nhiều lớp để học từ dữ liệu và tạo ra các dự đoán cho các
bài toán phân loại và hồi quy.
2.2.5. Phân cụm (Clustering)
Phân cụm là một thuật toán trong học không giám sát được sử dụng để tìm ra
các nhóm (clusters) dữ liệu có tính chất tương tự nhau. Thuật toán này tìm cách
phân chia các điểm dữ liệu thành các nhóm khác nhau dựa trên các đặc trưng của
chúng.
Trên đây chỉ là một số thuật toán học máy phổ biến, còn rất nhiều thuật
toán khác như Random Forest, Gradient Boosting, K-Nearest Neighbors, Principal
Component Analysis (PCA) và nhiều hơn nữa. Việc lựa chọn thuật toán phù hợp phụ
thuộc vào bài toán và loại dữ liệu cụ thể của bạn.



0 nhận xét:
Post a Comment