Những Phương Pháp Máy Học (ML) Và Dữ Liệu Yêu Cầu
Chất lượng, khả năng truy cập và dạng thức của dữ liệu là nền tảng, nhưng cách dữ liệu đó được sử dụng cho máy học (ML) phụ thuộc vào phương pháp học cụ thể. Học máy có ba phương pháp học chính: học có giám sát, học không giám sát và học tăng cường, mỗi phương pháp đều có những yêu cầu riêng về dữ liệu. Các mô hình có giám sát dựa trên dữ liệu được gán nhãn, các mô hình không giám sát hoạt động với dữ liệu không được gán nhãn và học tăng cường học thông qua tương tác và phản hồi.
Dữ liệu được gán nhãn và dữ liệu không được gán nhãn
Dữ liệu được gán nhãn:
Dữ liệu được gán nhãn có các thẻ, chẳng hạn như tên, loại hoặc số. Các thẻ này, dù được áp dụng thủ công hay bởi các hệ thống tự động, đều gán ý nghĩa cho dữ liệu. Ví dụ, một bộ dữ liệu hình ảnh để huấn luyện mô hình phát hiện mèo sẽ gán nhãn cho mỗi bức ảnh là mèo hoặc chó. Tương tự, một tập hợp các đánh giá của khách hàng có thể được gán nhãn là tích cực, tiêu cực hoặc trung tính. Các nhãn này cho phép thuật toán học các mối quan hệ và đưa ra dự đoán chính xác.
Dữ liệu không được gán nhãn:
Dữ liệu không được gán nhãn đơn giản là dữ liệu không được gắn thẻ hoặc gán nhãn theo bất kỳ cách nào. Đó là thông tin thô, chưa qua xử lý và không có ý nghĩa vốn có. Ví dụ về dữ liệu không được gán nhãn bao gồm một bộ sưu tập ảnh chưa được sắp xếp, một luồng bản ghi âm hoặc nhật ký lưu lượng truy cập trang web mà không có phân loại người dùng. Trong những trường hợp này, thuật toán phải tự khám phá các mẫu và cấu trúc trong dữ liệu, vì không có nhãn định trước nào để hướng dẫn quá trình học.
Học có giám sát và học không giám sát
Học máy có giám sát:
Học máy có giám sát huấn luyện các mô hình trên dữ liệu được gán nhãn, trong đó mỗi đầu vào được ghép nối với đầu ra chính xác của nó, cho phép mô hình học được mối quan hệ giữa chúng. Mục tiêu của mô hình là xác định các mẫu và mối quan hệ trong dữ liệu được gán nhãn này, cho phép nó dự đoán chính xác đầu ra cho các đầu vào mới, chưa từng thấy.
Dự đoán giá nhà là một ví dụ phổ biến của học có giám sát. Một mô hình được huấn luyện trên một bộ dữ liệu trong đó mỗi ngôi nhà có dữ liệu được gán nhãn, chẳng hạn như kích thước, số phòng ngủ, vị trí và giá bán tương ứng. Dữ liệu được gán nhãn này cho phép thuật toán học mối quan hệ giữa các đặc điểm của một ngôi nhà và giá của nó. Sau khi được huấn luyện, mô hình sau đó có thể dự đoán giá của một ngôi nhà mới dựa trên các đặc điểm của nó.
Mô hình học máy không giám sát:
Các mô hình học máy không giám sát xử lý dữ liệu thô, không được gán nhãn để tìm các nhóm tự nhiên. Thay vì học từ dữ liệu được gán nhãn, nó đi sâu vào một biển dữ liệu không được gán nhãn. Ví dụ, một thuật toán học không giám sát có thể phân tích lịch sử mua hàng của khách hàng từ cơ sở dữ liệu của công ty bạn.
Nó có thể khám phá ra các phân khúc khách hàng ẩn với thói quen mua hàng tương tự, mặc dù bạn chưa bao giờ gán nhãn rõ ràng cho các phân khúc đó trước đây. Điều này có thể cực kỳ giá trị cho hoạt động tiếp thị được nhắm mục tiêu hoặc đề xuất sản phẩm. Hãy coi nó như một phân tích khám phá. Học không giám sát giúp bạn hiểu cấu trúc cơ bản của dữ liệu và khám phá những hiểu biết mà bạn thậm chí có thể không biết để tìm kiếm.
Học tăng cường
Học tăng cường tập trung vào việc học thông qua tương tác và phản hồi. Hãy tưởng tượng một robot học cách điều hướng một mê cung. Nó bắt đầu mà không có kiến thức về bố cục của mê cung. Khi khám phá và tương tác với mê cung, nó thu thập dữ liệu — va vào tường (phản hồi tiêu cực) hoặc tìm đường tắt (phản hồi tích cực).
Thông qua quá trình thử và sai này, thuật toán sẽ học được những hành động nào dẫn đến kết quả tốt nhất. Nó giống như huấn luyện một con vật cưng. Bạn thưởng cho hành vi tốt và không khuyến khích hành vi xấu. Và theo thời gian, con vật cưng sẽ học cách thực hiện các hành động mong muốn. Tương tự, trong học tăng cường, thuật toán học cách tối đa hóa phần thưởng và giảm thiểu hình phạt bằng cách tương tác với môi trường của nó.
Loại hình học này đặc biệt hữu ích trong các tình huống mà bạn không thể cung cấp hướng dẫn rõ ràng hoặc dữ liệu được gán nhãn. Ví dụ, bạn có thể sử dụng học tăng cường để huấn luyện một chiếc xe tự lái điều hướng các tình huống giao thông phức tạp hoặc để tối ưu hóa hiệu suất của một robot trong một nhà máy sản xuất.
Ví dụ về các phương pháp tiếp cận học máy trên Google Cloud
Bảo trì dự đoán với Vertex AI (học có giám sát):
Cách hoạt động: Bằng cách huấn luyện một mô hình trên dữ liệu cảm biến từ các máy móc như nhiệt độ, áp suất và độ rung, Vertex AI có thể dự đoán khi nào một máy có khả năng bị hỏng, cho phép bảo trì chủ động và giảm thời gian ngừng hoạt động.
Phát hiện bất thường với BigQuery ML (học không giám sát):
Cách hoạt động: BigQuery ML có thể phân tích dữ liệu giao dịch lịch sử (số tiền, vị trí, thời gian, v.v.) để xác định các mẫu và gắn cờ các giao dịch bất thường có độ lệch đáng kể so với chuẩn mực. Điều này giúp ngăn chặn gian lận và giảm thiểu tổn thất tài chính.
Đề xuất sản phẩm với Vertex AI (học tăng cường):
Cách hoạt động: Vertex AI có thể huấn luyện một mô hình học tăng cường để đề xuất sản phẩm cho người dùng dựa trên lịch sử duyệt web, hành vi mua hàng và các yếu tố khác của họ. Mô hình học cách tối đa hóa sự tương tác của người dùng và doanh số bán hàng bằng cách liên tục tinh chỉnh các đề xuất của mình.
Điểm mấu chốt
Các mô hình học máy có thể được huấn luyện bằng các phương pháp tiếp cận học có giám sát, không giám sát hoặc tăng cường. Việc lựa chọn phương pháp tiếp cận phụ thuộc vào nhiệm vụ cụ thể và bản chất của dữ liệu có sẵn
Nhận xét
Đăng nhận xét