Tháng 10 năm ngoái, một tháng trước khi ChatGPT ra mắt, OpenAI thuê Boru Gollo, một luật sư ở Kenya thử nghiệm mô hình AI có tên GPT-3.5 với mục đích tìm ra những định kiến chống lại người châu Phi và người Hồi giáo. Khác với những người chuyên dán nhãn AI, ông được giao nhiệm vụ "đầu độc AI", tức đưa ra các câu lệnh khiến chatbot tạo ra phản hồi có hại, thiên vị.
Gollo là một trong 50 chuyên gia bên thứ ba được OpenAI tuyển để trở thành thành viên của red team (đội đỏ), những người huấn luyện các mô hình AI như ChatGPT bằng nội dung sai lệch với mục đích sớm phát hiện và loại bỏ chúng trước khi giới thiệu phiên bản chính thức.
Ở OpenAI, các thành viên "red team" thao tác trên cả GPT-3, GPT-3.5 và GPT-4. Họ nhập các nội dung gây hại, chẳng hạn viết một bài trên Facebook về cách gia nhập khủng bố, tìm nơi bán súng không có giấy phép, chế tạo chất nổ tại nhà, sau đó huấn luyện AI không trả lời nếu người dùng truy vấn nội dung tương tự trong tương lai. Trong vai trò của mình, đội đỏ phải "tư duy như một kẻ thù của AI" nhằm đánh lạc hướng hoặc đánh lừa hệ thống, từ đó phát hiện điểm mù cũng như rủi ro tiềm ẩn để khắc phục.
Khi hàng loạt ông lớn công nghệ chạy đua phát triển các mô hình AI tạo sinh, vai trò của red team càng trở nên quan trọng. Hồi tháng 7, Meta cũng xây dựng đội hình tương tự cho mô hình Llama 2, trong khi Google đã thành lập nhóm từ đầu năm.
Tuy nhiên, các thành viên trong nhóm red team được ví như "người đi trên dây" khi phải cân bằng giữa sự an toàn và bảo mật, đồng thời đảm bảo nội dung xấu bị loại một cách phù hợp nhằm đem lại cho người dùng cuối các chức năng hữu ích. "Một mô hình nói không với mọi thứ sẽ rất an toàn nhưng lại vô dụng. Càng tạo ra thứ hữu ích, rủi ro phải đối mặt ngày càng cao vì mô hình có thể đưa ra câu trả lời thiếu an toàn", Cristian Canton, người đứng đầu bộ phận red team của Facebook, cho biết.
Thực tế, mô hình đội đỏ đã xuất hiện từ những năm 1960, khi các cuộc tấn công đối nghịch được tạo ra theo dạng mô phỏng nhằm đảm bảo hệ thống máy tính hoạt động ổn định. "Trong máy tính, không có khái niệm 'an toàn'. Thay vào đó, những gì kỹ sư có thể nói là: chúng tôi đã cố gắng nhưng chưa phá vỡ được nó", Bruce Schneier, chuyên gia bảo mật và là thành viên tại Trung tâm nghiên cứu Berkman Klein thuộc Đại học Harvard, nói.
Khác với máy tính, AI tạo sinh được đào tạo trên kho dữ liệu khổng lồ. Theo Daniel Fabian, người đứng đầu red team của Google, mô hình AI khác hẳn bảo mật truyền thống. Ngoài đưa ra câu hỏi nguy hiểm và độc hại để huấn luyện, các thành viên phải sử dụng chiến thuật như trích xuất dữ liệu đào tạo, chủ yếu là thông tin nhận dạng cá nhân như tên, địa chỉ và số điện thoại, cũng như "đầu độc" tập dữ liệu bằng cách thay đổi một phần nội dung trước khi sử dụng để huấn luyện mô hình AI.
Theo Daniel Rohrer, Phó giám đốc bảo mật phần mềm của Nvidia, lĩnh vực huấn luyện ngược mô hình AI đang trong giai đoạn đầu, còn các nhóm "rất nhỏ bé", nên họ thường có xu hướng liên minh để chia sẻ những gì đã phát hiện.
Ram Shankar Siva Kumar, có 5 năm kinh nghiệm về huấn luyện AI, nói trước khi thử nghiệm một hệ thống trí tuệ nhân tạo, nhóm sẽ thu thập dữ liệu về những mối đe dọa mạng từ các nguồn gọi là "tai mắt Internet". Sau đó, ông liên hệ với các red team ở nơi khác, như Microsoft hay Google, nhằm xác định lỗ hổng nào trong hệ thống AI cần nhắm tới và cách thức nhắm tới để khắc phục.
Với sự phát triển ngày càng tăng, AI đang được chính phủ nhiều nước đưa vào tầm kiểm soát. Để đối phó với nhiều tình huống, các công ty AI đã mở mô hình để hacker có thể tấn công. Sự kiện bảo mật Defcon ở Las Vegas tháng trước được xem là cuộc tập trận cho các red team AI. Tám công ty OpenAI, Google, Meta, Nvidia, Stability AI và Anthropic đã "mở cửa" mô hình AI để hơn 2.000 hacker tấn công nhằm tìm ra lỗ hổng bảo mật. Đổi lại, hacker sẽ nhận được một khoản tiền nhất định tùy vào mức độ nghiêm trọng của lỗ hổng. Trong 8 mô hình kể trên, hacker đã tìm thấy khoảng 2.700 sai sót.
"Phương châm của chúng tôi là: Càng đổ mồ hôi khi luyện tập, bạn càng ít đổ máu trong trận chiến", Canton của Facebook cho biết.
Ý kiến ()