AI tiên tiến nhất thế giới không thể nói những gì trong những bức ảnh này. Bạn có thể?
Các nhà nghiên cứu từ UC Berkeley, Đại học Washington và Đại học Chicago đang xây dựng kho lưu trữ hình ảnh cuối cùng gây nhầm lẫn cho AI.
1 /16 Manhole bìa [Image: lịch sự Dan Hendrycks]
BỞI MARK WILSON4 PHÚT ĐỌC
Đó có phải là nắp hố ga hay chuồn chuồn ngồi trên bàn không? Đó có phải là một con kỳ nhông xanh hay chỉ là một con sóc chạy với vài hạt? Đó là một chiếc xe đạp một bánh hoặc một con cá sấu băng qua đường? Đối với con người, câu trả lời là rõ ràng. Nhưng trí thông minh nhân tạo nhận dạng hình ảnh tốt nhất trên thế giới không phải là một đầu mối.
Đó là bởi vì mỗi hình ảnh này đã được lựa chọn cẩn thận để đánh lừa công nghệ nhận dạng hình ảnh hiện đại. Chúng là một phần của bộ sưu tập 7.000 hình ảnh được giám sát bởi các nhà nghiên cứu từ UC Berkeley, Đại học Washington và Đại học Chicago.
Dan Hendrycks, một nghiên cứu sinh tiến sĩ về khoa học máy tính tại UC Berkeley, một tác giả của bài báo cho biết. Trong khi các nghiên cứu khác sử dụng dữ liệu nhân tạo để nghiên cứu tính mạnh mẽ, chúng tôi cho thấy các mô hình mắc lỗi nghiêm trọng và nhất quán cao trên dữ liệu thực [với ảnh thật].
Xe đạp ba bánh [Hình ảnh: lịch sự Dan Hendrycks]
Để hiểu tại sao điều đó quan trọng, hãy tua lại. Trong vài năm qua, nhận dạng hình ảnh đã thực sự tốt, rất nhanh. Điều đó phần lớn nhờ vào một bộ dữ liệu mở ngày càng phát triển được tạo ra bởi Đại học Stanford có tên ImageNet. Bộ sưu tập hiện bao gồm hơn 14 triệu bức ảnh, mỗi bức ảnh được dán nhãn với các số nhận dạng như trên cây Cây và trên bầu trời. Cơ sở dữ liệu khổng lồ này là một bộ đào tạo, hoặc tài liệu tham khảo cho các hệ thống AI mới để tìm hiểu cách xác định hình ảnh, giống như một đứa trẻ mới biết đi có thể tham khảo một cuốn sách ảnh để từ từ học từ mới. Trí thông minh nhân tạo được đào tạo với ImageNet, điều mà có lẽ bạn biết rõ nhất từ các dịch vụ của Microsoft như Bing, đã nhận được cực kỳ chính xác, có thể xác định các đối tượng với độ chính xác cao tới 95%. Điều này thực sự tốt hơn con người thực hiện cùng một công việc!
Nhưng việc thu hẹp khoảng cách chính xác 5% cuối cùng là một vấn đề cực kỳ lớn. Kể từ năm 2017, máy tính đã không thể chính xác hơn trong việc xác định hình ảnh. Đó là lý do tại sao các nhà nghiên cứu đang khám phá những cách để hiểu một vài hình ảnh mà máy tính dường như không thể phân tích được. Đội ngũ đằng sau bộ sưu tập mới đã quét sạch Flickr bằng tay, tìm kiếm những bức ảnh mà họ nghĩ có thể gây nhầm lẫn cho phần mềm. Họ đã kiểm tra chúng chống lại các mô hình AI được đào tạo trên ImageNet và nếu hình ảnh tỏ ra khó hiểu, những bức ảnh này đã được thêm vào tập dữ liệu mới của họ mà họ đặt tên là ImageNet-A. Về cơ bản, nó là chống ImageNet. 7.000 bức ảnh trong bộ sưu tập này giảm độ chính xác của AI từ hơn 90% xuống chỉ còn 2%. Bạn đã đọc đúng. Chín mươi tám trong số 100, các mô hình AI có tầm nhìn tốt nhất trên thế giới sẽ bị nhầm lẫn bởi những bức ảnh này.
Câu hỏi tại sao các hệ thống AI không hiểu những hình ảnh này rất phức tạp. Dạy AI ngày nay có xu hướng liên quan đến việc ném rất nhiều dữ liệu vào hộp đen Nói cách khác, bạn chỉ có thể đánh giá độ chính xác của nó dựa trên kết luận cuối cùng của nó, chứ không phải quá trình cần thiết để đạt được điều đó. Nếu hộp đen đó thấy đủ các biến thể của một cây mà nó bắt đầu xác định cây mới trong ảnh mới, chúng tôi coi đó là thành công. (Nhiệm vụ lặp đi lặp lại này được gọi là học máy.) Vấn đề là, chúng ta không biết tại sao AI lại quyết định rằng một cái cây là một cái cây. Có phải là hình dạng? Màu sắc? Bối cảnh? Kết cấu? Có phải vì cây có một số hình học cốt lõi thống nhất mà con người chưa bao giờ nhận ra? Chúng tôi không biết. AI được đánh giá bởi câu trả lời của nó, không phải lý luận của nó. Điều đó có nghĩa là chúng ta có thể nhận được tất cả các loại sai lệch bất ngờtừ AI, điều này đặt ra một vấn đề lớn khi các hệ thống AI đang được sử dụng trong công nghệ như xe hơi tự trị hoặc các lĩnh vực như tư pháp hình sự. Điều đó cũng có nghĩa là hệ thống nhận dạng hình ảnh không thông minh theo bất kỳ cách thực tế nào; họ giống như những người chơi trò chơi phù hợp hơn.
Sư tử biển [Hình ảnh: lịch sự Dan Hendrycks]
Xây dựng ImageNet-A là về việc đánh lừa AI để khám phá lý do tại sao một số hình ảnh nhất định gây nhầm lẫn cho các hệ thống này. Ví dụ, khi một AI nhầm một trong những hình ảnh của một con sóc đối với một con sư tử biển, sự thiếu thông minh và lý luận sâu sắc hơn bắt đầu trở nên rõ ràng. Hệ thống chỉ dựa vào kết cấu của những con vật này và không xem xét kích thước hoặc hình dạng tương đối của chúng để nhận dạng. Những bức ảnh mà đòi hỏi sự hiểu biết về hình dạng của một đối tượng dường như có khả năng đánh lừa một người mẫu, theo ông Hendrycks.
Với ImageNet-A, các nhà nghiên cứu đã tìm thấy thành công 7.000 điểm mù trong tầm nhìn AI. Điều đó có nghĩa là những hình ảnh này chỉ có thể đi vào một bộ đào tạo mới và khắc phục những thiếu sót của họ? Chắc là không. Vì có rất nhiều sự đa dạng và phức tạp trong thế giới thực, việc đào tạo những hình ảnh này có thể sẽ không dạy cho các người mẫu cách quản lý mạnh mẽ toàn bộ các yếu tố đầu vào trực quan, theo ông Hendrycks. Thu thập và dán nhãn, giả sử, 1 nghìn tỷ hình ảnh có thể giải quyết một số điểm mù mô hình, nhưng việc vá từng điểm mù trước đó có thể sẽ thất bại khi các kịch bản mới xảy ra và khi thế giới thay đổi.
Nói cách khác, chỉ cần thêm ngày càng nhiều ảnh vào bộ dữ liệu học máy hiện tại không thể khắc phục những thiếu sót cốt lõi trong logic của nó. Sẽ luôn có những hình ảnh mà một máy tính chưa từng thấy trước đây để xác định chính xác. Vì vậy, các nhà nghiên cứu có thể làm gì để thu hẹp khoảng cách 5% còn sót lại đó? Hendrycks nói rằng họ cần phát triển các phương pháp mới, bên ngoài giới hạn của học máy hiện đại, để tạo ra các hệ thống AI tinh vi hơn. Hoặc, bạn biết đấy, họ không thể làm điều đó và cho phép con người chúng ta giữ ưu thế tự mãn của mình so với máy móc chỉ lâu hơn một chút.
1 /16 Manhole bìa [Image: lịch sự Dan Hendrycks]
BỞI MARK WILSON4 PHÚT ĐỌC
Đó có phải là nắp hố ga hay chuồn chuồn ngồi trên bàn không? Đó có phải là một con kỳ nhông xanh hay chỉ là một con sóc chạy với vài hạt? Đó là một chiếc xe đạp một bánh hoặc một con cá sấu băng qua đường? Đối với con người, câu trả lời là rõ ràng. Nhưng trí thông minh nhân tạo nhận dạng hình ảnh tốt nhất trên thế giới không phải là một đầu mối.
Đó là bởi vì mỗi hình ảnh này đã được lựa chọn cẩn thận để đánh lừa công nghệ nhận dạng hình ảnh hiện đại. Chúng là một phần của bộ sưu tập 7.000 hình ảnh được giám sát bởi các nhà nghiên cứu từ UC Berkeley, Đại học Washington và Đại học Chicago.
Dan Hendrycks, một nghiên cứu sinh tiến sĩ về khoa học máy tính tại UC Berkeley, một tác giả của bài báo cho biết. Trong khi các nghiên cứu khác sử dụng dữ liệu nhân tạo để nghiên cứu tính mạnh mẽ, chúng tôi cho thấy các mô hình mắc lỗi nghiêm trọng và nhất quán cao trên dữ liệu thực [với ảnh thật].
Xe đạp ba bánh [Hình ảnh: lịch sự Dan Hendrycks]
Để hiểu tại sao điều đó quan trọng, hãy tua lại. Trong vài năm qua, nhận dạng hình ảnh đã thực sự tốt, rất nhanh. Điều đó phần lớn nhờ vào một bộ dữ liệu mở ngày càng phát triển được tạo ra bởi Đại học Stanford có tên ImageNet. Bộ sưu tập hiện bao gồm hơn 14 triệu bức ảnh, mỗi bức ảnh được dán nhãn với các số nhận dạng như trên cây Cây và trên bầu trời. Cơ sở dữ liệu khổng lồ này là một bộ đào tạo, hoặc tài liệu tham khảo cho các hệ thống AI mới để tìm hiểu cách xác định hình ảnh, giống như một đứa trẻ mới biết đi có thể tham khảo một cuốn sách ảnh để từ từ học từ mới. Trí thông minh nhân tạo được đào tạo với ImageNet, điều mà có lẽ bạn biết rõ nhất từ các dịch vụ của Microsoft như Bing, đã nhận được cực kỳ chính xác, có thể xác định các đối tượng với độ chính xác cao tới 95%. Điều này thực sự tốt hơn con người thực hiện cùng một công việc!
Nhưng việc thu hẹp khoảng cách chính xác 5% cuối cùng là một vấn đề cực kỳ lớn. Kể từ năm 2017, máy tính đã không thể chính xác hơn trong việc xác định hình ảnh. Đó là lý do tại sao các nhà nghiên cứu đang khám phá những cách để hiểu một vài hình ảnh mà máy tính dường như không thể phân tích được. Đội ngũ đằng sau bộ sưu tập mới đã quét sạch Flickr bằng tay, tìm kiếm những bức ảnh mà họ nghĩ có thể gây nhầm lẫn cho phần mềm. Họ đã kiểm tra chúng chống lại các mô hình AI được đào tạo trên ImageNet và nếu hình ảnh tỏ ra khó hiểu, những bức ảnh này đã được thêm vào tập dữ liệu mới của họ mà họ đặt tên là ImageNet-A. Về cơ bản, nó là chống ImageNet. 7.000 bức ảnh trong bộ sưu tập này giảm độ chính xác của AI từ hơn 90% xuống chỉ còn 2%. Bạn đã đọc đúng. Chín mươi tám trong số 100, các mô hình AI có tầm nhìn tốt nhất trên thế giới sẽ bị nhầm lẫn bởi những bức ảnh này.
Câu hỏi tại sao các hệ thống AI không hiểu những hình ảnh này rất phức tạp. Dạy AI ngày nay có xu hướng liên quan đến việc ném rất nhiều dữ liệu vào hộp đen Nói cách khác, bạn chỉ có thể đánh giá độ chính xác của nó dựa trên kết luận cuối cùng của nó, chứ không phải quá trình cần thiết để đạt được điều đó. Nếu hộp đen đó thấy đủ các biến thể của một cây mà nó bắt đầu xác định cây mới trong ảnh mới, chúng tôi coi đó là thành công. (Nhiệm vụ lặp đi lặp lại này được gọi là học máy.) Vấn đề là, chúng ta không biết tại sao AI lại quyết định rằng một cái cây là một cái cây. Có phải là hình dạng? Màu sắc? Bối cảnh? Kết cấu? Có phải vì cây có một số hình học cốt lõi thống nhất mà con người chưa bao giờ nhận ra? Chúng tôi không biết. AI được đánh giá bởi câu trả lời của nó, không phải lý luận của nó. Điều đó có nghĩa là chúng ta có thể nhận được tất cả các loại sai lệch bất ngờtừ AI, điều này đặt ra một vấn đề lớn khi các hệ thống AI đang được sử dụng trong công nghệ như xe hơi tự trị hoặc các lĩnh vực như tư pháp hình sự. Điều đó cũng có nghĩa là hệ thống nhận dạng hình ảnh không thông minh theo bất kỳ cách thực tế nào; họ giống như những người chơi trò chơi phù hợp hơn.
Sư tử biển [Hình ảnh: lịch sự Dan Hendrycks]
Xây dựng ImageNet-A là về việc đánh lừa AI để khám phá lý do tại sao một số hình ảnh nhất định gây nhầm lẫn cho các hệ thống này. Ví dụ, khi một AI nhầm một trong những hình ảnh của một con sóc đối với một con sư tử biển, sự thiếu thông minh và lý luận sâu sắc hơn bắt đầu trở nên rõ ràng. Hệ thống chỉ dựa vào kết cấu của những con vật này và không xem xét kích thước hoặc hình dạng tương đối của chúng để nhận dạng. Những bức ảnh mà đòi hỏi sự hiểu biết về hình dạng của một đối tượng dường như có khả năng đánh lừa một người mẫu, theo ông Hendrycks.
Với ImageNet-A, các nhà nghiên cứu đã tìm thấy thành công 7.000 điểm mù trong tầm nhìn AI. Điều đó có nghĩa là những hình ảnh này chỉ có thể đi vào một bộ đào tạo mới và khắc phục những thiếu sót của họ? Chắc là không. Vì có rất nhiều sự đa dạng và phức tạp trong thế giới thực, việc đào tạo những hình ảnh này có thể sẽ không dạy cho các người mẫu cách quản lý mạnh mẽ toàn bộ các yếu tố đầu vào trực quan, theo ông Hendrycks. Thu thập và dán nhãn, giả sử, 1 nghìn tỷ hình ảnh có thể giải quyết một số điểm mù mô hình, nhưng việc vá từng điểm mù trước đó có thể sẽ thất bại khi các kịch bản mới xảy ra và khi thế giới thay đổi.
Nói cách khác, chỉ cần thêm ngày càng nhiều ảnh vào bộ dữ liệu học máy hiện tại không thể khắc phục những thiếu sót cốt lõi trong logic của nó. Sẽ luôn có những hình ảnh mà một máy tính chưa từng thấy trước đây để xác định chính xác. Vì vậy, các nhà nghiên cứu có thể làm gì để thu hẹp khoảng cách 5% còn sót lại đó? Hendrycks nói rằng họ cần phát triển các phương pháp mới, bên ngoài giới hạn của học máy hiện đại, để tạo ra các hệ thống AI tinh vi hơn. Hoặc, bạn biết đấy, họ không thể làm điều đó và cho phép con người chúng ta giữ ưu thế tự mãn của mình so với máy móc chỉ lâu hơn một chút.
Nhận xét
Đăng nhận xét