Máy tính có thể tự dạy cho mình những nhận thức chung không?
Trong một quá khứ không xa, việc cho rằng một máy tính có thể chứng minh được “ý thức chung” sẽ được coi là một oxymoron. Nhưng các siêu máy tính như IBM’s Watson có thể mang đến những vai trò mới cho máy tính.Hiện tại, các nhà nghiên cứu tại Đại học Carnegie Mellon đang chạy một chương trình máy tính 24/7 trong nỗ lực thu thập dữ liệu và dạy cho bản thân hiểu biết chung trên quy mô lớn.
Chương trình này có tên là Never Ending Image Learner (NEIL) vì phần mềm này tìm kiếm hình ảnh trên Web, cố gắng hết sức để tự hiểu chúng và vì nó xây dựng một cơ sở dữ liệu trực quan đang phát triển, thu thập ý thức chung trên quy mô lớn.
NEIL thúc đẩy những tiến bộ gần đây trong thị giác máy tính cho phép các chương trình máy tính xác định và gắn nhãn các đối tượng trong hình ảnh, mô tả các cảnh và nhận ra các thuộc tính, chẳng hạn như màu sắc, ánh sáng và vật liệu, tất cả đều có sự giám sát tối thiểu của con người.
Đổi lại, dữ liệu mà nó tạo ra sẽ nâng cao hơn nữa khả năng hiểu thế giới thị giác của máy tính.
NEIL có những tiến bộ đáng kể so với các thiết bị robot trước đó vì nó có thể tạo ra các liên kết giữa mọi thứ để có được thông tin theo lẽ thường. Thông tin mà mọi người biết gần như bằng trực giác - rằng xe hơi thường được tìm thấy trên đường, các tòa nhà có xu hướng thẳng đứng và vịt trông giống như ngỗng.
Dựa trên các tham chiếu văn bản, có vẻ như màu liên quan đến cừu là màu đen, nhưng mọi người - và bây giờ là NEIL - vẫn biết rằng cừu thường có màu trắng.
Abhinav Gupta, phó giáo sư nghiên cứu tại Carnegie Mellon’s Robotics Institute cho biết: “Hình ảnh là cách tốt nhất để tìm hiểu các đặc tính thị giác.
“Hình ảnh cũng bao gồm nhiều thông tin cảm nhận chung về thế giới. Mọi người tự học điều này và với NEIL, chúng tôi hy vọng rằng máy tính cũng sẽ làm được như vậy. ”
Một cụm máy tính đã chạy chương trình NEIL từ cuối tháng 7 và đã phân tích được ba triệu hình ảnh, xác định 1.500 loại đối tượng trong nửa triệu hình ảnh và 1.200 loại cảnh trong hàng trăm nghìn hình ảnh.
Nó đã kết nối các dấu chấm để tìm hiểu 2.500 liên kết từ hàng nghìn trường hợp.
Một động lực cho dự án NEIL là tạo ra cơ sở kiến thức có cấu trúc trực quan lớn nhất thế giới, nơi các đối tượng, cảnh, hành động, thuộc tính và các mối quan hệ theo ngữ cảnh được gắn nhãn và lập danh mục.
“Điều chúng tôi đã học được trong 5-10 năm nghiên cứu về thị giác máy tính là bạn càng có nhiều dữ liệu thì thị giác máy tính càng trở nên tốt hơn,” Gupta nói.
Một số dự án, chẳng hạn như ImageNet và Visipedia, đã cố gắng biên dịch dữ liệu có cấu trúc này với sự hỗ trợ của con người.
Nhưng quy mô của Internet quá rộng lớn - chỉ riêng Facebook đã nắm giữ hơn 200 tỷ hình ảnh - nên hy vọng duy nhất để phân tích tất cả là dạy cho máy tính tự làm điều đó.
Mọi người cũng cho NEIL biết các loại đối tượng, cảnh, v.v., để tìm kiếm và phân tích. Nhưng đôi khi, những gì NEIL phát hiện có thể khiến các nhà nghiên cứu ngạc nhiên.
Chẳng hạn, có thể đoán trước rằng tìm kiếm “apple” có thể trả về hình ảnh trái cây cũng như máy tính xách tay. Nhưng Gupta và nhóm của ông, tất cả những người cho thuê đất, đều không biết rằng một cuộc tìm kiếm F-18 sẽ không chỉ xác định được hình ảnh của một chiếc máy bay chiến đấu mà còn cả những chiếc catamaran lớp F18.
Khi quá trình tìm kiếm được tiến hành, NEIL phát triển các danh mục phụ của đối tượng - xe ba bánh có thể dành cho trẻ em, người lớn và có thể có động cơ hoặc ô tô có nhiều nhãn hiệu và kiểu dáng khác nhau.
Và nó bắt đầu nhận thấy các liên kết - ví dụ, ngựa vằn có xu hướng được tìm thấy ở thảo nguyên và các sàn giao dịch chứng khoán thường đông đúc.
Trước khi NEIL có thể trở thành một cái tên quen thuộc, quy mô sẽ cần phải giảm xuống vì NEIL có tính chuyên sâu về tính toán, với chương trình chạy trên hai cụm máy tính bao gồm 200 lõi xử lý.
Nguồn: Đại học Carnegie Mellon