Зрение, основанное на искусственном интеллекте, пока существенно уступает зрению человека

Исследование: ИИ пока не научился видеть, как человек

Нейробиологи Западного университета, Онтарио, Канада показали, что на сегодня системы компьютерного зрения, основанные на нейросетях, воспринимают отдельные лица, автомобили и другие объекты окружающего мира с существенно большей ошибкой, чем зрение человека. Ошибка быстро растет, если объект движется. Это вызывает много вопросов о возможности использования компьютерного зрения в беспилотных машинах.

Нет, пока машины еще не готовы. Но они очень быстро участся

Когда человек видит знакомое лицо, мозгу требуется всего 100 миллисекунд (примерно 0,1 секунды), чтобы идентифицировать его и поместить в правильный контекст, чтобы человек мог правильно отреагировать.

Компьютеры могут делать это быстрее человека, но так ли они точны, как люди? Не всегда, и это проблема, говорится в исследовании, проведенном экспертом по нейровизуализации Марике Мур и ее коллегами из Западного университета, Онтарио, Канада.

Компьютеры можно научить обрабатывать поступающие данные, например, наблюдать за лицами и автомобилями, используя глубокие нейронные сети. Этот тип машинного обучения использует взаимосвязанные узлы или нейроны в многослойной структуре, напоминающей человеческий мозг.

Но «несмотря на впечатляющие перспективы, глубокие нейронные сети далеки от того, чтобы стать совершенными вычислительными моделями человеческого зрения», — говорит Мур.

Проблема компьютерного зрения

Команда использовала неинвазивный медицинский тест под названием магнитоэнцефалография (МЭГ), который измеряет магнитные поля, создаваемые электрическими токами мозга. Используя данные МЭГ, полученные от людей во время просмотра объектов, Мур и ее коллеги установили, что при распознавании человеком частей объектов, таких как «глаз», «колесо» и «лицо», мозг обрабатывает такие отклонения, которые нейронные сети «не ловят». Мозг лучше определяет объект по его части, при смене освещенности и т.д. И при этом мозг сразу присваивает распознанному объекту правильную категорию — «лицо», «колесо», «кошка».

Исследование показывает, что глубокие нейронные сети не могут полностью учесть нейронные реакции, измеренные у наблюдателей-людей при просмотре фотографий объектов. Это может иметь серьезные последствия для использования моделей глубокого обучения в реальных условиях, например, на беспилотных автомобилях.

«Нейронные сети не могут уловить визуальные особенности объекта, которые указывают на его категорию: это — лицо, это — кошка», — говорит Мур. — «Но мы предполагаем, что нейронные сети могут быть улучшены, если дать им более антропоморфный опыт обучения, например, режим обучения, который отчасти повторяет поведение людей во время их развития».

Но сегодня обучающих данных, по- видимому, нейросетям не хватает.