ФРИДА, робот с искусственным интеллектом, умеет рисовать. Но занимается ли это искусством?

Aug 14, 2023

Поддерживается

разум

Исследователи из Университета Карнеги-Меллон разработали руку с искусственным интеллектом, которая может рисовать абстрактные акрилы. Это искусство?

Оливер Ванг

Чтобы узнать больше об аудиожурналистике и повествовании, загрузите New York Times Audio, новое приложение для iOS, доступное для подписчиков новостей.

Однажды недавно на столе в лаборатории Джин О в районе Сквиррел-Хилл в Питтсбурге рука робота возилась с холстом. Медленно, словно воздух был вязким, он окунул кисть в лужу светло-серой краски на палитре, развернулся и провел по холсту, оставив след длиной в дюйм среди множества других мазков. Затем он отстранился и остановился, словно оценивая свою работу.

Штрихи, преимущественно разных оттенков серого, намекали на что-то абстрактное — возможно, на муравейник. Доктор О, глава разведывательной группы роботов в Университете Карнеги-Меллон, одетый в толстовку с надписью «Среди нас есть художники», смотрел на это с одобрением. Рядом стоял ее докторант Петер Шальденбранд.

Работа доктора О, которая включает в себя видение роботов и темы автономной авиации, часто затрагивает так называемый разрыв между симуляцией и реальностью: как машины, обученные в моделируемой среде, могут действовать в реальном мире. В последние годы г-н Шальденбранд возглавил усилия по преодолению разрыва между симуляцией и реальностью между сложными программами создания изображений, такими как Stable Diffusion, и физическими произведениями искусства, такими как рисунки и картины. В основном это проявилось в проекте, известном как FRIDA, последняя версия которого ритмично кружилась в углу лаборатории. (FRIDA — это аббревиатура от «Инициативы по развитию искусств и робототехники», хотя исследователи выбрали аббревиатуру, вдохновленную Фридой Кало, прежде чем решить, что она означает.)

Процесс перехода от языковых подсказок к пиксельным изображениям и мазкам кисти может быть сложным, поскольку робот должен учитывать «шум реального мира», сказал доктор О. Но она, г-н Шальденбранд и Джим Макканн, робототехник из Карнеги-Меллона, который также участвовал в разработке FRIDA, считают, что исследование стоит продолжать по двум причинам: оно может улучшить интерфейс между людьми и машинами и может, посредством искусства, помочь соединять людей друг с другом.

«Эти модели обучаются на основе данных каждого», — сказал доктор Макканн, имея в виду большие языковые модели, которые используются в таких инструментах, как ChatGPT и DALL-E. «И поэтому я все еще думаю, что мы выясняем, как подобные проекты, использующие такие модели, могут принести пользу людям».

Разрыв между симуляцией и реальностью представляет собой удивительно сложную проблему для робототехников и компьютерных инженеров. Некоторые системы искусственного интеллекта могут перечислять шаги, необходимые для ходьбы (напрягите квадрицепсы и согните заднюю большеберцовую кость, отклоните вес тела назад и напрягите большую ягодичную мышцу) и могут моделировать походку тела в виртуальном мире. Так что заманчиво думать, что эти системы могут легко заставить физическое тело ходить в реальном мире.

Не так. В 1980-х годах ученый-компьютерщик Ганс Моравец заметил, что ИИ хорошо справляется со сложными рассуждениями и анализом огромных объемов данных, но плохо справляется с простыми физическими действиями, такими как взятие бутылки с водой. Это известно как парадокс Моравца. (Физическое превосходство человека можно объяснить долгой историей эволюции нашего тела; простые для нас задачи подкреплены миллионами лет дарвиновских экспериментов.)

Живопись, которая часто смешивает концептуальные идеи и базовые физические действия, наглядно демонстрирует парадокс: как нам удается уловить абсурдность человеческого сознания с помощью движений руки?

Инструменты искусственного интеллекта, генерирующие изображения, такие как Midjourney, DALL-E и Stable Diffusion, обучаются путем подачи нейронным сетям огромных баз данных изображений и соответствующих текстовых описаний. Запрограммированная цель — смоделировать отношения между значениями слов и особенностями изображений, а затем использовать эти отношения в «диффузионной модели» для создания оригинальных изображений, сохраняющих смысл конкретных описаний. (Подсказка «Семейный пикник в парке» будет генерировать новое изображение при каждом использовании; каждое из них будет понятно как семейный пикник в парке.)

Предыдущий: Знакомьтесь: Морфобот: новый подход к поиску и спасению с помощью многоразовых конечностей Следующий: Керамические подшипники для медицинских роботов

Отправить запрос

Отправлять