С развитием технологий нейросетей и машинного обучения, расширяется и сфера их применения. Если раньше нейросети использовались исключительно для проведения сложных математических, медицинских, физический, биологических расчетов и прогнозирования, то сейчас эти технологии приобретают широкую популярность в более «приземленной» среде – в сфере развлечений. Делая лишь первые шаги в этом направлении, они уже способны демонстрировать удивительные и порой даже выдающиеся результаты. Сегодня разберем несколько наглядных примеров.
Процесс ремастеринга видео настолько сложный и времязатратный, что многие шедевры мировой классики мы, возможно, так и не увидели бы с новой, современной, четкой и сочной картинкой. Однако в мире полно толковых фанатов и энтузиастов, которые отлично разбираются в новых технологиях, и в частности технологиях нейросетей и машинного обучения, с помощью которых можно добиться поразительных результатов даже в домашних условиях. Например, пользователь YouTube Стефан Румен с псевдонимом CaptRobau решил продемонстрировать некоторые возможности нейросетей в обработке видео старого фантастического сериала.
Более ранней его работой является Remako Mod — «HD-ремейк» классической и очень популярной японской RPG Final Fantasy VII под названием. Для этого он использовал ИИ-алгоритм AI Gigapixel, с помощью которого смог масштабировать изображение оригинальной картинки в 4 раза, переведя ее в HD-разрешение без каких-либо существенных изменений в изначальном арт-дизайне. Таким образом, пока вы будет ждать очередное десятилетие до того момента, когда японский разработчик и издатель компьютерных игр Square Enix официально выпустит ремастер, пожалуй, одной из лучших частей данной игровой серии, можете попробовать мод Стефана Румена самостоятельно, скачав его с этого сайта.
К слову, в последнее время технологии нейросетей для ремастеринга старых игр и приведения их к более актуальному и современному виду без изменения общей оригинальной концепции стало настоящим трендом среди различных мододелов. К примеру, не так давно мы рассказывали о технологии ESRGAN (Enhanced Super Resolution Generative Adversarial Networks), с помощью которой реализуются технологии масштабирования изображений с 2-8-кратным увеличением качества. Алгоритму «скармливают» оригинальное изображение с низким разрешением, после чего он не только увеличивает исходное разрешение последнего, но еще и повышает качество изображения, подрисовывая реалистичные детали и делая текстуры «более естественными».
Сравнение качества текстур: слева оригинальная текстура из игры Morrowind, справа – обработанная нейросетью
Персонаж из Doom (слева — было, справа — стало)
Обработка фона в игре Resident Evil 3
Почитать более подробно и посмотреть примеры можно перейдя по этой ссылке.
Как бы то ни было, в перерывах между ремастерингом «Седьмой Финалки» Стефан Румен решил заняться другим проектом – использовать ту же технологию машинного обучения, но уже для обработки кадров классического фантастического сериала 90-х годов. В качестве объекта для экспериментов Румен выбрал «Звездный путь: Дальний космос девять».
Масштабирование «живого изображения» ТВ-сериала по сложности очень отличается от масштабирования заранее отрендеренного изображения Final Fantasy VII, отмечает автор, поэтому финальный результат хоть и выглядит заметно лучше исходных материалов в низком разрешении, но эта картинка все еще далека от того идеала, о котором вы могли мечтать еще с момента появления на рынке первых Blu-ray-проигрывателей. Изредка на экране появляются небольшие «артефакты». Но, повторимся, в целом все выглядит более чем достойно. А, в общем, смотрите сами.
Для данного проекта Румен также использовал алгоритм AI Gigapixel, который был обучен правке изображений на базе реальных фотографий. Автор отмечает, что новая картинка была получена в формате 1080p и 4k, но так как у Румена нет телевизора или монитора с родным разрешением 4K, адекватно оценить 4K-вариант он не может.
К сожалению, увидеть сериал целиком в Full HD-качестве нельзя. Процесс обработки всего исходного материала занял бы очень много времени, поэтому Румен для демонстрации использовал лишь отдельные кадры из разных серий. По его словам, он занялся этим проектом лишь по одной причине – показать, что это действительно возможно. По его мнению, целая команда профессионалов, работающая в крупной телевизионной компании и имеющая в своем распоряжении более подходящее и мощное для такой работы компьютерное оборудование сможет справиться с этой задачей гораздо лучше.
Использование нейросетей для упрощения работы по обработке старых изображений из видеоигр и фильмов являются не единственными сферами, где такие технологии способны проявить свои таланты. В современном мире, где все большую популярность приобретают обзорные панорамные камеры, способные производить с углом 360 градусов, а также гарнитуры виртуальной реальности, разработчики стали активно исследовать потенциал панорамной съемки.
Одной из последних разработок в этом направлении является нейросеть, способная озвучивать панорамные статичные изображения. Ее авторами являются специалисты в сфере машинного обучения из Массачусетского, Колумбийского университетов и Университет Джорджа Мейсона.
Созданный алгоритм определяет тип окружения и объекты на фотографии, а затем подбирает и расставляет звуки из использующейся базы данных в соответствии с пространственным расчетом расстояния до их источников на этом изображении. Благодаря этому панорамное изображение приобретает реалистичный и объемный звук, позволяющий совершенно по-новому оценить представленный снимок.
По мнению разработчиков этой нейросети, технология может найти интерес среди разработчиков VR-контента (фильмов и игр). Последним в данном случае не придется накладывать все звуки на панорамное изображение вручную, нейросеть сможет сделать все это самостоятельно.
Подписывайтесь на наш Яндекс.Дзен. Там можно найти материалы, которые не публикуются на сайте.