Андрей Борисов
Фото здесь и далее: из личного архива
Андрей Борисов

Специальные программы для написания музыки существуют давно. В чем их принципиальное отличие от современных нейросетей, которые тоже могут создавать музыку?

Да, в звукозаписи цифровые технологии начали применяться еще в прошлом веке, это позволило оптимизировать процесс производства фонограмм и сделать его более качественным. По мере развития технологии позволили эмулировать, то есть скопировать, звучание реальных акустических музыкальных инструментов. Тут речь идет как о синтезаторах, так и о сэмплерных библиотеках, то есть наборах звуков, которые изначально были записаны живыми исполнителями или смоделированы на компьютере. С их помощью можно воспроизводить звучание отдельных инструментов или целой оркестровой группы. Сейчас для нас это не кажется чем-то необычным, ведь мы можем в приложении на телефоне сыграть мелодию звуком скрипки, но в свое время это был довольно значимый шаг для музыкальной индустрии.

То есть стало возможным обойтись без музыканта?

По сути, да. Но если без исполнителя с музыкальным инструментом в руках можно обойтись, то автор по-прежнему нужен. Кто-то должен решить, какие ноты и каким образом будет воспроизводить программа. Идея использования нейросетей, напротив, состоит в замещении автора. Искусственный интеллект на основе тех данных, которые у него есть, занимается музыкальной составляющей — принимает решение о выборе нот, выстраивающихся в мелодию, о гармонии, о форме произведения и инструментовке.

А что делают нейросети в звукорежиссуре? Могут ли они сопровождать концерты и другие мероприятия с живым звуком?

В концертной работе и на «живых» шоу сейчас используется много автоматизации, которая в разы упрощает работу звукорежиссеров и делает возможным то, что сделать вручную иногда нереально. Но тут речь идет о сложных запрограммированных алгоритмах, по которым работает техника, но все же не об искусственном интеллекте. То есть система не может работать за пределами алгоритма: никаких решений, которых не предусмотрено изначально, она не принимает. ИИ как раз помогает создавать такие системы, поскольку с учетом всех факторов, они получаются довольно сложные. Похожие методы сейчас часто используются в IT. По крайней мере, мне кажется целесообразным такое использование нейросетей на данный момент. А вот чтобы передать ИИ возможность принимать самостоятельные непрогнозируемые решения, еще должно пройти какое-то время.

Что нужно освоить, чтобы писать музыку с помощью нейронки? Насколько вообще предсказуем результат?

Важно знать, как устроена нейросеть, ее интерфейс. То есть понимать, каким образом вы с ней будете взаимодействовать. Например, нейросеть может быть встроена в алгоритмы программы, которой вы пользуетесь. Дальше необходимо решить, в каком виде вам нужен результат. Если мы говорим о музыке, то тут могут быть разные варианты, например готовый аудиофайл или только нотная запись. Возможно и то и другое, главное — правильно понять задачу и выбрать подходящие инструменты. Ну и, помимо умения пользоваться самой нейросетью, нужно разбираться в музыке, в музыкальных терминах и так далее.

Распространяется ли на такую музыку авторское право?

Насколько мне известно, любое произведение, которое создано ИИ, можно свободно использовать. А вот как быть, если нейросеть сделала лишь часть работы? Думаю, это пока открытый вопрос для многих областей, связанных с ИИ.

Вы следите за развитием нейросетей?

Да, особенно в той области, которая связана со звуком. Не так давно появилась новая версия Chat gpt — и интерес к нейросетям сильно вырос. В звукорежиссуре нейросетям также находят применение, хотя и выглядит это несколько иначе. Наверное, показательным будет пример из сферы реставрации и восстановления аудиозаписей. Скажем, если голос записан на улице, где очень шумно, нейросеть позволяет проанализировать запись, разделить человеческую речь и шум улицы и оставить только то, что нам нужно. Преимущество перед системами шумоподавления, которые не используют ИИ, тут вот в чем: если посмотреть на спектр аудиосигнала (для этого нужен спектроанализатор — прибор для измерения и отображения энергии сигнала по частотам), то можно увидеть, что и речь, и шум улицы могут находиться в одном частотном диапазоне, поэтому привычные средства шумоподавления, убирая шум, также затрагивают и полезную для нас часть сигнала, в данном случае — человеческую речь. Это сказывается на качестве: чем сильнее мы убираем шум, тем сильнее страдает голос. В свою очередь люди могут фокусировать внимание и среди шума различать то, что им важно и интересно. Нейросеть работает схожим образом.

Нейросеть — помощник звукорежиссера или его потенциальный конкурент?

Сейчас нейросеть предстает как помощник для музыкантов и тех, кто работает со звуком. Даже с использованием нейросетей остается огромный простор для такой деятельности, как звукорежиссура и композиторская работа. 

Беседовала Анна Муравьева