본문 바로가기
AI 도구

🎶🎹구글 마젠타 리얼타임: 당신의 음악적 상상력을 현실로 연주하는 AI

by James AI Explorer 2025. 6. 23.
    728x90

    안녕하세요! 오늘은 Google의 Magenta 프로젝트에서 새롭게 공개한 실시간 음악 생성 AI 모델, 마젠타 리얼타임(Magenta RealTime, 이하 마젠타 RT)에 대해 알아보겠습니다. 이 모델은 단순한 음악 생성 기능을 넘어, 실시간 오디오 스트리밍, 다양한 음악 스타일의 블렌딩, 그리고 사용자와의 상호작용을 통한 창의적 연주라는 새로운 가능성을 보여주는 ‘연주하는 AI’입니다. 특히 Magenta RT는 오픈소스이자 오픈-웨이트(open-weights) 기반으로 누구나 접근 가능하며, 실시간 음악 생성이라는 고난이도 작업을 로컬 장치 또는 Colab TPU 상에서 구현할 수 있습니다. 또한 사용자는 실시간으로 음악을 만들고, 스타일을 조합하며, 즉흥적인 공연까지도 가능합니다. 이번 블로그에서는 마젠타 RT의 기본 개요와 동작 원리, 주요 기능, 실사용 예시, 테스트 결과에 대해 살펴보겠습니다. 

    🎶🎹구글 마젠타 리얼타임: 당신의 음악적 상상력을 현실로 연주하는 AI

     


    1. 마젠타 RT 개요

    마젠타 RT는 약 8억 개의 매개변수를 가진 자동회귀 트랜스포머 모델로, 주로 연주곡 위주의 약 19만 시간 분량의 스톡 음악 데이터를 학습했으며, 음악 오디오를 스트리밍 방식으로 생성할 수 있습니다. 이는 사용자가 실시간으로 음악을 만들고, 제어하며, 연주할 수 있도록 돕는 오픈-웨이트(open-weights) 실시간 생성 음악 모델로서 라이브 음악 탐색 및 연주에 독특한 기회를 제공합니다.

     

    Magenta 프로젝트의 일환으로 개발된 이 모델은 인간의 창의성을 향상시키는 것을 목표로 합니다. AI가 창의성을 높이는 새로운 기회를 제공하는 동시에, 전통적인 방식에 비해 수동적인 창작과 소비를 유발할 수도 있다는 점을 인지하며, 마젠타 RT는 기술 격차를 해소하고 창작을 더 쉽게 만드는 데 중점을 둡니다. 이는 연구원, 예술가, 그리고 창의적인 코더들이 모델을 직접 활용하고, 확장하며, 자신들의 창의적인 목표를 달성할 수 있도록 코드를 제공하고자 하는 Magenta 프로젝트의 꾸준한 노력을 반영합니다.

     

    마젠타 RT는 현재 무료로 사용 가능한 Colab TPU에서 실행될 수 있으며, 궁극적으로는 일반 소비자 하드웨어에서 로컬로 실행되는 것을 목표로 합니다. 코드베이스는 Apache 2.0 라이선스 하에, 모델 가중치는 Creative Commons Attribution 4.0 International 라이선스 하에 제공되며, 사용자는 생성된 콘텐츠의 책임에 대한 추가 약관을 준수해야 합니다.

    https://magenta.tensorflow.org/magenta-realtime

     

    Magenta RealTime: An Open-Weights Live Music Model

    Magenta RealTimeToday, we’re happy to share a research preview of Magenta RealTime (Magenta RT), an open-weights live music model that allows you to interact...

    magenta.tensorflow.org

    728x90

    2. 마젠타 RT 특징 및 주요 기능

    마젠타 RT는 실시간 음악 생성을 위해 여러 가지 핵심적인 특징과 기능을 제공합니다.

    • 스트리밍 음악 생성 및 청크 기반 처리: 마젠타 RT는 음악 오디오를 짧은 청크(2초)로 생성하며, 과거 10초 분량의 컨텍스트를 기반으로 다음 오디오 청크(세밀한 오디오 토큰)를 생성합니다. 청크 사이의 경계 아티팩트(artifacts)를 줄이기 위해 크로스페이딩(crossfading) 기법을 사용합니다. 이는 실시간 생성(오디오 길이 X초를 X초 미만으로 생성)과 인과적 스트리밍(온라인 생성), 그리고 낮은 지연 시간의 제어 가능성을 모두 만족시키며, 라이브 생성 음악의 어려움을 극복합니다. 예를 들어, Colab 무료 티어 TPU(v2-8 TPU)에서는 2초의 오디오를 1.25초 만에 생성합니다.
    마젠타 RT 동작 원리
    • MusicCoCa를 통한 스타일 블렌딩: MusicCoCa는 텍스트와 오디오 스타일의 공동 임베딩(joint embedding) 모델입니다. 마젠타 RT는 MusicCoCa 임베딩을 기반으로 작동하므로, 다양한 텍스트 및 오디오 프롬프트를 사용하여 스타일을 매끄럽게 블렌딩할 수 있습니다. 사용자는 스타일 임베딩을 조작하여 실시간으로 음악을 형성하고 변형할 수 있으며, 다양한 스타일, 악기, 음악적 속성을 혼합할 수 있습니다.
    • SpectroStream을 이용한 고음질 오디오 처리: SpectroStream은 고음질 음악 오디오(스테레오, 48kHz)에 작동하는 불연속 오디오 코덱 모델입니다. 마젠타 RT는 내부적으로 SpectroStream 오디오 토큰을 언어 모델을 사용하여 모델링합니다. 이는 SoundStream의 후속 모델로서 더욱 향상된 오디오 표현을 제공합니다.

    • 잠재 공간 탐색 및 실시간 상호작용: 마젠타 RT는 다양한 악기 오디오의 잠재 공간을 탐색할 수 있는 기능을 제공합니다. 이를 통해 장르 간의 새로운 음악, 특이한 악기 조합 또는 사용자 자신의 오디오 샘플을 탐색할 수 있습니다. 실시간으로 프롬프트 조합을 조정하는 능력은 사용자가 음향적 풍경을 효율적으로 탐색하고, 더 큰 음악 작품의 일부로 사용할 새로운 질감과 루프를 찾을 수 있게 해줍니다. 이러한 실시간 상호작용은 그 자체로 일종의 음악 공연(DJ 세트 또는 즉흥 연주)이 될 수 있으며, 예술 설치물이나 비디오 게임과 같은 물리적/가상 공간에 인터랙티브 사운드스케이프를 제공하는 데도 활용될 수 있습니다.
    • 라이브 상호작용의 가치: 라이브 상호작용은 사용자에게 더 많은 것을 요구하지만, 그만큼 더 많은 것을 돌려줄 수 있습니다. 인간과 모델 간의 지속적인 인식-행동 루프는 창의적인 몰입 상태에 도달하게 하여, 최종 결과물보다는 과정의 즐거움에 집중할 수 있도록 합니다. 높은 대역폭의 통신 및 제어 채널은 사용자의 모든 행동이 결과에 영향을 미치므로 더욱 독특하고 개인적인 결과물을 만들어냅니다. 

    제한 사항: 마젠타 RT는 혁신적이지만, 몇 가지 알려진 제한 사항이 있습니다:

    • 광범위한 음악 스타일 커버리지: 주로 서양 연주곡에 훈련되어 있어 보컬 연주나 전 세계의 풍부한 음악적 전통에 대한 커버리지가 불완전합니다.
    • 보컬: 모델은 비언어적 발성이나 콧노래를 생성할 수 있지만, 가사에 기반하지 않으므로 실제 단어를 생성할 가능성이 낮습니다. 다만, 명시적이거나 문화적으로 민감한 가사 내용을 생성할 위험은 남아있습니다.
    • 지연 시간: 마젠타 RT LLM이 2초 청크로 작동하기 때문에, 스타일 프롬프트에 대한 사용자 입력이 음악적 출력에 영향을 미치는 데 2초 이상 걸릴 수 있습니다.
    • 제한된 컨텍스트: 마젠타 RT 인코더는 최대 오디오 컨텍스트 윈도우가 10초이므로, 모델은 그 이전에 출력된 음악을 직접 참조할 수 없습니다. 멜로디, 리듬, 코드 진행을 생성하기에는 충분한 컨텍스트이지만, 자동으로 장기적인 곡 구조를 생성할 수는 없습니다.


    3. 마젠타 RT 사용 방법

    마젠타 RT를 시작하는 가장 빠른 방법은 공식 Colab 데모를 시도해보는 것입니다. 이 데모는 무료로 사용 가능한 TPU에서 실시간으로 실행됩니다. Colab 데모 사용법에 대한 비디오 워크스루도 제공됩니다.

    https://colab.research.google.com/github/magenta/magenta-realtime/blob/main/notebooks/Magenta_RT_Demo.ipynb

     

    Magenta_RT_Demo.ipynb

    Run, share, and edit Python notebooks

    colab.research.google.com

    TPU 또는 GPU가 장착된 머신을 가지고 있다면, 아래의 설치 지침을 따라 로컬에서 마젠타 RT를 실행할 수도 있습니다.

    로컬 설치: 최신 버전을 설치하려면 다음 명령어를 사용합니다:

    # GPU 지원:
    pip install 'git+https://github.com/magenta/magenta-realtime#egg=magenta_rt[gpu]'
    
    # TPU 지원:
    pip install 'git+https://github.com/magenta/magenta-realtime#egg=magenta_rt[tpu]'
    
    # CPU 전용:
    pip install 'git+https://github.com/magenta/magenta-realtime'

     

    로컬 편집을 위해 저장소를 클론하고 설치할 수도 있습니다:

    git clone https://github.com/magenta/magenta-realtime.git && cd magenta-realtime
    pip install -e .[gpu]
    

    Magenta RT로 오디오 생성 예시: 마젠타 RT는 과거 10초 컨텍스트를 기반으로 짧은 청크(2초)로 오디오를 생성합니다. 다음은 간단한 Python 예시 코드입니다:

    from magenta_rt import audio, system
    from IPython.display import display, Audio
    
    num_seconds = 10
    mrt = system.MagentaRT()
    style = system.embed_style('funk') # 'funk' 스타일 임베딩
    chunks = []
    state = None
    for i in range(round(num_seconds / mrt.config.chunk_length)):
        state, chunk = mrt.generate_chunk(state=state, style=style)
        chunks.append(chunk)
    generated = audio.concatenate(chunks, crossfade_time=mrt.crossfade_length) # 청크 연결 및 크로스페이드 적용
    display(Audio(generated.samples.swapaxes(0, 1), rate=mrt.sample_rate)) # 오디오 재생

    이 코드는 MagentaRT 인스턴스를 초기화하고, 'funk' 스타일을 임베딩한 다음, 지정된 시간(예: 10초) 동안 음악 청크를 생성하고 연결하여 오디오를 재생합니다.


    4. 마젠타 RT 테스트 

    다음은 마젠타 RT를 직접 테스트해 보겠습니다. 로컬 테스트 환경은 윈도우11(WSL Ubuntu), GPU RTX-4060, 파이썬 3.11, Windsurf 1.10.5를 사용하였습니다. 

    1) 로컬 테스트

    로컬 테스트 하드웨어 및 소프트웨어 환경

    • 레포지토리 복제

    마젠타 RT 레포지토리 복제

    • 라이브러리 설치

    마젠타 RT 라이브러리 설치

    • 테스트 코드 실행
    python test/musiccoca_end2end_test.py

    마젠타 RT 테스트코드 실행
    StableHLO 미지원 오류
    Windsurf 실행오류 분석결과

    로컬 테스트를 여러 번 시도하였지만 StableHLO 실행 엔진의 호환성 문제로 중단하였습니다.

    2) 구글 Colab 실행

    구글 Colab 환경에서 마젠타 RT는 별문제 없이 잘 동작하였습니다. 구글 Colab 데모사이트 주소는 아래와 같습니다. https://colab.research.google.com/github/magenta/magenta-realtime/blob/main/notebooks/Magenta_RT_Demo.ipynb

    마젠타 RT 구글 Colab 데모 사이트

    아래 화면과 같이 Prompts에서 원하는 스타일이나 악기의 가중치를 선택하고 start 버튼을 클릭하면 음악 스트림이 시작됩니다.

    마젠타 RT 실행 옵션 및 프롬프트 설정화면

    Colab 데모 사이트에서 생성해 본 음악은 뛰어난 품질을 자랑했으며, 플라맹고 기타, 헤비메탈, 유로 댄스 등 다양한 장르의 음악적 특색을 훌륭하게 구현했습니다. 특히, 실시간으로 생성되는 각 음악은 자연스럽게 전환되어 마치 사용자가 직접 DJ가 되어 음악을 믹싱 하는듯한 몰입감 있는 경험을 선사했습니다.


    5. 맺음말

    마젠타 RT는 라이브 생성 음악의 경계를 넓히고 사용자가 DJ처럼 라이브로 사운드를 믹싱 하고, 자신만의 스타일을 실험하고, 마치 악기처럼 AI 모델을 연주하는 시대를 만들어가고 있습니다. 음악의 창작 방식은 물론, 표현 방식 자체를 바꿀 수 있는 마젠타 RT는 창의성과 기술이 만나는 새로운 미래의 예고편입니다.

     

    음악, 미술, 영화 등 다양한 예술분야에서 AI가 점점 인간의 역할을 대체해서 수행하고 있습니다. 우리는 앞으로 어떤 위기와 기회를 맞이하게 될까요? 여러분도 마젠타 RT의 창의적 음악 생성 기능을 한번 체험해 보시고, 이러한 변화에 대해 생각해 보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다!

     

    2023.09.10 - [AI 인사이트] - 인공지능과 그림 그리기 기술의 발전

     

    인공지능과 그림 그리기 기술의 발전

    인공지능(AI)은 현대 기술의 중심 역할을 하고 있으며, 그중에서도 그림 그리기와 관련된 분야에서 큰 발전을 이루고 있습니다. 이 글에서는 인공지능이 어떻게 그림을 그리는지, 그 과정에서 사

    fornewchallenge.tistory.com

     

    728x90