如何在本機上使用 Meta 的 MusicGen 而無需將檔案上傳到雲端

最後更新: 19/11/2025

  • MusicGen 100% 本地執行:隱私、控制和速度。
  • 使用 Python、PyTorch、FFmpeg 和 Audiocraft 建構的環境。
  • 透過選擇合適的模型尺寸和GPU來優化效能。
  • 無需依賴雲端儲存即可完成完整的創意工作流程。

如何在本機上使用 Meta 的 MusicGen(無需將檔案上傳到雲端)

¿如何在本機使用 Meta 的 MusicGen? 如今,完全可以不用依賴外部服務,利用人工智慧產生音樂。 Meta 的 MusicGen 可以完全在您的電腦上運作。避免將樣本或結果上傳到雲端,並始終掌控您的資料。本指南將一步步引導您完成整個流程,並提供實用建議、效能考量和關鍵技巧。

本地工作的優勢之一是可以自由地進行實驗,不受配額限制,無需等待過載的伺服器,並且擁有更高的隱私性。 與專為行動應用設計的儲存和身份驗證 SDK 等雲端解決方案不同在這裡,您無需將音訊委託給第三方:模型、提示和生成的音軌都歸您所有。

MusicGen是什麼?為什麼要本地運行它?

MusicGen 是 Meta 開發的音樂生成模型,能夠根據文字描述創建樂曲,並且在某些變體中,還可以使用參考旋律來調整結果。 他們的方案兼具易用性和令人驚豔的音樂品質。提供不同尺寸的模型,以平衡保真度和系統資源消耗。

在本地運行電腦有幾個關鍵影響。首先, La privacidad你的聲音、取樣和作品都不需要離開你的裝置。其次, 迭代速度你無需依賴頻寬即可上傳檔案或使用遠端後端。最後, 技術控制您可以修復庫版本、凍結權重,並離線工作,而無需擔心 API 變更帶來的意外情況。

了解它與雲端儲存解決方案的差異至關重要。例如,在移動生態系中, Firebase 讓 iOS 和其他平台開發者能夠輕鬆保存音訊、影像和影片。 透過強大的SDK、內建身份驗證以及與即時資料庫的自然整合(用於處理文字資料),這種方法非常適合需要同步、協作或快速發布的情況。 如果你的首要目標是不向外部伺服器上傳任何內容在自己的電腦上執行 MusicGen 可以完全避免這一步驟。

社區也對你有利。在像 r/StableDiffusion 這樣的開放且非官方的空間裡,基於生成模型的最新創意工具會被分享和討論。 這是一個發表文章、回答問題、發起辯論、貢獻技術和探索的地方。 音樂圈的一切動態。這個開源、探索性的文化與在地使用 MusicGen 的理念完美契合:你可以測試、迭代、記錄,並幫助後來者。你可以自主決定節奏和方法。

如果在研究過程中,你遇到與音樂流程無關的技術片段——例如, 作用域 CSS 樣式區塊或前端程式碼片段— 請記住,這些與生成聲音無關,但它們有時會出現在資源集合頁面上。最好專注於實際的音訊依賴項以及您系統上實際需要的二進位檔案。

獨家內容 - 點擊這裡  Raycast:在 Mac 上提升生產力的一體化工具

有趣的是,一些資源清單包含對大學網站上託管的 PDF 格式學術資料或專案提案的引用。 雖然它們或許能帶給人靈感。要在本機上運行 MusicGen,基本要素包括 Python 環境、音訊庫和模型權重。

在地使用人工智慧驅動的音樂模型

環境要求和準備

在產生第一張筆記之前,請確認您的電腦符合最低設定要求。雖然使用 CPU 也能運行,但使用 GPU 會獲得更佳的體驗。 顯示卡需支援 CUDA 或 Metal,且至少配備 6-8 GB 記憶體。 它允許使用更大的模型和合理的推理時間。

相容的作業系統:Windows 10/11、macOS(建議使用 Apple Silicon 以獲得良好的效能)和常見的 Linux 發行版。 您需要 Python 3.9–3.11 版本。你需要一個環境管理器(Conda 或 venv),以及用於音訊編碼/解碼的 FFmpeg。在 NVIDIA GPU 上,請安裝對應 CUDA 版本的 PyTorch;在搭載 Apple Silicon 的 macOS 上,請安裝 MPS 版本;在 Linux 上,請安裝與您的驅動程式對應的版本。

當您首次從對應的函式庫(例如 Meta 的 Audiocraft)呼叫 MusicGen 時,會下載該模型的權重。 如果您想離線操作請提前下載所需檔案並配置本機路徑,以防止程式嘗試存取網際網路。這在封閉環境下工作時至關重要。

關於儲存:雖然像 Firebase Storage 這樣的工具旨在透過強大的身份驗證和 SDK 在雲端儲存和檢索文件, 我們的目標是不依賴這些服務。如果需要追蹤二進位檔案的變更,請將 WAV/MP3 檔案保存在本機資料夾中並使用 Git LFS 版本控制。

最後,準備音訊輸入/輸出。 FFmpeg 是不可或缺的 用於轉換為標準格式以及清理或修剪參考樣本。請檢查 ffmpeg 是否已新增至您的 PATH 環境變數中,並且您是否可以從控制台呼叫它。

在隔離環境下逐步安裝

我提出一種使用 Conda 的、相容於 Windows、macOS 和 Linux 的工作流程。 如果您喜歡虛擬環境,請相應地修改命令。 根據您的環境管理員。

# 1) Crear y activar entorno
conda create -n musicgen python=3.10 -y
conda activate musicgen

# 2) Instalar PyTorch (elige tu variante)
# NVIDIA CUDA 12.x
pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# CPU puro (si no tienes GPU)
# pip install torch torchvision torchaudio
# Apple Silicon (MPS)
# pip install torch torchvision torchaudio

# 3) FFmpeg
# Windows (choco) -> choco install ffmpeg
# macOS (brew)   -> brew install ffmpeg
# Linux (apt)    -> sudo apt-get install -y ffmpeg

# 4) Audiocraft (incluye MusicGen)
pip install git+https://github.com/facebookresearch/audiocraft

# 5) Opcional: manejo de audio y utilidades extra
pip install soundfile librosa numpy scipy

如果您的環境不允許從 Git 安裝,您可以複製儲存庫並建立可編輯的安裝。 這種方法可以更輕鬆地設定特定的提交。 為了保證結果的可重複性。

git clone https://github.com/facebookresearch/audiocraft.git
cd audiocraft
pip install -e .

在命令列介面 (CLI) 中測試所有功能是否正常。

驗證安裝是否成功的一個快速方法是啟動 Audiocraft 中包含的命令列示範程式。 這證實了權重正在下載,推理過程正在開始。 正確配置您的 CPU/GPU。

python -m audiocraft.demo.cli --help

# Generar 10 segundos de música con un prompt simple
python -m audiocraft.demo.cli \
  --text 'guitarra acústica relajada con ritmo suave' \
  --duration 10 \
  --model musicgen-small \
  --output ./salidas/clip_relajado.wav

首次運行可能需要更長時間,因為它需要下載模型。 如果您不想建立對外連接首先,下載檢查點並將其放置在您的環境使用的快取目錄中(例如,~/.cache/torch 或 Audiocraft 指示的目錄),然後停用網路。

獨家內容 - 點擊這裡  如何使用 VLC 從 YouTube 下載 MP3?

使用 Python:微調

如何在不懂程式設計的情況下使用 ChatGPT Agents 自動執行任務-6

對於更進階的工作流程,請從 Python 呼叫 MusicGen。 這樣就可以設定種子、候選數和溫度。 並使用受參考旋律約束的曲目進行創作。

from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
import torch

# Elige el tamaño: 'small', 'medium', 'large' o 'melody'
model = MusicGen.get_pretrained('facebook/musicgen-small')
model.set_generation_params(duration=12, top_k=250, top_p=0.98, temperature=1.0)

prompts = [
    'sintetizadores cálidos, tempo medio, ambiente cinematográfico',
    'batería electrónica con bajo contundente, estilo synthwave'
]

with torch.no_grad():
    wav = model.generate(prompts)  # [batch, channels, samples]

for i, audio in enumerate(wav):
    audio_write(f'./salidas/track_{i}', audio.cpu(), model.sample_rate, format='wav')

如果你想用旋律進行條件反射,請使用旋律類型模型並傳遞你的參考片段。 這種模式尊重旋律輪廓。 並根據提示重新詮釋這種風格。

from audiocraft.models import MusicGen
from audiocraft.data.audio import load_audio, audio_write

model = MusicGen.get_pretrained('facebook/musicgen-melody')
model.set_generation_params(duration=8)
melody, sr = load_audio('./refs/melodia.wav', sr=model.sample_rate)

prompts = ['árpegios brillantes con pads espaciales']
wav = model.generate_with_chroma(prompts, melody[None, ...])
audio_write('./salidas/con_melodia', wav[0].cpu(), model.sample_rate, format='wav')

離線工作與管理模型

對於 100% 本地工作流程,請下載檢查點並配置環境變數或路由,以便 Audiocraft 可以找到它們。 保留版本和重量的清單 為了便於復現,並防止網路停用時意外下載。

  • 根據您的顯存大小選擇型號尺寸:小型號功耗更低,反應速度更快。
  • 將重量資料的備份副本儲存到本機或外部磁碟。
  • 請記錄您使用的 Audiocraft 提交版本和 PyTorch 建置版本。

如果您使用多台機器,您可以建立一個包含您的庫和權重的內部鏡像。 始終在本地網路上運行,並且不會向互聯網暴露任何內容。對於有嚴格規章制度的生產團隊來說,這很實用。

提示和參數的最佳實踐

提示的品質非常重要。它描述了樂器、節奏、氛圍和風格參考。 避免提出相互矛盾的要求 保持樂句簡潔但富有音樂性。

  • 樂器配置:木吉他、輕柔的鋼琴、柔和的弦樂、低保真鼓。
  • 節奏與速度:90 BPM,半速,有節奏感。
  • 氛圍:電影感、私密、黑暗、氛圍、歡樂。
  • 製作:輕微殘響、適度壓縮、類比飽和。

關於參數:top_k 和 top_p 控制多樣性;溫度調節創造力。 從適中的數值開始。 逐漸調整,直到找到最適合自己風格的方式。

性能、延遲和質量

何時適合停用 CPU 駐留功能?

使用 CPU 進行推理可能會比較慢,尤其是在模型較大且持續時間較長的情況下。 在現代GPU上,耗時大幅縮短。請參考以下準則:

  • 先錄製 8-12 秒的影片片段來反覆推敲想法。
  • 產生若干個簡短的版本,然後將其中最好的幾個拼接起來。
  • 在你的 DAW 中進行升頻或後製,以潤飾結果。

在搭載 Apple Silicon 的 macOS 系統上,MPS 提供了介於專用 CPU 和 GPU 之間的折衷方案。 更新至最新版本的 PyTorch 為了最大限度地提升效能和記憶體利用率。

使用 DAW 進行後製和工作流程

產生 WAV 檔案後,將其匯入您喜歡的 DAW 中。 均衡、壓縮、混響與編輯 它們能讓你把有潛力的片段轉換成完整的作品。如果你需要音軌或樂器分離,可以使用音源分離工具重新組合和混音。

獨家內容 - 點擊這裡  你的硬碟空間是不是很快就滿了?檢測大文件並節省空間的完整指南

100% 本地工作並不妨礙協作:只需透過您喜歡的私人管道共享最終文件即可。 無需發布或與雲端服務同步 如果您的隱私權政策不建議這樣做。

常見問題及解決方法

安裝錯誤:版本不相容 火炬 或者 CUDA 是造成這種情況的原因。 確認手電筒的構造與您的驅動程式相符。 以及系統。如果您使用的是 Apple Silicon 晶片,請確保不要安裝僅適用於 x86 的 wheel 檔案。

下載已封鎖:如果您不希望您的裝置連接到互聯網, 按照 Audiocraft 的預期,將權重放入快取中。 並禁用所有外部呼叫。檢查資料夾的讀取權限。

音訊損壞或無聲:請檢查取樣率和格式。 使用 ffmpeg 轉換字體 並保持共同的頻率(例如 32 或 44.1 kHz),以避免產生偽影。

表現不佳:減小模型大小或縮短影片片段時長 關閉佔用顯示的進程 當看到有空閒邊距時,逐步增加複雜度。

許可和負責任使用問題

請查閱 MusicGen 授權協議以及您使用的任何參考資料集。 本地生成內容並不能免除您遵守版權法的義務。避免直接模仿受保護的作品或藝術家,而選擇一般的風格和類型。

概念比較:雲端與本地

對於開發應用程式的團隊來說,Firebase Storage 等服務提供了 SDK,可用於音訊、映像和視訊檔案的身份驗證和管理,以及用於文字的即時資料庫。 當您需要同步使用者和內容時,這個生態系統是理想之選。相較之下,對於使用 MusicGen 的私人創作工作流程而言,本地模式可以避免延遲、配額和資料外洩。

可以把它看成是兩條獨立的軌道。如果你想發布、分享結果或將其整合到行動應用程式中,基於雲端的後端就非常有用。 如果你的目標是在不上傳任何內容的情況下進行原型製作和創建,專注於你的環境、你的體重和你的本地磁碟。

如何在本地使用 Meta 的 MusicGen:資源和社區

專門討論生成式工具的論壇和子版塊是了解最新發展和技術的良好指標。尤其是一些非官方社區,它們積極支持開源專案。 在這裡,您可以發布藝術作品、提出問題、發起辯論、貢獻技術,或只是瀏覽。社區能打開正式文件無法涵蓋的大門。

您還可以在學術庫和大學網站上找到提案和技術文檔,有時可以下載 PDF 文件。 將它們作為方法論上的靈感來源。但請將實際重點放在真正的音訊依賴關係和流程上,以使 MusicGen 在您的機器上流暢運行。

綜上所述,您現在應該清楚地了解如何設置環境、生成您的第一批作品,以及在不將您的作品暴露給第三方的情況下改進結果。 良好的本地環境、細緻的提示以及後製的組合。 它將賦予你強大的創作靈感,而且完全由你掌控。現在你知道了。 如何在本機上使用 Meta 的 MusicGen。