- 100% hoʻokō kūloko o MusicGen: pilikino, kaohi a me ka wikiwiki.
- Hoʻomākaukau ʻia ke kaiapuni me Python, PyTorch, FFmpeg a me Audiocraft.
- E hoʻonui i ka hana ma ke koho ʻana i ka nui kumu hoʻohālike kūpono a me ka GPU.
- E hoʻopau i ke kahe hana noʻonoʻo me ka hilinaʻi ʻole i ka mālama ʻana i ke ao.

¿Pehea e hoʻohana ai i ka Meta's MusicGen ma ka ʻāina? ʻO ka hoʻokumu ʻana i nā mele me ka naʻauao artificial me ka hilinaʻi ʻole i nā lawelawe o waho hiki loa i kēia lā. Hiki iā Meta's MusicGen ke holo holoʻokoʻa ma kāu kamepiulaHōʻalo i ka hoʻouka ʻana i nā laʻana a i ʻole nā hopena i ke ao a mālama i ka mana o kāu ʻikepili i nā manawa āpau. Ke alakaʻi nei kēia alakaʻi iā ʻoe i ke kaʻina hana i kēlā me kēia pae, me nā ʻōlelo paipai kūpono, nā noʻonoʻo hana, a me nā ʻōlelo aʻoaʻo e hoʻololi i nā mea āpau.
ʻO kekahi o nā mea maikaʻi o ka hana ʻana ma ka ʻāina, ʻo ia ke kūʻokoʻa e hoʻāʻo me ka ʻole o ka palena quota, me ke kali ʻole i nā kikowaena overloaded, a me ka pilikino ʻoi aku. ʻAʻole like me nā hoʻonā kapuaʻi e like me ka mālama ʻana a me ka hōʻoia SDK i hoʻolālā ʻia no nā polokalamu keleponaMa ʻaneʻi ʻaʻole pono ʻoe e hāʻawi i kāu leo i nā ʻaoʻao ʻekolu: nā kumu hoʻohālike, nā ʻōkuhi a me nā mele i hana ʻia me ʻoe.
He aha ka MusicGen a no ke aha e holo ai ma ka ʻāina?
ʻO MusicGen kahi kumu hoʻohālike mele i hoʻomohala ʻia e Meta hiki iā ia ke hana i nā ʻāpana mai nā wehewehe kikokikona a, i kekahi mau ʻokoʻa, hoʻoponopono i ka hopena me kahi mele kuhikuhi. Hoʻohui kā lākou manaʻo i ka maʻalahi o ka hoʻohana ʻana me ka maikaʻi o ke mele kupaianahahāʻawi i nā ʻano nui like ʻole e kaulike i ka hilinaʻi a me ka hoʻohana waiwai ʻōnaehana.
ʻO ka holo ʻana i ka lolouila ma ka ʻāina he nui nā hopena koʻikoʻi. Ka mua, KulekeleʻAʻole pono kou leo, kāu mau laʻana, a me kāu haku mele e haʻalele i kāu mīkini. ʻO ka lua, ka māmā holoʻAʻole ʻoe e hilinaʻi i ka bandwidth no ka hoʻouka ʻana i nā faila a i ʻole kahi hope mamao. A hope loa, mana ʻenehanaHiki iā ʻoe ke hoʻoponopono i nā mana waihona, hoʻokuʻu i nā kaupaona, a hana ma waho me ka ʻole o nā haʻalulu mai nā loli API.
He mea nui e hoʻomaopopo i ka ʻokoʻa me nā hāʻina mālama kapuaʻi. No ka laʻana, i loko o ka kaiaola mobile, Mālama ʻo Firebase iā iOS a me nā mea hoʻomohala ʻē aʻe e mālama i nā leo, nā kiʻi, a me nā wikiō. ma o nā SDK paʻa, hōʻoia i kūkulu ʻia, a me kahi hui kūlohelohe me Realtime Database no ka ʻikepili kikokikona. He kūpono kēia ala inā makemake ʻoe i ka hoʻonohonoho ʻana, hui pū ʻana, a i ʻole ka paʻi wikiwiki ʻana. Akā inā ʻaʻole kāu mea nui e hoʻouka i kekahi mea i nā kikowaena wahoʻO ka holo ʻana i MusicGen ma kāu kamepiula ponoʻī e pale i kēlā ʻanuʻu holoʻokoʻa.
Ke hana pū nei ke kaiāulu i kou makemake. Ma nā wahi ākea a me ka ʻole e like me r/StableDiffusion, kaʻana like a kūkākūkā ʻia ke kūlana o nā mea hana hoʻomohala e pili ana i nā hiʻohiʻona generative. He wahi ia e hoʻolaha ai i nā ʻāpana, e pane i nā nīnau, e hoʻomaka i nā paio, e hāʻawi i ka ʻenehana, a e ʻimi. ʻO nā mea a pau e hana nei ma ke kahua mele. Ua kūpono kēlā moʻomeheu wehe, ʻimi ʻimi me ka hoʻohana ʻana i MusicGen ma ka ʻāina: hoʻāʻo ʻoe, hoʻololi, palapala, a kōkua i nā poʻe ʻē aʻe e hele mai ana ma hope ou. Hoʻoholo ʻoe i ka wikiwiki a me ke ala.
Inā ʻoe e noiʻi ana, ʻike ʻoe i nā ʻāpana ʻenehana pili ʻole i ke kahe mele—no ka laʻana, scoped CSS style blocks a i ʻole snippets mua— E hoʻomanaʻo ʻaʻole kūpono kēia mau mea no ka hoʻokumu ʻana i ke kani, akā ʻike ʻia i kekahi manawa ma nā ʻaoʻao ohi kumuwaiwai. He mea kōkua ka nānā ʻana i nā hilinaʻi leo maoli a me nā binaries āu e pono ai ma kāu ʻōnaehana.
ʻO ka mea e mahalo ai, aia kekahi papa inoa waiwai i nā mea e pili ana i nā haʻawina hoʻonaʻauao a i ʻole nā papahana papahana ma ka palapala PDF i mālama ʻia ma nā pūnaewele kulanui. ʻOiai he mea hoihoi paha lākou no ka hoʻoulu ʻanaNo ka holo ʻana i MusicGen ma ka ʻāina, ʻo nā mea nui kāu kaiapuni Python, nā waihona leo leo, a me nā kaupaona hoʻohālike.

Nā koi a me ka hoʻomākaukau ʻana o ke kaiapuni
Ma mua o ka hana ʻana i ka memo mua, e hōʻoia i ka hoʻokō ʻana o kāu kamepiula i nā koi liʻiliʻi. Hiki iā ia me kahi CPU, akā ʻoi aku ka maikaʻi o ka ʻike me kahi GPU. He kāleka kiʻi me CUDA a i ʻole kākoʻo Metal a ma kahi o 6-8 GB o VRAM Hāʻawi ia i ka hoʻohana ʻana i nā hiʻohiʻona nui a me nā manawa inference kūpono.
Nā ʻōnaehana hana kūpono: Windows 10/11, macOS (makemake ʻia ʻo Apple Silicon no ka hana maikaʻi) a me nā māhele Linux maʻamau. Pono ʻoe iā Python 3.9–3.11Pono ʻoe i ka luna kaiapuni (Conda a i ʻole venv), a me FFmpeg no ka hoʻopili ʻana/decoding leo. Ma nā NVIDIA GPU, e hoʻokomo iā PyTorch me ka CUDA kūpono; ma macOS me Apple Silicon, ke kūkulu ʻana o ka MPS; ma Linux, ka mea e pili ana i kāu mau hoʻokele.
Hoʻoiho ʻia nā paona kumu hoʻohālike MusicGen i kou kāhea mua ʻana iā ia mai nā hale waihona puke e pili ana (e like me Meta's Audiocraft). Inā makemake ʻoe e hana ma wahoHoʻoiho iā lākou ma mua a hoʻonohonoho i nā ala kūloko i ʻole e hoʻāʻo ka polokalamu e komo i ka pūnaewele. He mea koʻikoʻi kēia i ka wā e hana ai i nā wahi pani.
E pili ana i ka waiho ʻana: ʻoiai ua hoʻolālā ʻia nā mea hana e like me Firebase Storage e mālama a hoʻihoʻi i nā faila i ke ao me ka hōʻoia ikaika a me nā SDK, ʻO kā mākou pahuhopu ma ʻaneʻi ʻaʻole e hilinaʻi i kēlā mau lawelaweE mālama i kāu mau faila WAV/MP3 i nā waihona kūloko a hoʻohana i ka mana mana o Git LFS inā pono ʻoe e hoʻololi i ka nānā ʻana ma nā binaries.
ʻO ka hope, hoʻomākaukau i ka leo I/O. He mea nui ka FFmpeg No ka hoʻololi ʻana i nā ʻano maʻamau a no ka hoʻomaʻemaʻe a ʻokiʻoki i nā laʻana kuhikuhi. E nānā i ka ffmpeg i kāu PATH a hiki iā ʻoe ke kāhea iā ia mai ka console.
Hoʻokomo ʻanuʻu i kahi kaʻawale
Manaʻo wau i kahi kaʻina hana kūpono me Windows, macOS, a me Linux me ka hoʻohana ʻana iā Conda. Inā makemake ʻoe i ka venv, e hoʻololi i nā kauoha. e like me kāu luna kaiapuni.
# 1) Crear y activar entorno
conda create -n musicgen python=3.10 -y
conda activate musicgen
# 2) Instalar PyTorch (elige tu variante)
# NVIDIA CUDA 12.x
pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# CPU puro (si no tienes GPU)
# pip install torch torchvision torchaudio
# Apple Silicon (MPS)
# pip install torch torchvision torchaudio
# 3) FFmpeg
# Windows (choco) -> choco install ffmpeg
# macOS (brew) -> brew install ffmpeg
# Linux (apt) -> sudo apt-get install -y ffmpeg
# 4) Audiocraft (incluye MusicGen)
pip install git+https://github.com/facebookresearch/audiocraft
# 5) Opcional: manejo de audio y utilidades extra
pip install soundfile librosa numpy scipy
Inā ʻaʻole ʻae kou kaiapuni i ka hoʻokomo ʻana mai Git, hiki iā ʻoe ke clone i ka waihona a hana i kahi hoʻonohonoho hoʻoponopono. Maʻalahi kēia ʻano hana i ka hoʻonohonoho ʻana i nā commit kikoʻī no ka hana hou.
git clone https://github.com/facebookresearch/audiocraft.git
cd audiocraft
pip install -e .
E ho'āʻo e hana nā mea a pau ma CLI
ʻO kahi ala wikiwiki e hōʻoia i ka hoʻonohonoho ʻana ʻo ka hoʻomaka ʻana i ka demo laina kauoha i hoʻokomo ʻia ma Audiocraft. Hōʻoia kēia e hoʻoiho ʻia nā paona a ke hoʻomaka nei ke kaʻina hana inference. pololei i kāu CPU/GPU.
python -m audiocraft.demo.cli --help
# Generar 10 segundos de música con un prompt simple
python -m audiocraft.demo.cli \
--text 'guitarra acústica relajada con ritmo suave' \
--duration 10 \
--model musicgen-small \
--output ./salidas/clip_relajado.wav
ʻOi aku ka lōʻihi o ka holo mua no ka mea e hoʻoiho ʻia ke kumu hoʻohālike. Inā ʻaʻole ʻoe makemake i nā pilina i wahoʻO ka mea mua, e hoʻoiho i nā wahi kikoʻī a waiho iā lākou i loko o ka papa kuhikuhi cache i hoʻohana ʻia e kou kaiapuni (no ka laʻana, ma ~/.cache/torch a i ʻole ka mea i hōʻike ʻia e Audiocraft) a hoʻopau i ka pūnaewele.
Ke hoʻohana nei i ka Python: Hoʻoponopono maikaʻi

No nā kaʻina hana holomua, e kāhea iā MusicGen mai Python. Hiki iā ʻoe ke hoʻonohonoho i ka hua, ka helu o nā moho, a me ka mahana. a hana pū me nā mele i hoʻopaʻa ʻia e nā mele kuhikuhi.
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
import torch
# Elige el tamaño: 'small', 'medium', 'large' o 'melody'
model = MusicGen.get_pretrained('facebook/musicgen-small')
model.set_generation_params(duration=12, top_k=250, top_p=0.98, temperature=1.0)
prompts = [
'sintetizadores cálidos, tempo medio, ambiente cinematográfico',
'batería electrónica con bajo contundente, estilo synthwave'
]
with torch.no_grad():
wav = model.generate(prompts) # [batch, channels, samples]
for i, audio in enumerate(wav):
audio_write(f'./salidas/track_{i}', audio.cpu(), model.sample_rate, format='wav')
Inā makemake ʻoe e hoʻoponopono me kahi mele, e hoʻohana i ke ʻano hoʻohālike mele a hāʻawi i kāu kiʻi kuhikuhi. Hoʻopili kēia ʻano i nā ʻāpana melodic a unuhi hou i ke kaila e like me ka paipai.
from audiocraft.models import MusicGen
from audiocraft.data.audio import load_audio, audio_write
model = MusicGen.get_pretrained('facebook/musicgen-melody')
model.set_generation_params(duration=8)
melody, sr = load_audio('./refs/melodia.wav', sr=model.sample_rate)
prompts = ['árpegios brillantes con pads espaciales']
wav = model.generate_with_chroma(prompts, melody[None, ...])
audio_write('./salidas/con_melodia', wav[0].cpu(), model.sample_rate, format='wav')
Ke hana nei ma waho a me ka mālama ʻana i nā kumu hoʻohālike
No ka 100% kaʻina hana kūloko, e hoʻoiho i nā kiko kikoʻī a hoʻonohonoho i nā ʻano hoʻololi kaiapuni a i ʻole nā ala no Audiocraft e ʻike iā lākou. E mālama i kahi papa helu o nā mana a me nā kaupaona no ka hana hou ʻana a me ka pale ʻana i ka hoʻoiho ʻole ʻia inā hoʻopau ʻoe i ka pūnaewele.
- E koho i ka nui hoʻohālike e like me kāu VRAM: ʻai liʻiliʻi ka liʻiliʻi a pane wikiwiki.
- E mālama i kope kope o nā paona ma kahi diski kūloko a waho paha.
- E palapala i ka Audiocraft i hana a me ka PyTorch i kūkulu ai āu e hoʻohana ai.
Inā hoʻohana ʻoe i nā mīkini he nui, hiki iā ʻoe ke hana i kahi aniani i loko me kāu mau waihona a me nā kaupaona. mau ma kahi pūnaewele kūloko a me ka wehe ʻole ʻana i kekahi mea i ka pūnaeweleHe kūpono ia no nā hui hana me nā kulekele koʻikoʻi.
ʻO nā hoʻomaʻamaʻa maikaʻi loa no nā ʻōkuhi a me nā ʻāpana
He hopena koʻikoʻi ka maikaʻi o ka wikiwiki. Hōʻike ia i nā mea kani, ka manawa, ka lewa, a me nā kuhikuhina stylistic. E pale i nā noi kū'ē a mālama i nā huaʻōlelo pōkole akā waiwai i nā ʻike mele.
- Mea kani: kīkā acoustic, piano pili, nā kaula palupalu, pahu lo-fi.
- ʻO ke kani a me ka manawa: 90 BPM, ka hapalua manawa, ke kaha i kaha ʻia.
- Ka lewa: cinematic, pili, ʻeleʻele, ambient, hauʻoli.
- Hana ʻia: maʻalahi reverb, hoʻoemi haʻahaʻa, saturation analog.
E pili ana i nā ʻāpana: top_k a me top_p mana ʻokoʻa; hoʻomaʻamaʻa ka mahana i ka noʻonoʻo. E hoʻomaka me nā waiwai kūpono a neʻe mālie a ʻike ʻoe i kahi momona no kou ʻano.
Ka hana, latency, a me ka maikaʻi

Me ka CPU, hiki ke lohi ka inference, ʻoi aku ka nui ma nā hiʻohiʻona nui a me nā lōʻihi lōʻihi. Ma nā GPU hou, hāʻule nui nā manawa.E noʻonoʻo i kēia mau kuhikuhi:
- E hoʻomaka me 8-12 mau paʻi kekona e hoʻololi i nā manaʻo.
- E hana i kekahi mau ʻano pōkole a hoʻohui i nā mea maikaʻi loa.
- Hana i ka upsampling a i ʻole post-production i kāu DAW e poli i ka hopena.
Ma macOS me Apple Silicon, hāʻawi ʻo MPS i kahi waena waena ma waena o kahi CPU hoʻolaʻa a me GPU. Hoʻohou i nā mana hou o PyTorch e kaomi i ka hana a me ka hoʻomaikaʻi ʻana i ka hoʻomanaʻo.
Ma hope o ka hana ʻana a me ke kahe hana me kāu DAW
Ke hana ʻoe i kāu mau faila WAV, e hoʻokomo iā lākou i kāu DAW punahele. ʻO ka hoʻohālikelike, ka hoʻoemi, nā reverbs a me ka hoʻoponopono Hāʻawi lākou iā ʻoe e hoʻololi i nā kiʻi hoʻohiki i nā ʻāpana piha. Inā makemake ʻoe i nā ʻōpala a i ʻole ka hoʻokaʻawale mea kani, e hilinaʻi i nā mea hana hoʻokaʻawale kumu e hui hou a hui.
ʻAʻole pale ka hana ʻana i ka 100% kūloko i ka hui pū ʻana: e kaʻana like i nā faila hope ma o kāu mau ala pilikino makemake. ʻAʻohe pono e hoʻolaha a hoʻonohonoho pū me nā lawelawe kapuaʻi inā ʻōlelo kāu kulekele pilikino e kūʻē iā ia.
Nā pilikia maʻamau a pehea e hoʻoponopono ai
Nā hewa hoʻokomo: nā mana like ʻole o ʻO PyTorch a ʻo CUDA paha ke kumu. E hōʻoia i ka like o ke kūkulu ʻana o ka lama i kāu mea hoʻokele a me ka ʻōnaehana. Inā ʻoe e hoʻohana ana iā Apple Silicon, e hōʻoia ʻaʻole ʻoe e hoʻokomo i nā huila no x86 wale nō.
Kāohi ʻia nā hoʻoiho: Inā ʻaʻole ʻoe makemake e hoʻopili i kāu kelepona i ka pūnaewele, E kau i nā paona i loko o ka waihona e like me ka mea i manaʻo ʻia e Audiocraft a hoʻopau i nā kelepona waho. E nānā i nā ʻae heluhelu ma nā waihona.
Leo ʻino a hāmau paha: e nānā i ka laʻana a me ke ʻano. E hoʻohuli i kāu mau font me ffmpeg a mālama i kahi alapine maʻamau (e laʻa, 32 a i ʻole 44.1 kHz) e pale aku i nā mea hana.
Hana maikaʻi ʻole: hōʻemi i ka nui o ke kumu hoʻohālike a i ʻole ka lōʻihi o ka clip, Hoʻopau i nā kaʻina hana e hoʻopau i ka VRAM a hoʻonui mālie i ka paʻakikī ke ʻike ʻoe i nā palena manuahi.
Nā pilikia e pili ana i ka laikini a me ka hoʻohana kuleana
E noʻonoʻo i ka laikini MusicGen a me nā ʻikepili āu e hoʻohana ai no ka ʻike. ʻAʻole e hoʻokuʻu ʻia ʻoe mai ka hoʻokō ʻana i nā kānāwai kope.Hōʻalo i nā ʻōlelo paipai e hoʻohālike pololei i nā hana i pale ʻia a i ʻole nā mea pena kiʻi a koho i nā kaila a me nā ʻano maʻamau.
Hoʻohālikelike manaʻo: kapua vs kūloko
No nā hui e hoʻomohala i nā polokalamu, hāʻawi nā lawelawe e like me Firebase Storage i nā SDK me ka hōʻoia a me ka hoʻokele ʻana i nā faila leo, kiʻi, a me nā faila wikiō, a me kahi waihona manawa maoli no ka kikokikona. He kūpono kēia kaiaola inā pono ʻoe e hoʻonohonoho i nā mea hoʻohana a me nā ʻike.Ma ka ʻokoʻa, no kahi kaʻina hana hana pilikino me MusicGen, pale ke ʻano kūloko i ka latency, quotas, a me ka ʻike ʻikepili.
E noʻonoʻo iā ia he ʻelua ala kaʻawale. Inā makemake ʻoe e paʻi, kaʻana like, a i ʻole e hoʻohui i nā hopena i loko o nā polokalamu kelepona, pono ke ʻano o ke ao. Inā ʻo kāu pahuhopu ka prototype a hana me ka hoʻouka ʻole ʻana i kekahi meaE nānā i kou kaiapuni, kou kaumaha, a me kāu diski kūloko.
Pehea e hoʻohana ai i ka Meta's MusicGen ma ka ʻāina: Nā kumuwaiwai a me ke kaiāulu
ʻO nā ʻaha kūkā a me nā subreddits i hoʻolaʻa ʻia i nā mea hana generative kahi hōʻailona maikaʻi o nā hoʻomohala hou a me nā ʻenehana. ʻO ka mea nui, aia nā kaiāulu kūhelu ʻole e ʻapo i nā papahana open-source. kahi e hiki ai iā ʻoe ke paʻi kiʻi, nīnau i nā nīnau, hoʻomaka i nā hoʻopaʻapaʻa, hāʻawi i ka ʻenehana, a i ʻole mākaʻikaʻi waleWehe ke kaiāulu i nā puka ʻaʻole i uhi mau ʻia nā palapala maʻamau.
E ʻike ʻoe i nā noi a me nā palapala ʻenehana i nā waihona hoʻonaʻauao a me nā pūnaewele kulanui, i kekahi manawa i nā PDF hiki ke hoʻoiho. E hoʻohana iā lākou ma ke ʻano he kumu hoʻoikaikaAkā, e hoʻomau i kou manaʻo pono i nā hilinaʻi leo maoli a me nā kahe e holo mālie ai ʻo MusicGen ma kāu mīkini.
Me nā mea a pau i luna aʻe nei, ua ʻike maopopo ʻoe i ke ʻano o ka hoʻonohonoho ʻana i ke kaiapuni, hana i kāu mau ʻāpana mua, a hoʻomaikaʻi i nā hopena me ka ʻole e hōʻike i kāu mea i nā ʻaoʻao ʻekolu. ʻO ka hui pū ʻana o kahi hoʻonohonoho kūloko maikaʻi, nā ʻōkuhi akahele, a me kahi maʻi o ka post-production Hāʻawi ia iā ʻoe i kahi kahe hana mana ikaika, ma lalo o kou mana. I kēia manawa ua ʻike ʻoe. Pehea e hoʻohana ai i ka Meta's MusicGen kūloko.
Ua makemake nui i ka ʻenehana mai kona wā liʻiliʻi. Aloha au i ka ʻike hou ʻana i ka ʻāpana a, ma mua o nā mea a pau, ke kamaʻilio ʻana. ʻO ia ke kumu i hoʻolaʻa ʻia ai au i ka kamaʻilio ma ka ʻenehana a me nā pūnaewele pāʻani wikiō no nā makahiki he nui. Hiki iā ʻoe ke ʻike iaʻu e kākau ana e pili ana i ka Android, Windows, MacOS, iOS, Nintendo a i ʻole kekahi kumuhana e pili ana i ka manaʻo.