Stable Diffusion: Riffusion

Dans nos articles précédents, nous avons exploré les capacités fascinantes de la diffusion stable pour générer des images captivantes. Cependant, il est important de noter que ce puissant réseau neuronal génératif a encore plus à offrir.
Riffusion est un modèle de diffusion stable pour la création et l'édition de musique. Avec Riffusion, vous pouvez générer un spectrogramme d'un segment musical désiré et le transformer sans effort en un extrait musical. Installons Riffusion sur un serveur LeaderGPU et essayons-le en action.
Conditions préalables
Commencez par mettre à jour le dépôt de cache des paquets et les paquets installés :
sudo apt update && sudo apt -y upgrade
N'oubliez pas d'installer les pilotes NVIDIA® à l'aide de la commande autoinstall ou manuellement, en suivant notre guide étape par étape :
sudo ubuntu-drivers autoinstall
Redémarrez le serveur :
sudo shutdown -r now
Pour créer un environnement virtuel, les développeurs suggèrent d'utiliser un outil appelé Anaconda. Vous pouvez également utiliser venv, dont nous avons parlé dans le tutoriel sur les utilitaires du système Linux. Téléchargez le script d'installation d'Anaconda à l'aide de curl :
curl --output anaconda.sh https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh
Rendez-le exécutable :
chmod +x anaconda.sh
et l'exécuter :
./anaconda.sh
Répondez OUI à toutes les questions, sauf à la dernière (installer Microsoft VSCode). Ensuite, reconnectez-vous à la console SSH et créez un nouvel environnement virtuel avec Python v3.9 :
conda create --name riffusion python=3.9
Activez le nouvel environnement virtuel :
conda activate riffusion
Si vous souhaitez utiliser des formats musicaux autres que wav, il est nécessaire d'installer également le jeu de bibliothèques FFmpeg :
conda install -c conda-forge ffmpeg
Installer Riffusion
Clonez le dépôt Riffusion :
git clone https://github.com/riffusion/riffusion.git
Ouvrir le répertoire téléchargé :
cd riffusion
Effectuons quelques modifications dans le fichier d'exigences. Cela permet d'éviter les erreurs de compatibilité avec Torch :
nano requirements.txt
Trouver et corriger les versions des paquets :
diffusers==0.9.0
torchaudio==2.0.1
Enregistrez les modifications et poursuivez la préparation de l'environnement virtuel. La commande suivante installe tous les paquets nécessaires :
python -m pip install -r requirements.txt
Enfin, vous pouvez ouvrir une "aire de jeu". Il s'agit d'une interface web simple qui vous permet d'en savoir plus sur les fonctionnalités de Riffusion :
python -m riffusion.streamlit.playground
Ouvrez votre navigateur préféré et entrez l'adresse http://[SERVER_IP]:8501/
Tester une aire de jeux
Vous pouvez maintenant créer de la musique à l'aide d'invites textuelles et en modifiant les autres paramètres :

Vous pouvez également faire des choses délicates, comme diviser l'audio en composants distincts. Par exemple, vous pouvez extraire la voix de Bohemian rhapsody de Queen :

N'oubliez pas qu'il ne s'agit là que d'un exemple de la manière dont Riffusion peut être utilisé. En créant votre propre application, vous pouvez obtenir des résultats bien plus captivants. Les puissants serveurs de LeaderGPU se chargeront des calculs.
Voir aussi:
Mis à jour: 26.03.2025
Publié: 21.01.2025