Votre propre Qwen utilisant HF

Les grands modèles de réseaux neuronaux, avec leurs capacités extraordinaires, sont fermement ancrés dans nos vies. Reconnaissant qu'il s'agit d'une opportunité de développement futur, les grandes entreprises ont commencé à développer leurs propres versions de ces modèles. Le géant chinois Alibaba n'est pas resté inactif. Il a créé son propre modèle, QWen (Tongyi Qianwen), qui est devenu la base de nombreux autres modèles de réseaux neuronaux.
Conditions préalables
Mettre à jour le cache et les paquets
Mettons à jour le cache des paquets et mettons à niveau votre système d'exploitation avant de commencer à configurer Qwen. Nous devons également ajouter les paquets d'installation Python (PIP), s'ils ne sont pas déjà présents dans le système. Veuillez noter que pour ce guide, nous utilisons Ubuntu 22.04 LTS comme système d'exploitation :
sudo apt update && sudo apt -y upgrade && sudo apt install python3-pip
Installer les pilotes NVIDIA®
Vous pouvez utiliser l'utilitaire automatisé qui est inclus par défaut dans les distributions Ubuntu :
sudo ubuntu-drivers autoinstall
Vous pouvez également installer les pilotes NVIDIA® manuellement à l'aide de notre guide étape par étape. N'oubliez pas de redémarrer le serveur :
sudo shutdown -r now
Interface web de génération de texte
Cloner le dépôt
Ouvrez le répertoire de travail sur le SSD :
cd /mnt/fastdisk
Cloner le référentiel du projet :
git clone https://github.com/oobabooga/text-generation-webui.git
Installer les exigences
Ouvrir le répertoire téléchargé :
cd text-generation-webui
Vérifier et installer tous les composants manquants :
pip install -r requirements.txt
Ajouter une clé SSH à HF
Avant de commencer, vous devez configurer la redirection de port (port distant 7860 vers 127.0.0.1:7860) dans votre client SSH. Vous trouverez des informations complémentaires dans l'article suivant : Se connecter à un serveur Linux.
Mettre à jour le dépôt de cache des paquets et les paquets installés :
sudo apt update && sudo apt -y upgrade
Générer et ajouter une clé SSH que vous pouvez utiliser dans Hugging Face :
cd ~/.ssh && ssh-keygen
Lorsque la paire de clés est générée, vous pouvez afficher la clé publique dans l'émulateur de terminal :
cat id_rsa.pub
Copiez toutes les informations commençant par ssh-rsa et se terminant par usergpu@gpuserver comme indiqué dans la capture d'écran suivante :

Ouvrez un navigateur web, tapez https://huggingface.co/ dans la barre d'adresse et appuyez sur Enter. Connectez-vous à votre compte HF et ouvrez les paramètres du profil. Choisissez ensuite SSH and GPG Keys et cliquez sur le bouton Add SSH Key:

Remplissez le Key name et collez le SSH Public key copié depuis le terminal. Sauvegardez la clé en appuyant sur Add key:

Maintenant, votre compte HF est lié à la clé SSH publique. La seconde partie (clé privée) est stockée sur le serveur. L'étape suivante consiste à installer une extension Git LFS (Large File Storage) spécifique, qui est utilisée pour télécharger des fichiers volumineux tels que des modèles de réseaux neuronaux. Ouvrez votre répertoire personnel :
cd ~/
Téléchargez et exécutez le script shell. Ce script installe un nouveau dépôt tiers avec git-lfs :
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
Vous pouvez maintenant l'installer à l'aide du gestionnaire de paquets standard :
sudo apt-get install git-lfs
Configurons git pour qu'il utilise notre pseudo HF :
git config --global user.name "John"
Et lié au compte email HF :
git config --global user.email "john.doe@example.com"
Télécharger le modèle
L'étape suivante consiste à télécharger le modèle en utilisant la technique de clonage de référentiel couramment utilisée par les développeurs de logiciels. La seule différence est que le Git-LFS précédemment installé traitera automatiquement les fichiers pointeurs marqués et téléchargera tout le contenu. Ouvrez le répertoire nécessaire (/mnt/fastdisk dans notre exemple) :
cd /mnt/fastdisk
Cette commande peut prendre un certain temps :
git clone git@hf.co:Qwen/Qwen1.5-32B-Chat-GGUF
Exécuter le modèle
Exécuter un script qui démarrera le serveur web et spécifiera /mnt/fastdisk comme répertoire de travail avec les modèles. Ce script peut télécharger des composants supplémentaires lors du premier lancement.
./start_linux.sh --model-dir /mnt/fastdisk
Ouvrez votre navigateur web et sélectionnez le site llama.cpp dans la liste déroulante Model loader:

Veillez à définir le paramètre n-gpu-layers. C'est lui qui est responsable du pourcentage de calculs qui sera déchargé sur le GPU. Si vous laissez le chiffre à 0, tous les calculs seront effectués sur le CPU, ce qui est assez lent. Une fois tous les paramètres définis, cliquez sur le bouton Load. Ensuite, allez dans l'onglet Chat et sélectionnez Instruct mode. Vous pouvez maintenant saisir n'importe quel message et recevoir une réponse :

Le traitement sera effectué par défaut sur tous les GPU disponibles, en tenant compte des paramètres spécifiés précédemment :

Voir aussi:
Mis à jour: 28.03.2025
Publié: 20.01.2025