Pipeline IA pour découper et nommer automatiquement la bibliothèque audio de Melba
Melba produit des audios guidés en français et en anglais. Chaque épisode devait être découpé en chapitres horodatés pour permettre la navigation dans l'app, un travail qui aurait représenté plusieurs mois à la main.
OpenAI Whisper large-v3 transcrit l'audio avec des timestamps précis au 1/10e de seconde. Le modèle est chargé une seule fois pour tout le batch, ce qui optimise les temps de traitement.
Claude analyse la transcription et détecte les transitions narratives. Il génère des titres de chapitres selon un prompt métier précis, avec retry automatique en cas d'échec.
Le vrai défi du projet n'était pas technique mais éditorial : trouver un prompt capable de reproduire fidèlement la tonalité propre à Melba et d'assurer un découpage cohérent avec la structure narrative de chaque épisode. Plusieurs itérations ont été nécessaires pour obtenir un résultat conforme aux attentes, bilingue et stable sur l'ensemble du catalogue.
Un traitement de masse rendu possible par l'automatisation
• Python : script batch multi-fichiers
• OpenAI Whisper large-v3 : transcription
• Stable-TS : timestamps précis
• Claude API (Anthropic) : analyse narrative
• JSON : format de sortie horodaté
• Mode pipeline : analyse IA parallèle à la transcription suivante
• Cache transcriptions : réutilisation sans re-transcription
• Retry automatique : 3 tentatives en cas d'erreur IA
• CUDA (Windows) : accélération GPU RTX pour Whisper
• Détection doublons : fichiers déjà traités ignorés