Chapitrage
Automatique

Pipeline IA pour découper et nommer automatiquement la bibliothèque audio de Melba

🎵
Audio
Fichier MP3
FR ou EN
📝
Whisper
Transcription
+ timestamps
🤖
Claude
Analyse narrative
+ nommage
📊
JSON
Chapitres
horodatés
⚙️

Fonctionnement du pipeline

Melba produit des audios guidés en français et en anglais. Chaque épisode devait être découpé en chapitres horodatés pour permettre la navigation dans l'app, un travail qui aurait représenté plusieurs mois à la main.

🔬 Phase 1 : Transcription (Whisper)

OpenAI Whisper large-v3 transcrit l'audio avec des timestamps précis au 1/10e de seconde. Le modèle est chargé une seule fois pour tout le batch, ce qui optimise les temps de traitement.

🧠 Phase 2 : Analyse narrative (Claude)

Claude analyse la transcription et détecte les transitions narratives. Il génère des titres de chapitres selon un prompt métier précis, avec retry automatique en cas d'échec.

✍️

L'enjeu du prompt engineering

Le vrai défi du projet n'était pas technique mais éditorial : trouver un prompt capable de reproduire fidèlement la tonalité propre à Melba et d'assurer un découpage cohérent avec la structure narrative de chaque épisode. Plusieurs itérations ont été nécessaires pour obtenir un résultat conforme aux attentes, bilingue et stable sur l'ensemble du catalogue.

Le prompt final définit le ton, les règles de nommage des chapitres, et le vocabulaire attendu, le tout intégré dans le contexte spécifique du contenu audio de Melba.

Résultats

Un traitement de masse rendu possible par l'automatisation

150+
Épisodes traités
Catalogue complet FR & EN
< 2h
Temps total
Vs plusieurs mois à la main
~3 min
Par épisode
Transcription + analyse IA
FR&EN
Bilingue
Pipeline identique, 2 langues
🐍

Stack technique

Python : script batch multi-fichiers

OpenAI Whisper large-v3 : transcription

Stable-TS : timestamps précis

Claude API (Anthropic) : analyse narrative

JSON : format de sortie horodaté

Optimisations

Mode pipeline : analyse IA parallèle à la transcription suivante

Cache transcriptions : réutilisation sans re-transcription

Retry automatique : 3 tentatives en cas d'erreur IA

CUDA (Windows) : accélération GPU RTX pour Whisper

Détection doublons : fichiers déjà traités ignorés