🏠 Accueil 🎵 Partie 1

🔊 Partie 2

📱 Partie 3

Chapitrage
Automatique

Pipeline IA pour découper et nommer automatiquement la bibliothèque audio de Melba

🎵

Audio

Fichier MP3
FR ou EN

→

📝

Whisper

Transcription
+ timestamps

→

🤖

Claude

Analyse narrative
+ nommage

→

📊

JSON

Chapitres
horodatés

⚙️

Fonctionnement du pipeline

Melba produit des audios guidés en français et en anglais. Chaque épisode devait être découpé en chapitres horodatés pour permettre la navigation dans l'app, un travail qui aurait représenté plusieurs mois à la main.

🔬 Phase 1 : Transcription (Whisper)

OpenAI Whisper large-v3 transcrit l'audio avec des timestamps précis au 1/10e de seconde. Le modèle est chargé une seule fois pour tout le batch, ce qui optimise les temps de traitement.

🧠 Phase 2 : Analyse narrative (Claude)

Claude analyse la transcription et détecte les transitions narratives. Il génère des titres de chapitres selon un prompt métier précis, avec retry automatique en cas d'échec.

✍️

L'enjeu du prompt engineering

Le vrai défi du projet n'était pas technique mais éditorial : trouver un prompt capable de reproduire fidèlement la tonalité propre à Melba et d'assurer un découpage cohérent avec la structure narrative de chaque épisode. Plusieurs itérations ont été nécessaires pour obtenir un résultat conforme aux attentes, bilingue et stable sur l'ensemble du catalogue.

                            Le prompt final définit le ton, les règles de nommage des chapitres, et le vocabulaire attendu, le tout intégré dans le contexte spécifique du contenu audio de Melba.
                        

Résultats

Un traitement de masse rendu possible par l'automatisation

150+

Épisodes traités

Catalogue complet FR & EN

< 2h

Temps total

Vs plusieurs mois à la main

~3 min

Par épisode

Transcription + analyse IA

FR&EN

Bilingue

Pipeline identique, 2 langues

🐍

Stack technique

• Python : script batch multi-fichiers

• OpenAI Whisper large-v3 : transcription

• Stable-TS : timestamps précis

• Claude API (Anthropic) : analyse narrative

• JSON : format de sortie horodaté

⚡

Optimisations

• Mode pipeline : analyse IA parallèle à la transcription suivante

• Cache transcriptions : réutilisation sans re-transcription

• Retry automatique : 3 tentatives en cas d'erreur IA

• CUDA (Windows) : accélération GPU RTX pour Whisper

• Détection doublons : fichiers déjà traités ignorés

Web Funnel & Paywalls →

ChapitrageAutomatique