Curation des transcripts après l'événement
Nettoyer, attribuer et distribuer les transcripts multilingues pour que le document post-événement résiste à l'examen.
Un transcript brut de Loquira capture chaque mot que le moteur de reconnaissance a reconnu : phrases complètes, fragments de phrases, faux départs, mots de remplissage répétés et artefacts de dialogues croisés. C’est un enregistrement précis de ce que le moteur a entendu. Ce n’est pas un document publiable.
Ce guide couvre le passage de curation — le nettoyage minimal qui transforme un transcript brut en un document adapté à la distribution, à la citation et à l’archivage.
Le nettoyage minimal
Un transcript curaté doit passer trois tests :
- Un lecteur peut identifier qui a dit quoi.
- Le texte se lit comme une prose écrite, pas comme un discours haché.
- Aucun contenu sensible n’apparaît dans la version distribuée.
Étape 1 : Attribution des orateurs. Le transcript brut enregistre les énonciations sous forme d’un flux unique. Si plusieurs orateurs étaient actifs, ajoutez une étiquette d’orateur à la première énonciation de chaque orateur et à chaque changement d’orateur. Utilisez le nom ou le rôle de l’orateur : « Alina Novak (PDG) : » ou « Modérateur : ». Pour les conférences de presse, identifiez les journalistes par média si l’autorisation a été accordée : « Question — Le Monde : ».
Étape 2 : Sauts de paragraphe et structure. Le transcript brut arrive sous forme de bloc de segments horodatés. Insérez des sauts de paragraphe aux transitions thématiques naturelles. Si l’ordre du jour de la soirée couvrait trois sujets, le transcript doit avoir trois sections. Ajoutez des annotations d’en-tête entre crochets pour les changements de sujet : « [Transition vers les questions-réponses] ».
Étape 3 : Nettoyage des disfluences. Supprimez les mots de remplissage répétés (euh, hein, vous savez, genre, en quelque sorte). Le moteur de reconnaissance reproduit fidèlement chaque énonciation, y compris celles-ci. Une version curatée sert mieux le lecteur en les omettant. Ne corrigez pas la grammaire, ne reformulez pas les phrases et ne modifiez pas le sens de l’orateur. Le transcript est un enregistrement, pas une réécriture.
Réconciliation des transcripts traduits avec l’original
Lorsqu’une session avait plusieurs langues de sortie actives, chaque transcript linguistique est un rendu indépendant du discours original. Une rétro-traduction directe du transcript français en anglais ne correspondra pas mot pour mot à l’original anglais — la traduction introduit des variations légitimes dans la formulation, le traitement des expressions idiomatiques et la structure des phrases.
Comment réconcilier pour la distribution :
- Distribuez le transcript en langue originale comme version faisant autorité.
- Distribuez chaque transcript traduit à côté, clairement étiqueté : « Traduction française (générée automatiquement) ».
- N’essayez pas d’harmoniser manuellement les traductions avec l’original. La variation est inhérente au processus de traduction et n’indique pas d’erreurs.
Si un passage spécifique doit être identique dans toutes les versions linguistiques — une déclaration de politique, une mention légale, une citation clé — vérifiez la traduction de ce passage séparément et annotez le transcript si nécessaire. C’est rare pour la plupart des cas d’usage mais essentiel dans les contextes réglementaires ou de conformité.
Caviardage pour contenu sensible
Avant de distribuer un transcript en externe, révisez-le pour détecter tout contenu sensible qui ne devrait pas apparaître dans la version publiée.
Ce qu’il faut rechercher :
- Informations personnellement identifiables (numéros de téléphone, adresses e-mail, adresses personnelles) prononcées pendant l’événement. Le moteur de reconnaissance les capture avec précision.
- Remarques « off-the-record » faites pendant des segments « on-the-record ». Un orateur peut passer du « on-the-record » au « off-the-record » au milieu d’une phrase.
- Déclarations prospectives commercialement sensibles qui ont été approuvées pour la salle mais pas pour la distribution externe.
Méthode de caviardage : Remplacez le passage sensible par une description entre crochets : « [Caviardé — commercialement sensible] » ou « [Informations personnelles supprimées] ». N’utilisez pas le transcript brut comme preuve de caviardage ; le texte est à la même position. Créez un fichier caviardé séparé.
Conventions d’archivage pour les enregistrements à long terme
Les organisations qui mènent des sessions Loquira hebdomadaires ou mensuelles accumulent une archive de transcripts. Sans conventions de nommage, l’archive devient inutilisable en quelques trimestres.
Structure d’archive recommandée :
/transcripts/
YYYY/
YYYY-MM-DD_nom-de-l-evenement/
YYYY-MM-DD_nom-de-l-evenement_fr.txt
YYYY-MM-DD_nom-de-l-evenement_en.txt
YYYY-MM-DD_nom-de-l-evenement_ja.txt
YYYY-MM-DD_nom-de-l-evenement_metadata.json
Le fichier JSON de métadonnées stocke les informations au niveau de la session : nom de l’orateur, type d’événement, durée, nombre d’auditeurs par langue et toute note du curateur (par exemple « Segment questions-réponses manquant — le microphone était éteint pendant les questions-réponses »).
Décisions de rétention par événement :
Tous les transcripts n’ont pas besoin d’être conservés indéfiniment. Établissez une catégorie de rétention pour chaque type d’événement :
| Type d’événement | Rétention | Exemple |
|---|---|---|
| Conseils d’administration | Permanente | Assemblée générale annuelle |
| Réunions publiques internes | 2 ans | Réunion publique trimestrielle |
| Conférences de presse | 1 an | Lancement de produit |
| Points hebdomadaires | 90 jours | Synchronisation technique |
| Sessions de test | 30 jours | Répétition avant un événement |
Appliquez la rétention au niveau de l’archive, pas par fichier. Un script qui vérifie les dates de création des dossiers par rapport à la politique de rétention peut automatiser le nettoyage.