Kurasi transkrip setelah acara
Membersihkan, mengatribusi, dan mendistribusikan transkrip multibahasa sehingga dokumen pasca-acara tahan terhadap pengawasan.
Transkrip Loquira mentah menangkap setiap kata yang dikenali mesin ucapan: kalimat lengkap, fragmen kalimat, awal palsu, kata pengisi yang diulang, dan artefak cross-talk. Ini adalah catatan akurat dari apa yang didengar mesin. Ini bukan dokumen yang dapat dipublikasikan.
Panduan ini mencakup pass kurasi — pembersihan minimum yang mengubah transkrip mentah menjadi dokumen yang cocok untuk distribusi, kutipan, dan pengarsipan.
Pass pembersihan minimum
Transkrip yang dikurasi harus lulus tiga tes:
- Pembaca dapat mengidentifikasi siapa yang mengatakan apa.
- Teks mengalir sebagai prosa yang ditulis, bukan sebagai ucapan yang tidak lancar.
- Tidak ada materi sensitif yang muncul dalam versi yang didistribusikan.
Langkah 1: Atribusi pembicara. Transkrip mentah mencatat ucapan sebagai satu aliran. Jika beberapa pembicara aktif, tambahkan label pembicara pada ucapan pertama setiap pembicara dan setiap kali pembicara berubah. Gunakan nama atau peran pembicara: “Alina Novak (CEO):” atau “Moderator:”. Untuk konferensi pers, identifikasi jurnalis oleh outlet jika izin telah diberikan: “Pertanyaan — Le Monde:”.
Langkah 2: Istirahat paragraf dan struktur. Transkrip mentah tiba sebagai blok segmen bertiming. Masukkan istirahat paragraf pada transisi topik alami. Jika agenda malam mencakup tiga topik, transkrip harus memiliki tiga bagian. Tambahkan anotasi header dalam tanda kurung siku untuk pergeseran topik: “[Transisi ke tanya jawab]”.
Langkah 3: Bersihkan disfluensi. Hapus kata pengisi yang diulang (um, uh, you know, like, sort of). Mesin ucapan setia mereproduksi setiap ucapan termasuk ini. Versi yang dikurasi melayani pembaca dengan lebih baik dengan menghilangkannya. Jangan tidak memperbaiki tata bahasa, memparafrasekan kalimat, atau mengubah arti pembicara. Transkrip adalah catatan, bukan tulisan ulang.
Mendamaikan transkrip yang diterjemahkan terhadap aslinya
Ketika sesi memiliki beberapa bahasa keluaran aktif, setiap transkrip bahasa adalah terjemahan independen dari ucapan asli. Terjemahan balik langsung dari transkrip Prancis ke dalam bahasa Inggris tidak akan cocok dengan asli bahasa Inggris kata demi kata — terjemahan memperkenalkan variasi yang sah dalam frasa, penanganan idiom, dan struktur kalimat.
Cara mendamaikan untuk distribusi:
- Distribusikan transkrip bahasa asli sebagai versi otoritatif.
- Distribusikan setiap transkrip yang diterjemahkan di sampingnya, berlabel jelas: “Terjemahan Prancis (dibuat mesin)”.
- Jangan mencoba mengharmonisasikan terjemahan secara manual dengan aslinya. Variasi melekat pada proses terjemahan dan tidak menunjukkan kesalahan.
Jika bagian tertentu harus identik di semua versi bahasa — pernyataan kebijakan, penafian hukum, kutipan kunci — verifikasi terjemahan bagian itu secara terpisah dan beri anotasi transkrip jika perlu. Ini jarang untuk sebagian besar kasus penggunaan tetapi penting untuk konteks regulasi atau kepatuhan.
Redaksi untuk materi sensitif
Sebelum mendistribusikan transkrip secara eksternal, tinjau untuk konten sensitif yang tidak boleh muncul dalam versi yang dipublikasikan.
Yang harus dicari:
- Informasi yang dapat diidentifikasi secara pribadi (nomor telepon, alamat email, alamat rumah) yang diucapkan selama acara. Mesin ucapan menangkap ini dengan akurat.
- Komentar off-the-record yang dibuat selama segmen on-the-record. Pembicara dapat beralih dari on-the-record ke off-the-record di tengah kalimat.
- Pernyataan forward-looking yang sensitif secara komersial yang dibersihkan untuk ruangan tetapi tidak untuk distribusi eksternal.
Metode redaksi: Ganti bagian sensitif dengan deskripsi dalam tanda kurung: “[Diredaksi — sensitif secara komersial]” atau “[Informasi pribadi dihapus]”. Jangan gunakan transkrip mentah sebagai bukti redaksi; teksnya berada di posisi yang sama. Buat file redaksi terpisah.
Konvensi pengarsipan untuk catatan jangka panjang
Organisasi yang menjalankan sesi Loquira mingguan atau bulanan mengakumulasi arsip transkrip. Tanpa konvensi penamaan, arsip menjadi tidak dapat digunakan dalam beberapa kuartal.
Struktur arsip yang direkomendasikan:
/transcripts/
YYYY/
YYYY-MM-DD_event-name/
YYYY-MM-DD_event-name_en.txt
YYYY-MM-DD_event-name_fr.txt
YYYY-MM-DD_event-name_ja.txt
YYYY-MM-DD_event-name_metadata.json
File metadata JSON menyimpan informasi tingkat sesi: nama pembicara, jenis acara, durasi, jumlah pendengar per bahasa, dan catatan kurator apa pun (misalnya “Segmen tanya jawab hilang — mikrofon mati selama tanya jawab”).
Keputusan retensi per acara:
Tidak setiap transkrip harus disimpan tanpa batas. Tetapkan kategori retensi untuk setiap jenis acara:
| Jenis acara | Retensi | Contoh |
|---|---|---|
| Rapat dewan | Permanen | Rapat pemegang saham tahunan |
| All-hands internal | 2 tahun | Town hall kuartalan |
| Konferensi pers | 1 tahun | Peluncuran produk |
| Stand-up mingguan | 90 hari | Sinkronisasi teknik |
| Sesi uji | 30 hari | Latihan sebelum acara |
Terapkan retensi pada tingkat arsip, bukan per-file. Skrip yang memeriksa tanggal pembuatan folder terhadap kebijakan retensi dapat mengotomatisasi pembersihan.