Kuratoruj transkrypcje po wydarzeniu
Czyszczenie, przypisywanie i dystrybucja wielojęzycznych transkrypcji aby dokument po-wydarzeniu wytrzymał krytykę.
Surowy transkrypt Loquira przechwytuje każde słowo które silnik mowy rozpoznał: kompletne zdania, fragmenty zdań, fałszywe starty, powtórzone słowa wypełniające i artefakty nakładania się głosów. To jest dokładny zapis tego co silnik usłyszał. To nie jest dokument publikowalny.
Ten przewodnik obejmuje przebieg kuracji — minimalne czyszczenie które zamienia surowy transkrypt w dokument odpowiedni do dystrybucji, cytacji i archiwizacji.
Minimalny przebieg czyszczenia
Skuratorowany transkrypt powinien przejść trzy testy:
- Czytelnik może zidentyfikować kto co powiedział.
- Tekst płynie jako napisana proza, nie jako niewyraźna mowa.
- Żaden wrażliwy materiał nie pojawia się w wersji rozprowadzanej.
Krok 1: Przypisanie mówcy. Surowy transkrypt zapisuje wypowiedzi jako pojedynczy strumień. Jeśli aktywnych było wielu mówców, dodaj etykietę mówcy przy pierwszej wypowiedzi każdego mówcy i za każdym razem gdy mówca się zmienia. Użyj nazwy lub roli mówcy: “Alina Novak (CEO):” lub “Moderator:”. Dla konferencji prasowych, zidentyfikuj dziennikarzy przez outlet jeśli uzyskano pozwolenie: “Pytanie — Le Monde:”.
Krok 2: Łamania akapitów i struktura. Surowy transkrypt przychodzi jako blok segmentów czasowych. Wstaw łamania akapitów przy naturalnych przejściach tematów. Jeśli agenda wieczoru obejmowała trzy tematy, transkrypt powinien mieć trzy sekcje. Dodaj adnotacje nagłówkowe w nawiasach kwadratowych dla zmian tematów: “[Przejście do pytań i odpowiedzi]”.
Krok 3: Czyszczenie niewyraźności. Usuń powtórzone słowa wypełniające (um, uh, wiesz, jakbyś, rodzaj). Silnik mowy wiernie odtwarza każdą wypowiedź włączając te. Skuratorowana wersja służy czytelnikowi lepiej przez ich pominięcie. Nie poprawiaj gramatyki, nie przepisuj zdań ani nie zmieniaj znaczenia mówcy. Transkrypt jest zapisem, nie przepisaniem.
Uzgadnianie przetłumaczonych transkryptów z oryginałem
Gdy sesja miała wiele aktywnych języków wyjściowych, każdy transkrypt językowy jest niezależnym renderowaniem oryginalnej mowy. Bezpośrednie przetłumaczenie francuskiego transkryptu z powrotem na angielski nie będzie pasować do angielskiego oryginału słowo w słowo — tłumaczenie wprowadza legalną zmienność w frazowaniu, obsłudze idiomów i strukturze zdań.
Jak uzgodnić do dystrybucji:
- Rozprowadź transkrypt w języku oryginalnym jako wersję autorytatywną.
- Rozprowadź każdy przetłumaczony transkrypt obok niego, jasno oznaczony: “Tłumaczenie francuskie (wygenerowane maszynowo)”.
- Nie próbuj ręcznie harmonizować tłumaczeń z oryginałem. Zmienność jest wrodzona procesowi tłumaczenia i nie wskazuje błędy.
Jeśli konkretny passaż musi być identyczny we wszystkich wersjach językowych — oświadczenie polityki, zrzeczenie prawne, kluczowy cytat — zweryfikuj tłumaczenie tego passażu oddzielnie i adnotuj transkrypt jeśli potrzebne. To jest rzadkie dla większości przypadków użycia ale niezbędne dla kontekstów regulacyjnych lub zgodności.
Redagowanie materiałów wrażliwych
Przed rozprowadzeniem transkryptu zewnętrznie, przejrzyj go dla wrażliwej zawartości która nie powinna pojawiać się w opublikowanej wersji.
Czego szukać:
- Osobowo identyfikowalne informacje (numery telefonów, adresy e-mail, adresy domowe) wypowiedziane podczas wydarzenia. Silnik mowy przechwytuje je dokładnie.
- Uwagi nieoficjalne poczynione podczas segmentów oficjalnych. Mówca może przejść z oficjalnego na nieoficjalny w połowie zdania.
- Komercyjnie wrażliwe stwierdzenia前瞻owe które zostały zatwierdzone dla sali ale nie dla rozpowszechnienia zewnętrznego.
Metoda redagowania: Zastąp wrażliwy passaż opisem w nawiasach: “[Zredagowane — komercyjnie wrażliwe]” lub “[Informacja osobowa usunięta]”. Nie używaj surowego transkryptu jako dowodu redagowania; tekst jest w tej samej pozycji. Utwórz oddzielny plik zredagowany.
Konwencje archiwizacji dla długoterminowych zapisów
Organizacje które przeprowadzają cotygodniowe lub comiesięczne sesje Loquira akumulują archiwum transkryptów. Bez konwencji nazewnictwa archiwum staje się nieużywalne w ciągu kilku kwartałów.
Zalecana struktura archiwum:
/transcripts/
YYYY/
YYYY-MM-DD_event-name/
YYYY-MM-DD_event-name_en.txt
YYYY-MM-DD_event-name_fr.txt
YYYY-MM-DD_event-name_ja.txt
YYYY-MM-DD_event-name_metadata.json
Plik JSON metadanych przechowuje informacje na poziomie sesji: nazwa mówcy, typ wydarzenia, czas trwania, liczba słuchaczy na język i wszelkie notatki kuratora (np. “Segment pytań i odpowiedzi brakuje — mikrofon był wyłączony podczas pytań”).
Decyzje retencji na wydarzenie:
Nie każdy transkrypt musi być zachowany nieograniczenie. Ustal kategorię retencji dla każdego typu wydarzenia:
| Typ wydarzenia | Retencja | Przykład |
|---|---|---|
| Zebrania zarządu | Stałe | Walne zgromadzenie akcjonariuszy |
| Wewnętrzne all-hands | 2 lata | Kwartalny town hall |
| Konferencje prasowe | 1 rok | Premiera produktu |
| Cotygodniowe stand-upy | 90 dni | Sync inżynieryjny |
| Sesje testowe | 30 dni | Próba generalna przed wydarzeniem |
Zastosuj retencję na poziomie archiwum, nie na plik. Skrypt który sprawdza daty tworzenia folderów przeciw polityce retencji może zautomatyzować czyszczenie.