Curar transcrições após o evento
Limpando, atribuindo e distribuindo transcrições multilíngues para que o documento pós-evento se sustente sob escrutínio.
Uma transcrição bruta do Loquira captura cada palavra que o motor de fala reconheceu: frases completas, fragmentos de frases, falsos começos, palavras de preenchimento repetidas e artefatos de conversas cruzadas. É um registro preciso do que o motor ouviu. Não é um documento publicável.
Este guia cobre a passagem de curadoria — a limpeza mínima que transforma uma transcrição bruta em um documento adequado para distribuição, citação e arquivamento.
A passagem de limpeza mínima
Uma transcrição curada deve passar por três testes:
- Um leitor pode identificar quem disse o quê.
- O texto flui como prosa escrita, não como fala disfluente.
- Nenhum material sensível aparece na versão distribuída.
Etapa 1: Atribuição de palestrante. A transcrição bruta registra enunciados como um fluxo único. Se vários palestrantes estiveram ativos, adicione um rótulo de palestrante no primeiro enunciado de cada palestrante e sempre que o palestrante mudar. Use o nome ou cargo do palestrante: “Alina Novak (CEO):” ou “Moderador:”. Para coletivas de imprensa, identifique os jornalistas por veículo se a permissão foi concedida: “Pergunta — Le Monde:”.
Etapa 2: Quebras de parágrafo e estrutura. A transcrição bruta chega como um bloco de segmentos temporizados. Insira quebras de parágrafo nas transições naturais de tópico. Se a pauta da noite cobriu três tópicos, a transcrição deve ter três seções. Adicione anotações de cabeçalho entre colchetes para mudanças de tópico: “[Transição para perguntas e respostas]”.
Etapa 3: Limpeza de disfluências. Remova palavras de preenchimento repetidas (hum, eh, sabe, tipo, assim). O motor de fala reproduz fielmente cada enunciado incluindo estes. Uma versão curada serve melhor ao leitor omitindo-os. Não corrija gramática, reformule frases ou altere o significado do palestrante. A transcrição é um registro, não uma reescrita.
Reconciliando transcrições traduzidas com o original
Quando uma sessão teve vários idiomas de saída ativos, cada transcrição de idioma é uma renderização independente da fala original. Uma retro-tradução direta da transcrição em francês para o inglês não corresponderá ao original inglês palavra por palavra — a tradução introduz variações legítimas de fraseado, tratamento de expressões idiomáticas e estrutura de frases.
Como reconciliar para distribuição:
- Distribua a transcrição no idioma original como a versão autoritativa.
- Distribua cada transcrição traduzida juntamente com ela, claramente rotulada: “Tradução em francês (gerada por máquina)”.
- Não tente harmonizar manualmente as traduções com o original. A variação é inerente ao processo de tradução e não indica erros.
Se uma passagem específica deve ser idêntica em todas as versões de idioma — uma declaração de política, uma isenção legal, uma citação-chave — verifique a tradução dessa passagem separadamente e anote a transcrição se necessário. Isso é raro para a maioria dos casos de uso, mas essencial para contextos regulatórios ou de conformidade.
Redação para material sensível
Antes de distribuir uma transcrição externamente, revise-a quanto a conteúdo sensível que não deve aparecer na versão publicada.
O que procurar:
- Informações pessoalmente identificáveis (números de telefone, endereços de e-mail, endereços residenciais) falados durante o evento. O motor de fala captura estes com precisão.
- Comentários não oficiais feitos durante segmentos oficiais. Um palestrante pode transitar do oficial para o não oficial no meio de uma frase.
- Declarações prospectivas comercialmente sensíveis que foram aprovadas para a sala, mas não para distribuição externa.
Método de redação: Substitua a passagem sensível por uma descrição entre colchetes: “[Redigido — comercialmente sensível]” ou “[Informação pessoal removida]”. Não use a transcrição bruta como prova da redação; o texto está na mesma posição. Crie um arquivo redigido separado.
Convenções de arquivamento para registros de longo prazo
Organizações que realizam sessões semanais ou mensais do Loquira acumulam um arquivo de transcrições. Sem convenções de nomenclatura, o arquivo se torna inutilizável dentro de alguns trimestres.
Estrutura de arquivo recomendada:
/transcripts/
YYYY/
YYYY-MM-DD_nome-do-evento/
YYYY-MM-DD_nome-do-evento_pt-BR.txt
YYYY-MM-DD_nome-do-evento_fr.txt
YYYY-MM-DD_nome-do-evento_ja.txt
YYYY-MM-DD_nome-do-evento_metadata.json
O arquivo JSON de metadados armazena informações em nível de sessão: nome do palestrante, tipo de evento, duração, número de ouvintes por idioma e quaisquer notas do curador (por exemplo, “Segmento de perguntas e respostas ausente — microfone estava desligado durante as perguntas e respostas”).
Decisões de retenção por evento:
Nem toda transcrição precisa ser mantida para sempre. Estabeleça uma categoria de retenção para cada tipo de evento:
| Tipo de evento | Retenção | Exemplo |
|---|---|---|
| Reuniões de diretoria | Permanente | Assembleia anual de acionistas |
| Reuniões internas | 2 anos | Reunião geral trimestral |
| Coletivas de imprensa | 1 ano | Lançamento de produto |
| Reuniões semanais | 90 dias | Sincronia de engenharia |
| Sessões de teste | 30 dias | Ensaio antes de um evento |
Aplique a retenção no nível do arquivo, não por arquivo. Um script que verifica as datas de criação das pastas em relação à política de retenção pode automatizar a limpeza.