イベント後の文字起こしをキュレーションする
厳しい評価にも耐えるイベント後ドキュメントを作成するための、多言語文字起こしのクリーニング、帰属、配布方法。
生のLoquira文字起こしは、音声エンジンが認識したすべての単語(完全な文、文の断片、言い直し、繰り返されるフィラーワード、クロストークのアーティファクト)をキャプチャします。これはエンジンが聞いた内容の正確な記録ですが、公開可能なドキュメントではありません。
このガイドでは、生の文字起こしを配布、引用、アーカイブに適したドキュメントに変えるための最小限のクリーンアップであるキュレーションパスについて説明します。
最小限のクリーンアップパス
キュレーションされた文字起こしは、3つのテストに合格する必要があります:
- 読者は誰が何を言ったかを識別できる。
- テキストは、流暢でない音声ではなく、書かれた散文として流れる。
- 配布版に機密情報が含まれていない。
ステップ1:スピーカーの帰属。 生の文字起こしは発話を単一のストリームとして記録します。複数のスピーカーがアクティブだった場合、各スピーカーの最初の発話時およびスピーカーが変わるたびにスピーカーラベルを追加します。スピーカーの名前または役職を使用します:「アリナ・ノバク(CEO):」 または 「モデレーター:」。プレスカンファレンスでは、許可が得られている場合、ジャーナリストをメディア名で特定します:「質問 — Le Monde:」。
ステップ2:段落区切りと構造。 生の文字起こしはタイムスタンプ付きセグメントのブロックとして届きます。自然なトピックの遷移箇所に段落区切りを挿入します。その夜のアジェンダが3つのトピックをカバーしていた場合、文字起こしには3つのセクションが必要です。トピックの変更を示すために、角括弧でヘッダー注釈を追加します:「[Q&Aに移行]」。
ステップ3:非流暢性のクリーンアップ。 繰り返されるフィラーワード(ええと、あのー、つまり、みたいな、一種の)を削除します。音声エンジンはこれらを含むすべての発話を忠実に再現します。キュレーションされたバージョンでは、これらを省略することで読者により良いサービスを提供します。文法を修正したり、文を言い換えたり、スピーカーの意図を変更したりしてはいけません。文字起こしは記録であり、リライトではありません。
翻訳された文字起こしと原文の調整
セッションで複数の出力言語がアクティブだった場合、各言語の文字起こしは元の音声の独立したレンダリングです。フランス語の文字起こしの英語への逆翻訳は、英語の原文と逐語的には一致しません。翻訳では、表現、慣用表現の処理、文構造に正当なバリエーションが導入されます。
配布のための調整方法:
- 原文の文字起こしを信頼できるバージョンとして配布します。
- 各翻訳された文字起こしをその横に配布し、明確にラベル付けします:「フランス語翻訳(機械生成)」。
- 翻訳を原文と手動で調和させようとしないでください。バリエーションは翻訳プロセスに内在するものであり、エラーを示すものではありません。
特定の箇所がすべての言語バージョンで同一でなければならない場合(ポリシーステートメント、法的免責事項、主要な引用)、その箇所の翻訳を個別に確認し、必要に応じて文字起こしに注釈を付けます。これはほとんどのユースケースでは稀ですが、規制やコンプライアンスのコンテキストでは不可欠です。
機密情報の編集
文字起こしを外部に配布する前に、公開バージョンに表示されるべきではない機密コンテンツがないか確認してください。
確認すべきもの:
- イベント中に話された個人を特定できる情報(電話番号、メールアドレス、自宅住所)。音声エンジンはこれらを正確にキャプチャします。
- オン・ザ・レコードのセグメント中に行われたオフ・ザ・レコードの発言。スピーカーが文の途中でオン・ザ・レコードからオフ・ザ・レコードに移行することがあります。
- 部屋では許可されたが、外部配布では許可されなかった商業的に機密性の高い将来予測に関する記述。
編集方法: 機密箇所を角括弧で囲んだ説明に置き換えます:「[編集済み — 商業的に機密]」 または 「[個人情報削除済み]」。生の文字起こしを編集の証明として使用しないでください。テキストは同じ位置にあります。別の編集済みファイルを作成してください。
長期保存のためのアーカイブ規則
毎週または毎月Loquiraセッションを実行する組織は、文字起こしアーカイブを蓄積します。命名規則がなければ、アーカイブは数四半期で使用不能になります。
推奨アーカイブ構造:
/transcripts/
YYYY/
YYYY-MM-DD_event-name/
YYYY-MM-DD_event-name_en.txt
YYYY-MM-DD_event-name_fr.txt
YYYY-MM-DD_event-name_ja.txt
YYYY-MM-DD_event-name_metadata.json
メタデータJSONファイルは、セッションレベルの情報を保存します:スピーカー名、イベントタイプ、期間、言語別リスナー数、およびキュレーターのメモ(例:「Q&Aセグメント欠落 — Q&A中にマイクがオフでした」)。
イベントごとの保存期間の決定:
すべての文字起こしを無期限に保持する必要はありません。イベントタイプごとに保存期間カテゴリを確立します:
| イベントタイプ | 保存期間 | 例 |
|---|---|---|
| 取締役会 | 永久 | 年次株主総会 |
| 社内全体ミーティング | 2年 | 四半期タウンホール |
| プレスカンファレンス | 1年 | 製品発表 |
| 毎週のスタンドアップ | 90日 | エンジニアリング同期 |
| テストセッション | 30日 | イベント前のリハーサル |
保存期間はファイル単位ではなく、アーカイブレベルで適用します。フォルダの作成日を保存期間ポリシーに対してチェックするスクリプトで、クリーンアップを自動化できます。