इवेंट के बाद ट्रांसक्रिप्ट्स का संपादन करें
बहुभाषीय ट्रांसक्रिप्ट्स को साफ़, विशेषता देने और वितरित करना ताकि इवेंट-पश्चात दस्तावेज़ जांच के अधीन हो।
एक कच्चा Loquira ट्रांसक्रिप्ट हर शब्द को कैप्चर करता है जो भाषण इंजन ने पहचाना: पूर्ण वाक्य, वाक्य खंड, झूठी शुरुआत, दोहराए गए फिलर शब्द, और क्रॉस-टॉक आर्टिफैक्ट। यह वही है जो इंजन ने सुना। यह एक प्रकाशन योग्य दस्तावेज़ नहीं है।
यह गाइड संपादन पास को कवर करता है — न्यूनतम सफाई जो एक कच्चे ट्रांसक्रिप्ट को वितरण, उद्धरण, और संग्रह के लिए उपयुक्त दस्तावेज़ में बदल देती है।
न्यूनतम सफाई पास
एक संपादित ट्रांसक्रिप्ट को तीन परीक्षणों से गुजरना चाहिए:
- एक पाठक यह पहचान सकता है कि किसने क्या कहा।
- पाठ लिखित गद्य के रूप में बहता है, असंबद्ध भाषण के रूप में नहीं।
- वितरित संस्करण में कोई संवेदनशील सामग्री प्रकट नहीं होती है।
चरण 1: वक्ता विशेषता। कच्चा ट्रांसक्रिप्ट उच्चारण को एकल धारा के रूप में रिकॉर्ड करता है। यदि कई वक्ता सक्रिय थे, तो प्रत्येक वक्ता की पहली उच्चारण पर और जब भी वक्ता बदलता है एक वक्ता लेबल जोड़ें। वक्ता के नाम या भूमिका का उपयोग करें: “Alina Novak (CEO):” या “Moderator:”। प्रेस कॉन्फ्रेंस के लिए, यदि अनुमति दी गई है तो पत्रकारों को आउटलेट द्वारा पहचानें: “Question — Le Monde:”।
चरण 2: पैराग्राफ ब्रेक और संरचना। कच्चा ट्रांसक्रिप्ट समयबद्ध खंडों के एक ब्लॉक के रूप में आता है। प्राकृतिक विषय संक्रमण पर पैराग्राफ ब्रेक डालें। यदि शाम के एजेंडा में तीन विषय शामिल थे, तो ट्रांसक्रिप्ट में तीन खंड होने चाहिए। विषय बदलने के लिए वर्गाकार कोष्ठक में शीर्षक एनोटेशन जोड़ें: “[Transition to Q&A]”।
चरण 3: असंबद्धता की सफाई। दोहराए गए फिलर शब्दों (um, uh, you know, like, sort of) को हटा दें। भाषण इंजन उच्चारण सहित हर उच्चारण का वफद रूप से पुनरुत्पादन करता है। एक संपादित संस्करण पाठक को उन्हें छोड़कर बेहतर सेवा देता है। व्याकरण को सुधारें नहीं, वाक्यों को फिर से व्यक्त करें, या वक्ता के अर्थ को बदलें। ट्रांसक्रिप्ट एक रिकॉर्ड है, रीराइट नहीं।
अनुवादित ट्रांसक्रिप्ट्स को मूल के खिलाफ सामंजस्य करना
जब कोई सत्र में कई आउटपुट भाषाएं सक्रिय थीं, तो प्रत्येक भाषा ट्रांसक्रिप्ट मूल भाषण का एक स्वतंत्र प्रतिपादन है। फ्रेंच ट्रांसक्रिप्ट का एक प्रत्यक्ष वापस-अनुवाद अंग्रेजी मूल से शब्द-दर-शब्द मेल नहीं खाएगा — अनुवाद वाक्यांश और वाक्य संरचना में वैध विविधता प्रस्तुत करता है।
वितरण के लिए सामंजस्य कैसे करें:
- मूल-भाषा ट्रांसक्रिप्ट को प्राधिकरण संस्करण के रूप में वितरित करें।
- प्रत्येक अनुवादित ट्रांसक्रिप्ट को इसके साथ स्पष्ट रूप से लेबलित करके वितरित करें: “French translation (machine-generated)”।
- अनुवादों को मूल के साथ मैन्युअल रूप से हार्मोनाइज़ करने का प्रयास न करें। विविधता अनुवाद प्रक्रिया के लिए आंतरिक है और त्रुटियों को इंगित नहीं करती।
यदि कोई विशिष्ट अंश को सभी भाषा संस्करणों में समान होना चाहिए — एक नीति वक्तव्य, एक कानूनी अस्वीकरण, एक प्रमुख उद्धरण — तो उस अंश के अनुवाद को अलग से सत्यापित करें और यदि आवश्यक हो तो ट्रांसक्रिप्ट को एनोटेट करें। यह अधिकांश उपयोग के मामलों के लिए दुर्लभ है लेकिन नियामक या अनुपालन संदर्भों के लिए आवश्यक है।
संवेदनशील सामग्री के लिए रेडक्शन
बाहरी रूप से एक ट्रांसक्रिप्ट वितरित करने से पहले, संवेदनशील सामग्री के लिए इसकी समीक्षा करें जिसे प्रकाशित संस्करण में प्रकट नहीं होना चाहिए।
क्या देखना है:
- व्यक्तिगत रूप से पहचाने जाने वाली जानकारी (फोन नंबर, ईमेल पते, घर के पते) जो इवेंट के दौरान बोली गई। भाषण इंजन इन्हें सटीक रूप से कैप्चर करता है।
- ऑन-द-रिकॉर्ड खंडों के दौरान ऑफ-द-रिकॉड टिप्पणी। एक वक्ता मध्य-वाक्य में ऑन-द-रिकॉर्ड से ऑफ-द-रिकॉर्ड में संक्रमण कर सकता है।
- व्यावसायिक संवेदनशील आगे-देखने वाले बयान जो कमरे के लिए साफ़ किए गए थे लेकिन बाहरी वितरण के लिए नहीं।
रेडक्शन विधि: संवेदनशील अंश को एक वर्गाकार कोष्ठक विवरण से बदलें: “[Redacted — commercially sensitive]” या “[Personal information removed]”। रेडक्शन प्रूफ के रूप में कच्चे ट्रांसक्रिप्ट का उपयोग न करें; पाठ उसी स्थिति में है। एक अलग रेडक्टेड फ़ाइल बनाएं।
दीर्घकालिक रिकॉर्ड के लिए संग्रहकरण सम्मेलन
संगठन जो साप्ताहिक या मासिक Loquira सत्र चलाते हैं एक ट्रांसक्रिप्ट संग्रह एकत्र करते हैं। बिना नामकरण सम्मेलनों के, संग्रह कुछ तिमाहियों के भीतर अप्रयोग्य हो जाता है।
अनुशंसित संग्रह संरचना:
/transcripts/
YYYY/
YYYY-MM-DD_event-name/
YYYY-MM-DD_event-name_en.txt
YYYY-MM-DD_event-name_fr.txt
YYYY-MM-DD_event-name_ja.txt
YYYY-MM-DD_event-name_metadata.json
मेटाडेटा JSON फ़ाइल सत्र-स्तर की जानकारी संग्रहीत करती है: वक्ता का नाम, इवेंट प्रकार, अवधि, प्रति भाषा श्रोताओं की संख्या, और कोई भी संपादक नोट्स (उदा। “Q&A segment missing — microphone was off during Q&A”)।
प्रति इवेंट रिटेंशन निर्णय:
हर ट्रांसक्रिप्ट को अनिश्चित काल तक रखने की आवश्यकता नहीं है। प्रत्येक इवेंट प्रकार के लिए एक रिटेंशन श्रेणी स्थापित करें:
| इवेंट प्रकार | रिटेंशन | उदाहरण |
|---|---|---|
| बोर्ड बैठकें | स्थायी | वार्षिक शेयरधारक बैठक |
| आंतरिक ऑल-हैंड | 2 साल | तिमाही टाउन हॉल |
| प्रेस कॉन्फ्रेंस | 1 साल | उत्पाद लॉन्च |
| साप्ताहिक स्टैंड-अप | 90 दिन | इंजीनियरिंग सिंक |
| परीक्षण सत्र | 30 दिन | इवेंट से पहले ड्राई रन |
रिटेंशन को संग्रह स्तर पर, प्रति-फ़ाइल नहीं लागू करें। एक स्क्रिप्ट जो फ़ोल्डर निर्माण तारीखों की जांच करती है और रिटेंशन नीति के खिलाफ सफाई को स्वचालित कर सकती है।