Videodaki altyazýyý yazýya döken sistem
Altyazý… ekrandaki kelimeler… Ama bu yazýda sen, sadece ne söylendiðini deðil, ne zaman ve nasýl söylendiðini çeken, sesi anlamdan soyutlayýp saf bilgiye dönüþtüren bir sistem kuracaksýn.
Videodaki konuþmalarý yazýya çevirmek için bir tuþa basmak kolay. Ama biz kolaydan söz etmiyoruz. Biz, sistemin söylemediðini çözmenin, kodlanmamýþ kelimeleri bile yazýya dökmenin yollarýný arýyoruz.
1. SRT Formatýný Aþmak: Zamansýz Transkript
Çoðu sistem altyazýyý .srt veya .vtt dosyasýndan alýr. Ama bu dosyalar zaman kodlarýna baðlýdýr. Yani video durursa altyazý kaybolur. Bizim istediðimiz ise: videodaki her konuþmanýn kronolojik baðdan koparýlmýþ saf metne dönüþmesi.
Yöntem:
- Videonun varsa .srt dosyasýný elde et
- Tüm zaman etiketlerini temizle: Regex ile dd:dd:dd,d+ --> dd:dd:dd,d+ satýrlarýný sil
- Sayýlarý kaldýr, satýrlarý birleþtir
Böylece altyazý, sadece konuþmanýn akýþý haline gelir. Bu artýk bir transkript deðil; düþüncenin düz yazýya dönüþmüþ halidir.
2. Video Dosyasý Elinde Yoksa: Altyazýyý Havadan Yakala
Bir video izledin, ama dosya senin deðil. Yine de altyazýyý çýkarabilirsin. YouTube veya gömülü oynatýcý fark etmez. Sistem: önbellek yakalama + DOM izleme.
Yöntem:
- Chrome’da videoyu aç
- Geliþtirici Konsol (F12) > Network sekmesine geç
- “timedtext” veya “caption” içerikli istekleri filtrele
- XHR dosyasýný incele, JSON veya XML içinde altyazýyý bul
Bu altyazý verisi sistemin içinden gelir. Video sahibinin bile unuttuðu yerden sen çýkarýrsýn. Bu, video izlerken konuþmanýn gölgesini çekmek gibidir.
3. Altyazý Yoksa: Sesi Parçala, Yapay Zekayý Dil Avcýsý Gibi Kullan
Videoda altyazý yok mu? Hiç sorun deðil. Sen altyazýyý kendin çýkaracaksýn. Ama sýradan speech-to-text sistemlerini deðil, çok katmanlý model kombinasyonlarýný kullanarak.
Gizli Kombinasyon:
- FFmpeg ile videodan sesi çýkar:
ffmpeg -i video.mp4 -vn -acodec copy audio.aac
- Whisper (OpenAI) modelini kullanarak ses dosyasýný metne çevir
whisper audio.aac --model large --language Turkish
- Çýkan sonucu temizle: parantez içi tanýmlarý sil, zaman kodlarýný ayýkla
Whisper’ýn farký nedir? Aksan, arka plan gürültüsü, düþük kalite gibi þartlarda bile tahmin yürütür. Ve tahmin ettiði kelimeyi güven skoruyla birlikte verir. Sen bu skoru da filtreleyerek sadece net konuþmalarý alýrsýn.
4. Altyazýyý Duyguya Göre Ayýr: Konuþmanýn Alt Metni
Sadece konuþulaný yazmak yetmez. Ne hissedildiðini de çýkarmak gerekir. Bunun için:
- Konuþma metnini satýrlara ayýr
- Her satýrý GPT modeline ver: “Bu cümle öfke, korku, sevgi, ironi gibi bir duygu içeriyor mu?”
- Duygusal indeks oluþtur: metin + his
Bu, altyazýdan metne deðil; metinden duyguya giden bir süreçtir. Artýk sen bir konuþma analisti olmuþsundur. Video artýk bir veri kümesidir senin için.
5. Görünmeyeni Yazýya Dökmek: Sessiz Sözleri Deþifre Et
Bazen insanlar konuþmaz. Ama dudaklarý oynar. Ya da jest yapar. Ýþte bu noktada sýradan sistemler pes eder. Sen etme.
Gizli Teknik: Görsel + Sesli Transkript Birleþtirme
- Video içinden görselleri 1 fps olarak çýkar (ffmpeg kullan)
- OpenCV veya Google Vision API ile “mouth open” gibi tespitler yap
- Bu anlara ses eþleþmesi yoksa, “sessiz iletiþim” etiketiyle metne not düþ
Artýk videodan konuþmayý deðil, dil olmayan iletiþimi de çýkarýyorsun. Bu, klasik transkripsiyonun ötesine geçen bir zihin iþlemidir.
6. Anonim Video Platformlarýndan Yazý Çekmek
Bazý sistemler YouTube bile deðildir. DailyMotion, PeerTube, Vimeo, TikTok… Altyazýlarý görünmez formatlarda taþýr. Ama tarayýcý bunu verir.
- Video oynarken “Ctrl + U” ile sayfa kaynaðýný aç
- “.vtt” veya “.srt” dosyalarýný ara
- Yoksa “window.__INITIAL_STATE__” gibi global deðiþkenleri incele
Birçok sistem, altyazýyý base64 encode edilmiþ þekilde tutar. Ama sen bunu çözebilirsin. atob() fonksiyonu ile decode edebilirsin. Bu, video içinden veri avlamaktýr. Bir konuþmayý deðil, veri katmanýný çözmektir.
Yöntemler Karþýlaþtýrmasý
Yöntem | Altyazý Gerektirir mi? | Teknik Düzey | Çýkan Veri | Etki Derinliði |
---|---|---|---|---|
SRT dosyasýndan temizleme | Evet | Kolay | Metin | Yüzeysel |
DOM & XHR yakalama | Gerekli | Orta | Ham altyazý | Orta |
Whisper ile transkript | Hayýr | Yüksek | Doðal konuþma | Derin |
Duygu katmaný ekleme | Hayýr | Ýleri | His + metin | Çok derin |
Görsel analiz | Hayýr | Çok ileri | Sessiz dil | Algý düzeyinde |
Sadece Konuþaný Yazmak Deðil, Konuþmayaný da Görmek
Bir video konuþur. Ama sen dinlemeye deðil, görmeye odaklanýrsan… konuþmayanlarýn bile söylediklerini çýkarýrsýn.
Artýk altyazý senin için bir metin deðil; bir katmandýr. Konuþma bir akýþ deðil; bir veri taþýyýcýsýdýr. Sen artýk o veriyi sadece çözmezsin, onu yeniden inþa edersin.