TTSSyncApp | Sjaak Verwaaijen

Wat is TTSSyncApp?

TTSSyncApp is een tool voor het genereren van AI-voice-overs waarbij timing en synchronisatie centraal staan. De applicatie is ontwikkeld voor video’s, cursussen en andere producties waar gesproken tekst moet aansluiten op beeld of tijdcodes.

In plaats van één lange tekst kan de tool ook werken met cues: tekstblokken gekoppeld aan tijdsintervallen. Dit voorkomt timing-drift en maakt gerichte aanpassingen eenvoudig.

AI-stemmen & Azure Text-to-Speech

TTSSyncApp gebruikt Azure Text-to-Speech en biedt toegang tot honderden AI-stemmen in verschillende talen. Wanneer een stem in een bepaalde regio niet beschikbaar is, kan automatisch of handmatig een andere regio worden gekozen.

Keuze uit meerdere talen en stemmen
Aanpasbare spreeksnelheid
Ingebouwde leestekens voor korte en lange pauzes

Cues, tijdsblokken en SRT

De tool is ontworpen om te werken met tijdsblokken met tekst. Cues kunnen handmatig worden aangemaakt of automatisch worden geladen vanuit een .srt-bestand.

Import van SRT-bestanden
Visuele weergave van tekst en timing
Tijdsblokken kunnen worden aangepast of verschoven
Tekst en audio kunnen direct in de tool worden afgespeeld

Daarnaast is er een vrije modus voor lange teksten zonder cues, bijvoorbeeld voor proefluisteren of experimenten met stemmen.

Audio-output

Van elke tekst — per cue of als geheel — kan een audiobestand worden gegenereerd. De output is een WAV-bestand, geschikt voor verdere verwerking in video- en audiobewerkingssoftware.

Export per cue of als complete voice-over
Consistente audiokwaliteit
Geschikt voor cursusproductie en videomontage

Typische workflow

Start met een script of transcript
Dit kan een gewone tekst zijn, of een .srt-bestand, bijvoorbeeld gegenereerd door YouTube of een video-editor.
Kies taal, stem en spreekinstellingen
Selecteer de gewenste taal en AI-stem (Azure Text-to-Speech). Pas spreeksnelheid aan en gebruik leestekens voor korte of langere pauzes.
Werk met cues of vrije tekst
Gebruik tijdsblokken (cues) voor strakke synchronisatie, of werk met één lang tekstblok wanneer timing minder kritisch is.
Controleer en verfijn de timing
Speel tekst en audio direct af in de tool. Pas waar nodig tekst of tijdsblokken aan en verschuif cues voor een betere aansluiting op het beeld.
Genereer de audio
Zet de tekst om naar spraak en exporteer het resultaat als WAV-audiobestand, per cue of als volledige voice-over.
Gebruik in je videoproductie
Importeer het WAV-bestand in je video-editor en combineer het met beeld en eventuele ondertiteling.

-->

Toepassingen

Online cursussen met AI-voice (Udemy, eigen platformen)
YouTube/video’s met strakke voice timing
Documentaires of explainers met ondertiteling (SRT) en TTS
Meertalige versies van dezelfde video, met consistente cue-structuur

Waarom ik dit gebouwd heb

Tijdens het produceren van lessen merkte ik dat TTS pas echt “productiewaardig” wordt als je de input strak organiseert: korte cues, logisch ritme, consistente lengte. TTSSyncApp is ontstaan om dat proces te automatiseren en herhaalbaar te maken, zodat ik sneller kan produceren met minder synchronisatiegedoe.