Srovnání přepisu
Jak přesný je scryp při přepisu češtiny – a jak bezpečná jsou vaše data ve srovnání s velkými cloudovými službami? Zde jsou výsledky našeho benchmarku.
Přesnost přepisu pro češtinu
Word Error Rate (WER) – nižší je lepší. Přesnost = 100 % − WER.
← Posuňte tabulku do stran →
| Poskytovatel | Obecné (přesnost) | Specializovaná doména (přesnost) | WER obecné |
|---|---|---|---|
| scrypSX-3 | 97.2 % | 96.1 % | 2.8 % |
| OpenAIWhisper Large v3 | 91.8 % | 83.5 % | 8.2 % |
| Google STTCloud Speech-to-Text | 88.5 % | 80.2 % | 11.5 % |
| Azure SpeechMicrosoft Cognitive | 87.9 % | 78.7 % | 12.1 % |
| AWS TranscribeAmazon Standard | 85.7 % | 75.9 % | 14.3 % |
Testovací datová sada a metodika
- Základem je naše vlastní testovací datová sada veřejně dostupných českých zvukových nahrávek napříč doménami Obecné, Zdravotnictví a Právo.
- Všichni poskytovatelé byli testováni se shodnými zvukovými soubory a jednotnou metodou hodnocení (Word Error Rate po standardní normalizaci).
- Sloupec Specializovaná doména ukazuje průměr napříč zdravotnickými a právními nahrávkami. Chybovost roste se specializovanou slovní zásobou u všech poskytovatelů – ale mnohem více u modelů bez doménově specifického tréninku.
- Výsledky se mohou lišit v závislosti na kvalitě zvuku, počtu mluvčích, dialektu a konkrétním případu použití.
Proč je scryp pro citlivý obsah postaven jinak
Tyto body popisují vlastní architekturu scryp. Jsou záměrně konkrétní a nemají být paušálním tvrzením o každém jiném poskytovateli.
Šifrování na vašem zařízení
Soubory se šifrují v prohlížeči před nahráním. Uložený obsah je trvale uchováván pouze v šifrované podobě.
Jasná architektura v EU
Přepis v Rakousku, šifrované úložiště v Německu – obojí v rámci EU. Díky tomu je transparentní, kde probíhá každý krok zpracování.
Vlastní infrastruktura zpracování
Do přepisu není zapojena žádná externí AI třetích stran. To snižuje další datové toky a závislosti.
Kompletní workflow v prohlížeči
Úpravy, export, sdílení a synchronizace zvuku jsou zabudovány přímo v produktu, nejsou dostupné jen jako samostatné API komponenty.
Zdroje a dokumentace
Funkce poskytovatelů byly ověřeny oproti oficiální dokumentaci. Údaje o přesnosti vycházejí z výše popsané testovací datové sady.
Modely a přesnost
- Radford et al. (2022): Robust Speech Recognition via Large-Scale Weak Supervision - OpenAI Whisper Paper
- OpenAI Whisper Repository - Modelle und Sprachen
- faster-whisper (SYSTRAN) - CTranslate2-basierte Whisper-Implementierung
- pyannote.audio 3.x - Speaker Diarization Pipeline
- Mozilla Common Voice - Offener Sprachdatensatz
Dokumentace poskytovatelů
- Google Cloud Speech-to-Text - Overview and speech recognition
- Google Cloud Speech-to-Text - Speaker Diarization
- Microsoft Azure Speech Service - Overview and documentation
- Azure Speech - Real-time diarization quickstart
- Amazon Transcribe - Developer Guide
- Amazon Transcribe - Speaker partitioning (Diarization)
Připraveni na bezpečný přepis?
Vyzkoušejte scryp zdarma – šifrováno od první sekundy.