2. března 20267 min čtení

Co je diarizace mluvčích? Jak AI rozlišuje hlasy

Posloucháte nahrávku se třemi lidmi. Vám jako člověku je jasné, kdo právě mluví – hlasy znějí jinak. Ale jak naučíte počítač totéž?

Odpovědí je diarizace mluvčích, tedy oddělení jednotlivých mluvčích. Tato technologie analyzuje zvukovou nahrávku a přiřadí každou pasáž ke správnému mluvčímu. Bez ní by přepis s více lidmi byl jednou nestrukturovanou zdí textu.

Diarizace mluvčích vs. rozpoznávání řeči

Rozpoznávání řeči (ASR) převádí mluvený jazyk na text a odpovídá na otázku “Co bylo řečeno?” Diarizace mluvčích přiřazuje zvukové segmenty různým lidem a odpovídá na otázku “Kdo to řekl?” Teprve kombinace dává přepis s přiřazením mluvčích.

Dva pojmy, které se často zaměňují:

Rozpoznávání řeči (speech-to-text, ASR): Převádí mluvený jazyk na text. Odpovídá na otázku: Co bylo řečeno?
Diarizace mluvčích: Přiřazuje zvukové segmenty různým mluvčím. Odpovídá na otázku: Kdo to řekl?

Teprve kombinace obou technologií dává úplný přepis s přiřazením mluvčích – jak je potřeba pro zápisy ze schůzek, přepisy rozhovorů nebo soudní jednání.

Jak diarizace funguje technicky?

AI vytvoří pro každý řečový segment matematický hlasový otisk (embedding) a podobné otisky seskupí pomocí shlukování. Segmenty ve stejné skupině pocházejí od stejného mluvčího. Proces zahrnuje předzpracování, detekci řečové aktivity, extrakci příznaků, shlukování a označování.

AI prochází několika kroky, aby rozlišila mluvčí:

Předzpracování: Sníží se šum v pozadí, normalizuje se hlasitost a identifikují se tiché úseky.
Detekce řečové aktivity (VAD): Systém zjišťuje, kde skutečně probíhá řeč, a odfiltruje ticho, hudbu nebo šum.
Extrakce příznaků: Pro každý řečový segment AI vytvoří hlasový otisk – matematický vektor, který představuje jedinečné charakteristiky hlasu (výšku, barvu, rytmus řeči).
Shlukování: Segmenty s podobnými hlasovými otisky se seskupí. Každá skupina odpovídá jednomu mluvčímu.
Označování: Skupinám se přidělí označení – “Mluvčí 1”, “Mluvčí 2” a tak dále.

Typické výzvy

Diarizace mluvčích není vyřešený problém. Tyto situace jsou pro AI obzvláště obtížné:

Překrývající se řeč: Když dva lidé mluví zároveň, AI nedokáže hlasy čistě oddělit.
Podobné hlasy: Lidé stejného pohlaví a věku s podobným přízvukem se hůře rozlišují.
Špatná kvalita nahrávky: Šum v pozadí, ozvěna nebo špatné mikrofony snižují přesnost.
Krátké promluvy: U velmi krátkých příspěvků má AI méně dat pro hlasový otisk.

Kde se diarizace mluvčích používá?

Zápisy ze schůzek: Automatické přiřazení příspěvků účastníkům – nepostradatelné pro automatickou tvorbu zápisů.
Přepis rozhovorů: Jasné oddělení mezi tazatelem a dotazovaným.
Soudní jednání: Dokumentace, kdo učinil které prohlášení.
Analýzy call center: Oddělení operátora a zákazníka pro hodnocení kvality.
Produkce podcastů: Automatické titulky s přiřazením mluvčích.

Tipy pro lepší výsledky

Používejte dobrý mikrofon a minimalizujte šum v pozadí.
Požádejte účastníky, aby si neskákali do řeči.
Použijte nástroj s redukcí šumu, který zlepší kvalitu zvuku před analýzou.
Po přepisu mluvčí přejmenujte – AI přiřazuje jen čísla, ne jména.

Závěr

Diarizace mluvčích je technologie, která ze surového zvukového přepisu udělá strukturovaný dokument. Bez ní by každý přepis s více lidmi byl nepoužitelný. Kombinace rozpoznávání řeči, diarizace a ruční úpravy přináší nejlepší výsledky – rychle, přesně a dohledatelně pro každého.