Změna řeči na text díky Speech-to-Text od Google Cloud [Tutoriál]

18/09/2020

speech to text usluga zamiany mowy na tekst

Převod řeči na text je průkopnická technologie, která zvyšuje možnosti každodenní interakce člověka se strojem. Tato technologie umožňuje počítačům rozpoznat řeč a reagovat na mluvené příkazy. To se promítá do automatizace mnoha činností, vytváření nástrojů pro zvýšení produktivity nebo systémů podporujících služby zákazníkům.

Služba Speech-to-Text od Google Cloud – co to je?

Speech-to-Text (také známá jako Voice-to-Text) je jednou ze služeb Google Cloud PlatformSlužba slouží k automatizovanému zpracování převodu řeči na text, tzn. přepisu. Používá pokročilé modely strojového učení od Googlu a umožňuje přepisovat ve více než 125 jazycích a dialektech. Speech-to-Text je k dispozici jako API (aplikační programovací rozhraní, které umožňuje připojit systém k funkčnímu nástroji a používat jeho funkce ve vlastní aplikaci). Díky tomu může být již aktivní a osvědčená služba implementována za relativně nízkou cenu v jakémkoli produktu (po přizpůsobení aplikace technickým požadavkům).

Speech-to-Text může zpracovat řeč dvěma způsoby:

  • v reálném čase, když uživatel mluví s aplikací s aktivní službou,
  • nebo přepis řeči z poslaného zvukového nebo video souboru.

Služba zvládá i přepis silně průmyslových výrazů a termínů. Díky použití tříd také převádí „mluvená“ čísla, adresy nebo data na cílový zápis (např. padesát tři bude psát jako 53).

Pro kontejnerové aplikace spravované z Google Kubernetes Engine můžete použít službu Speech-to-Text v místním modelu (převod řeči na text byl oznámen na Google Next Cloud ’20: OnAir). Služba se implementuje do aplikace jako kontejner, po kterém ji můžete použít v místním prostředí. Toto řešení bude užitečné zejména pro organizace, které potřebují dodržovat předpisy a omezit cloud computing.

Shlédněte: On-premise, soukromý, veřejný, hybridní a multi-cloud cloud  – výhody a nevýhody řešení

Modely převodu řeči na text v službě Speech-to-Text

Služba nabízí různé transkripční modely, přizpůsobené typu nahrávek nebo zvukových zdrojů. V současné době jsou k dispozici čtyři modely:

  • výchozí automatické rozpoznávání řeči (ASR: Default) – tento model můžete použít k přepisu delších nahrávek obsahujících hlas jednoho mluvčího; model je nejvhodnější pro záznam s frekvencí 16 000 Hz nebo vyšších,
  • automatické rozpoznávání řeči pro příkazy a vyhledávání (ASR: Command and search) – model určený pro přepis krátkých nahrávek, například hlasové příkazy odeslané do aplikace,
  • přepis videa (Video)– model pro převod řeči na text z video materiálů, ve kterých je zaznamenáno více mluvčích; Nejlépe podporuje nahrávání nebo streamování s frekvencí 16 000 Hz nebo vyšších; jedná se o model premium, který je nákladnější než modely automatického rozpoznávání řeči ASR,
  • nahrávání telefonních hovorů (Phone call) – model určený k přepisu telefonních hovorů; nejlépe podporuje nahrávání s frekvencí 8000 Hz; jedná se o  model premium, dražší než modely ASR.

Modely umožňují přizpůsobit službu převodu řeči pro splnění účelu vaší aplikace. Při vytváření platformy pro instance streamování bude vybrán jiný model, další pro nástroj podpory konzultantů poskytujících zákaznické služby v callcentrum a další pro zpracování aplikací pomocí hlasových příkazů.

Jak se používá služba převodu řeči na text

Speech-to-Text  otevírá mnoho možností, a modely převodu umožňují využívat službu v široké škále aplikací. Převod řeči na text lze mimo jiné použít k automatizaci nebo podpoře zákaznického servisu, provádění převodu videa v reálném čase nebo k vyřizování aplikací hlasových příkazů. Zde jsou některé scénáře, ve kterých bude hrát hlavní roli převod řeči na text.

Zákaznická podpora

Speech-to-Text je jednou ze základních služeb Contact Center AI – balíčku od Google Cloud pro vytváření řešení zákaznických služeb AI.

Pomocí převodu řeči na text (a dalších služeb z portfolia Contact Center AI) můžete mimo jiné vytvořit systém podpory pro konzultanty pracující na infolince. Systém převádějící převod konverzací v reálném čase, analyzuje dialogy a čte záměry zákazníků, poskytuje servisnímu agentovi potřebné materiály a pokyny, jak pokračovat v konverzaci. Pomocí této služby můžete vytvořit systém IVR (interactive voice response) – automatizované call centrum ovládané klientem, které pomůže vyřešit jednoduché problémy a v případě obtížnějších problémů přesměruje volajícího na konzultanta.

Shlédněte: Jak Google Cloud Platform a AI podporují odvětví elektronického obchodování

Hlasové ovládání

Speech-to-Text umožňuje implementovat hlasové příkazy a ovládat aplikaci řečí. Má dokonce vyhrazený transkripční model – ASR: Command a search. Díky využití služby, může aplikace zpracovávat hlasové příkazy nebo odpovídat na otázky, například „zapnout další video z fronty“, zvýšit hlasitost“ nebo „zkontrolovat jaké bude v sobotu v Beskydech počasí“. Služba může být také implementována v aplikacích, které používají technologie Internetu věci (vytvořené například na platformě Google Cloud IoT), které uživatelům umožní ovládat inteligentní zařízení hlasem.

Hlasové psaní

Přijímání hlasových záznamů je pro některé dar z nebes. Diktování textu je již k dispozici v mnoha aplikacích, včetně dokumentů a prezentací v Google Workspace (dříve G Suite).

Přepis médií

Speech-to-text umožňuje přidávat titulky k videím v reálném čase. Službu můžete také použít k převodu zaznamenaného obsahu a k vyvolání obsahu podcastu nebo instancí ke zvýšení dosahu Vašeho obsahu. Titulky u videa budou mít také pozitivní dopad na zážitek uživatelů – drtivá většina uživatelů sociálních médií sleduje videa bez zvuku.

Překlady

Speech-to-text je jednou ze služeb, která podporuje překlad – simultánní nebo ve formě titulků přidaných do videa, a to díky tomu, že překladatelská aplikace nejprve přepisuje a překládá text dříve a následovně zvuk. V důsledku toho můžeme zobrazit polské nebo anglické titulky v cizojazyčném videu nebo použít simultánní překladač v Asistentovi Google.

Příklad použití Speech-to-Text společností Castbox – platforma podcastů

Castbox je společnost se sídlem v Hongkongu , největší podcastová platforma v této oblasti (každý den ji používá asi 2 miliony uživatelů). Ve své aplikaci poskytuje téměř 100 milionů nahrávek – epizody podcastů a audioknih ve více než 70 jazycích. Castbox se odlišuje přepisem všech sdílených nahrávek, indexováním obsahu a možností vyhledávat fragmenty konkrétních epizod podle frází a klíčových slov.

Castbox je díky službám Google Cloud Platform schopen přepisovat asi 20 hodin nahrávek během jednoho dne, s 96% účinností v převodu řeči na text.

Kolik stojí Speech-to-Text na GCP?

Prvních 60 minut každý měsíc je zdarma. Za každou další hodinu se poplatky účtují po 15 sekundách spotřeby.

Pro modely automatického rozpoznávání řeči (ASR: Default a ASR: Command and search) je to 0,13 CZK za 15 sekund.

U prémiových modelů (Video a Phone Call) je cena 0,20 CZK za 15 sekund.

Speech-to-Text TUTORIÁL

Chcete-li implementovat  Speech-to-Text, potřebujete účet Google Cloud Platform.

Zde uvidíte, jak vytvořit účet na GCP.

Přejít ke konzoli. Vytvořte nový projekt a pamatujte si jeho ID.

Speech-to-Text tutorial

Na bočním panelu (nabídka vlevo) vyberte APIs & Services / Dashboard.

Speech-to-Text tutorial

Vyberte ENABLE APIS AND SERVICES.

Speech-to-Text tutorial

Hledejte Cloud Speech API.

Speech-to-Text tutorial

Klikněte Enable a počkejte několik sekund.

Spusťte Cloud Shell. Chcete-li aktivovat Cloud Shell, klepněte na ikonu v pravém horním rohu lišty.

Speech-to-Text tutorial

Počkejte na spuštění projektu user@project:~$.

Speech-to-Text tutorial

Poté vygenerujte API klíč pro předávání požadavků. Chcete-li vytvořit klíč, přejděte na APIs & Services – Credentials.

Speech-to-Text tutorial

Vyberte Create credentials a v rolovací nabídce klikněte na API key.

Speech-to-Text tutorial

Zkopírujte klíč, který jste právě vygenerovali. Do Cloudshell vložte příkaz export. Nahraďte your_api_key vygenerovaným klíčem.

export API_KEY=<YOUR_API_KEY>

Požadavek na rozhraní API služby můžete vytvořit v request.json. Chcete-li vytvořit tento soubor, můžete použít vestavěný Cloud Shell editor kódu:

Speech-to-Text tutorial

Ve vašem domovském adresáři vytvořte soubor s názvem request.json a přidejte následující prvky:

{
"config": {
"encoding":"FLAC",
"languageCode": "en-US"
},
"audio": {
"uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
}
}

Do konzoly zadejte následující příkaz (v jednom řádku):

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

Odpověď by měla být následující:

{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}

Hodnota transcript obsahuje přepis zvukového souboru brooklyn.flacConfidence označuje, s jakou pravděpodobností rozhraní API správně rozpoznalo a zpracovalo řeč do textu.

A to je všechno! Takhle funguje rozhraní API Speech-to-Text.

Zkontrolujte Speech-to-Text zdarma – získejte poukaz 11 132 CZK na GCPP

Speech-to-Text je jednou z mnoha služeb, které Google Cloud Platform nabízí. Budováním infrastruktury v cloudu od Googlu můžete pohodlně a stabilně vyvíjet a škálovat aplikaci. S podporou certifikovaných Cloudových Architektů se můžete zdarma podívat, co služby a funkce GCP nabízejí. Fly On The Cloud jako partner Google Cloud Premier poskytuje zákazníkům poukaz ve výši 11 132 CZK pro použití v jakékoli službě platformy Google.

Zjistěte více informací o Google Cloud Platform

Kontaktujte nás a získejte poukaz 11 132 CZK na GCP

 

Powiązane posty