A beszéd szövegbe való átalakítása a Google Cloud alapú Speech-to-Text alkalmazásával [oktatóanyag]

Tartalomjegyzék

Beszédről szövegre (Speech-to-Text) a Google Cloud szolgáltatásból – mi ez?
A beszédről szövegre konvertáló modellek a Speech-to-Text szolgáltatásban
A beszédről szövegre feldolgozási szolgáltatás használatának módjai
Mennyibe kerül a Speech-to-Text a GCP-ben?
Speech-to-Text TUTORIAL
Ellenőrizze a Speech-to-Text ingyen – szerezzen 500 dolláros GCP-utalványt

A beszéd szövegbe való átalakítása egy áttörést jelentő technológia, amely növeli az ember-gép mindennapi interakció lehetőségeit. A technológia lehetővé teszi, hogy a számítógépek felismerjék a beszédet és reagáljanak a kimondott parancsokra. Ez pedig számos tevékenység automatizálását, a termelékenységet növelő eszközök és az ügyfélszolgálatot támogató rendszerek létrehozását jelenti.

Beszédről szövegre (Speech-to-Text) a Google Cloud szolgáltatásból – mi ez?

A Speech-to-Text (egyesek nevezik Voice-to-Text is) a Google Cloud Platform egyik szolgáltatása. A szolgáltatást automatizált beszéd-szöveg feldolgozásra, azaz átírásra használják. Fejlett gépi tanulási modelleket használ a Google-tól, és lehetővé teszi, hogy több mint 125 nyelven és nyelvjárásban írjon át. A Speech-to-Text szolgáltatás API-ként jelenik meg (alkalmazásprogramozási felület, amely lehetővé teszi a rendszer csatlakoztatását egy működő eszközzel és a funkciók használatát a saját alkalmazásában). Ennek eredményeként egy már működő és bevált szolgáltatás viszonylag alacsony költséggel megvalósítható bármely termékben (az alkalmazás műszaki követelményekhez való igazítása után).

A Speech-to-Text kétféleképpen képes feldolgozni a beszédet:

valós időben, amikor a felhasználó aktív szolgáltatással beszélget az alkalmazással,
vagy átírhatja a beszédet egy feltöltött audio- vagy videofájlból.

A szolgáltatás megbirkózik akár rendkívül iparági specifikus kifejezések és terminusok átírásával is. Az osztályok használatának köszönhetően a “kimondott” számokat, címeket vagy dátumokat a cél jelöléssé is konvertálja (pl. ötvenhárom 53-ként lesz írva).

A konténerekben létrehozott, a Google Kubernetes Engine szintjéről kezelt alkalmazás esetében a Speech-to-Text szolgáltatást használhatja a helyszíni modellben (a Speech-to-Text On-Prem szolgáltatás premierje bejelentette a Google Cloud Next ’20: OnAir konferencia során). A szolgáltatás tárolóként van telepítve az alkalmazásba, és ezután helyi környezetben használható. Ez a megoldás különösen azoknak a szervezeteknek lesz hasznos, amelyeknek be kell tartaniuk a törvényi előírásokat és korlátozniuk kell a felhőalapú számítást.

Nézze meg: On-premise, magán, állami, hibrid felhő és multi-cloud – ezek a megoldások előnyei és hátrányai

A beszédről szövegre konvertáló modellek a Speech-to-Text szolgáltatásban

A szolgáltatás különféle átírási modelleket kínál, a felvételek vagy a hangforrások típusához igazítva. Jelenleg négy modell kapható:

alapértelmezett automatikus beszédfelismerés (ASR: Default) – ez a modell hosszabb hangfelvételek átírására használható, egyetlen hangszóró hangjával; ez a modell 16 000 Hz vagy nagyobb frekvenciájú felvételekkel működik a legjobban,
automatikus beszédfelismerés parancsokhoz és keresésekhez (ASR: Command and search) – rövid felvételek, például egy alkalmazásnak küldött hangparancsok átírására szolgáló modell,
videó átírás (Video) – a beszédből szöveggé történő feldolgozás modellje video anyagokból, amelyben sok előadó regisztrálva van; a legjobb kezeli a felvételeket vagy a streaminget 16 000 Hz vagy annál magasabb frekvencián; ez egy prémium modell és költsége magasabb, mint az ASR automatikus beszédfelismerő modelleké,
telefonbeszélgetés felvétele (Phone call) – telefonbeszélgetések átírására tervezett modell; a legjobban támogatja a 8000 Hz-es felvételeket; ez egy prémium modell, drágább, mint az ASR modellek.

A modelleknek köszönhetően a beszédfeldolgozó szolgáltatást az alkalmazás céljához lehet igazítani. Más modell kerül kiválasztásra a streaming példányok létrehozásához, egy másik a forródróton dolgozó ügyfélszolgálati ügynökök támogatási eszközéhez, és egy másik az alkalmazás hangparancsok használatához.

A beszédről szövegre feldolgozási szolgáltatás használatának módjai

A Speech-to-Text sok lehetőséget nyit meg, és az átírási modellek lehetővé teszik a szolgáltatás sokféle alkalmazásban való használatát. A Speech-to-Text használható többek között automatizálásban vagy ügyfélszolgálatban, valós idejű videóátírásban vagy hangutasító alkalmazások kiadásában. Íme néhány olyan forgatókönyv, ahol a Speech-to-Text nagy szerepe lesz.

Ügyfélszolgálati támogatás

A Speech-to-Text az egyik alapvető Contact Center AI szolgáltatás – a Google Cloud készlete ügyfélszolgálati megoldások készítéséhez mesterséges intelligencia segítségével.

A Speech-to-Text (és a Contact Center AI portfólió egyéb szolgáltatásai) segítségével létrehozhat egy támogatási rendszert többek között a forródróton dolgozó tanácsadók számára. A rendszer a beszélgetés valós idejű átírásával, a párbeszédek elemzésével és az ügyfél szándékainak elolvasásával biztosítja a szolgáltató ügynök számára a szükséges anyagokat és utasításokat a beszélgetés folytatásához. A szolgáltatás felhasználható egy IVR (interactive voice response) rendszer felépítésére – egy automatikus ügyfélközpont, az ügyfél által működtetett hang, amely segít megoldani az egyszerű problémákat, és nehezebb kérdések esetén átirányítja a beszélgetőt egy tanácsadóhoz.

Nézze meg: Hogyan támogatja a Google Cloud Platform és a mesterséges intelligencia az e-kereskedelmet

Hangvezérlés

A Speech-to-Text lehetővé teszi hangparancsok végrehajtását és az alkalmazás beszéd segítségével történő vezérlését. Még dedikált átírási modellje is van – ASR: Command and Search. A szolgáltatás használatának köszönhetően az alkalmazás képes kezelni a hangutasításokat vagy megválaszolni a kérdéseket, például “lejátszani egy másik filmet a sorból”, “növelni a hangerőt” vagy “ellenőrizni szombaton a Mátra-hegység időjárását”. A szolgáltatás megvalósítható a tárgyak internete technológiákat alkalmazó alkalmazásokban is (például a Google Cloud IoT platformon hozható létre), amelyek lehetővé teszik a felhasználók számára, hogy hangalapú eszközökkel irányítsák az intelligens eszközöket.

Hanggépelés

A hangos feljegyzések készítése egyesek számára isteni eladás. A szöveges diktálás már számos alkalmazásban elérhető, beleértve a Google Dokumentumok vagy a Diák a Google Workspace-ben (korábban G Suite).

Multimédia átírás

A Speech-to-Text lehetővé teszi, hogy valós időben feliratokat adjon videóihoz. A szolgáltatás segítségével átírhatja a rögzített anyagot, és indexelheti egy podcast vagy beszéd tartalmát, amely lehetővé teszi az anyag elérhetőségének növelését. A film feliratai pozitív hatással lesznek a címzett élményére is – a közösségi média felhasználói túlnyomó többsége anélkül néz filmeket, hogy a hang be lenne kapcsolva.

Fordítások

A Speech-to-Text egyike azoknak a szolgáltatásoknak, amelyek támogatják a fordítást – egyidejűleg vagy a filmhez hozzáadott feliratok formájában. Ennek oka, hogy a fordító alkalmazás először átírja és lefordítja a szöveget, nem pedig közvetlenül a hangot. Ennek eredményeként lengyel vagy angol feliratokat jeleníthetünk meg idegen nyelven, vagy használhatunk egyidejű fordítót a Google Segédben.

Példa a Speech-to-Text használatára – a Castbox platform podcastokkal

A Castbox egy hongkongi vállalat – a régió legnagyobb podcasting platformja (naponta körülbelül 2 millió felhasználó használja). Alkalmazásában közel 100 millió felvételt biztosít – podcast epizódokat és hangoskönyveket több mint 70 nyelven. A Castbox megkülönbözteti az összes megosztott felvétel átírását, a tartalom indexelését és lehetővé teszi az egyes epizódok töredékeinek keresését kifejezések és kulcsszavak alapján.

A Castbox a Google Cloud Platform szolgáltatásainak köszönhetően napi körülbelül 20 órányi felvételt képes átírni, 96%-os hatékonysággal a beszéd-szöveg átalakításban.

Mennyibe kerül a Speech-to-Text a GCP-ben?

Minden hónap első 60 perce ingyenes. Egy óra felett a következő 15 másodperc fogyasztásért felszámításra kerül.

Az automatikus beszédfelismerő modellek esetén (ASR: Default oraz ASR: Command and search) csak 0,006 $ minden 15 masodperc.

A prémium modellek esetén (Video és Phone Call) nem más, mint 0,009 $ minden 15 masodperc.

Speech-to-Text TUTORIAL

A Speech-to-Text megvalósításához Google Cloud Platform-fiókra van szükség.

Itt megtudhatja, hogyan hozhat létre fiókot a GCP-n.

Menj a konzolhoz. Hozzon létre egy új projektet, és emlékezzen az ID azonosítójára.

Az oldalsávon (bal oldali menü) válassza a APIs & Services / Dashboard lehetőséget.

Válassza az ENABLE APIS AND SERVICES opciót.

Keresse a Cloud Speech API lehetőséget.

Kattintson ide Enable és várjon néhány másodpercet.

Indítsa el a Cloud Shell alkalmazást. A Cloud Shell aktiválásához kattintson a sáv jobb felső sarkában lévő ikonra.

Várja meg a user@project:~$ projekt megkezdését.

Ezután generáljon API-kulcsot a kérések továbbításához. Kulcs létrehozásához lépjen a következőre: APIs & Services – Credentials.

Válassza a Create credentials létrehozása lehetőséget, majd kattintson a legördülő menü API key kulcsára.

Másolja a most létrehozott kulcsot. A Cloudshellben írja be a export parancsot. Cserélje le a your_api_key kulcsot a létrehozott kulcsra.

export API_KEY=YOUR_API_KEY

Összeállíthat egy kérést a szolgáltatás API-hoz a request.json fájlban . A fájl létrehozásához használhatja a Cloud Shellbe épített kódszerkesztőt:

Hozzon létre egy request.json nevű fájlt a saját könyvtárában, és adja hozzá a következőket:

{
config: {
encoding: FLAC,languageCode: en-US
},
audio: {
uri:gs://cloud-samples-tests/speech/brooklyn.flac
}
}

A konzolba írja be a következő parancsot (egy sorban):

curl -s -X POST -H Content-Type: application/json --data-binary @request.json https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}

A válasznak így kell kinéznie:

{
results: [
{
alternatives: [
{
transcript: how old is the Brooklyn Bridge,
confidence: 0.98267895
}
]
}
]
}

A transcript értéke tartalmazza a szolgáltatás által előállított brooklyn.flac hangfájl átírást. A confidence jelzi annak valószínűségét, hogy az API helyesen ismeri fel és alakítja át a beszédet szöveggé.

És ennyi! A Speech-to-Text API így működik.

Ellenőrizze a Speech-to-Text ingyen – szerezzen 500 dolláros GCP-utalványt

A Speech-to-Text a Google Cloud Platform által kínált számos szolgáltatás egyike. Azáltal, hogy infrastruktúrát hoz létre a felhőn a Google-tól, kényelmes és stabil módon fejlesztheti és méretezheti alkalmazását. Ingyenesen tájékozódhat a GCP által kínált szolgáltatásokról és lehetőségekről, a tanúsított Cloud Architects támogatásával. A FOTC Google Cloud Premier partnerként 500 dolláros utalványt ad az ügyfeleknek a Google platform bármely szolgáltatásához.

További információ a Google Cloud Platformról
Vegye fel velünk a kapcsolatot, ha 500 dolláros GCP-utalványt szeretne kapni