Заместване на речта с текст благодарение на Speech-to-Text от Google Cloud [Ръководство]

18/09/2020

Превръщането на речта в текст е революционна технология, която увеличава възможностите за ежедневно взаимодействие на човека с машината. Технологията дава възможност на компютрите да разпознават речта и да реагират на изречените команди. А това води до автоматизиране на много дейности, създаване на инструменти, които увеличават производителността и системи, които поддържат обслужването на клиентите.

Услугата Speech-to-Text от Google Cloud – какво представлява?

Speech-to-Text (наричана от някои Voice-to-Text) е една от услугите на Google Cloud PlatformУслугата служи за автоматизирано превръщане на речта в текст, т.е. за извършване на транскрипция. Използва усъвършенствани модели за машинно обучение на Google и позволява извършването на транскрипция на повече от 125 езика и диалекта. Услугата Speech-to-Text се предоставя като API (интерфейс за програмиране на приложения, което дава възможност за свързване на системата с функциониращ инструмент и използването на функциите му във Вашето собствено приложение). Благодарение на това вече работещата и изпробвана услуга може да бъде внедрена с относително ниски разходи във всеки продукт (след приспособяване на приложението спрямо техническите изисквания).

Speech-to-Text може да преработва речта по два начина:

  • в реално време, в момента, когато потребителят говори на приложение с активна услуга,
  • или извършва транскрипция на речта от изпратен аудио или видео файл.

Услугата се справя дори с транскрипцията на силно специализирани в даден бранш изрази и термини. Благодарение на приложените класове преобразува също „изречени“ цифри, адреси и дати в целеви запис (напр. петдесет и три да запише като 53).

В случая, създаденото в контейнерите, управлявано от ниво Google Kubernetes Engine приложение можете да ползвате с услугата Speech-to-Text в модел on-premise (премиерата на услугата Speech-to-Text On-Prem беше на конференцията Google Cloud Next ‘20: OnAir). Услугата се въвежда в приложението като контейнер, след което може да се ползва в локална среда. Това решение ще е полезно особено за организации, които трябва да отговарят на законовите разпоредби и да ограничат обработката в облака.

Модели за замяна на речта с текст в услугата Speech-to-Text

В услугата се предлагат различни модели за извършване на транскрипция, приспособяване към вида запис или звуковите източници. В момента се предлагат четири модела:

  • автоматично подразбиращо разпознаване на речта (ASR: Default) – този модел можете да използвате за транскрипция на по-дълги записи, съдържащи гласа на един говорител, моделът най-добре работи при записи с честота 16 000 Hz или повече,
  • автоматично разпознаване на речта за команди и търсения (ASR: Command and search) – модел, предназначен специално за транскрипция на кратки записи, например гласови команди, изпращани към приложението,
  • видео транскрипция (Video) – модел за преработка на речта от видеоматериали в текст, където има регистрирани много говорители; най-добре обработва записи или стрийминг с честота от 16 000 Hz или повече; това е модел премиум и цената му е по-висока от моделите ASR за автоматично разпознаване на речта,
  • запис на телефонен разговор (Phone call) – модел, предназначен за транскрипция на разговори по телефона; най-добре обслужва записи с честота от 8000 Hz; това е модел премиум, по-скъп от ASR моделите.

Благодарение на моделите услугата за обработка на речта може да се приспособи спрямо целите, които трябва да изпълнява приложението. При създаването на стрийминг платформа за изказвания ще бъде избран един модел, за поддръжка на служителите, обслужващи клиентите и работещи на инфолинията, ще изберем друг инструмент, и трети за обслужване на приложението посредством гласови команди.

Начини за използване на услугите за преработка на речта в текст

Speech-to-Text отваря много възможности, а моделите за транскрипция позволяват използването на услугата в много различни приложения. Замяната на речта с текст може да се използва, напр. при автоматизацията или поддръжката на обслужването на клиентите, за видео транскрипция в реално време или задаване на гласови команди на приложения. Ето няколко сценария, в които Speech-to-Text играе главна роля.

Помагане в обслужването на клиентите

Speech-to-Text е една от базовите услуги на Contact Center AI – приложение на Google Cloud, което служи за създаване на решения за обслужване на клиентите с използване на изкуствен интелект.

Посредством Speech-to-Text (или другите услуги от портфолиото на Contact Center AI) може да се създаде система за поддръжка на консултантите, работещи на инфолинията. Системата в реално време транскрибира разговора, анализирайки диалозите и отчитайки намеренията на клиента, предлага на служителя, обслужващ разговора, необходимите материали и насоки как да продължи разговора. Използвайки услугата можете да изградите IVR система (interactive voice response) – автоматичен кол център, обслужван гласово от клиента, който ще помогне за разрешаването на простичките проблеми, а в случай на по-трудни въпроси ще пренасочи събеседника към консултант.

Управление с помощта на глас

Speech-to-Text дава възможност за въвеждане на гласови команди и управление на приложение чрез реч. Притежава дори специален модел за транскрипция – ASR: Command and search. Благодарение на използването на услугата, приложението може да обслужва гласови команди и да отговаря на въпроси, например „пусни следващия по ред филм“, „усили звука“ или „провери времето в Пирин за събота“. Услугата може да бъде интегрирана също в приложения, използващи технологиите „Интернет на нещата“ (Internet of things) (създадени например в платформата Google Cloud IoT), което позволява на потребителите да управляват интелигентните устройства посредством гласа си.

Гласово въвеждане на текст

Поставянето на гласови бележки за някои е избавление. Диктуването на текст се предлага вече в много приложения, като например в Документите и Презентациите на Google Workspace (по-рано G Suite).

Транскрипция на мултимедии

Speech-to-text позволява в реално време да добавяте субтитри към филмите. С помощта на услугата можете също така да извършите транскрипция на записания материал и да индексирате съдържанието на подкаста или изказването, което позволява да увеличите обсега на материала. Субтитрите към филма също оказват положително въздействие върху преживяването на получателите – по-голяма част от потребителите на социалните медии гледат филми без включен звук.

Преводи

Speech-to-text е една от услугите, която подпомага превода – симултанния или под формата на субтитри, добавени към филма. Това е така, защото за нуждите на превода приложението първо извършва транскрипцията и после превежда текста, а не превежда директно от аудиото. В резултат на това можем да гледаме чуждоезичния филм с български или английски субтитри или да ползваме симултанен преводач в Google асистент.

Пример за използване на Speech-to-Text от Castbox – платформа за аудио и видео файлове (подкастове)

Castbox е фирма от Хонконг – най-голямата платформа за аудио и видео файлове в тамошния регион (ежедневно се ползва от около 2 милиона потребители). В своето приложение предоставя близо 100 милиона записи – откъси от аудио и видео файлове (подкастове) и аудиокниги на повече от 70 езика. Това, което отличава Castbox, е транскрипцията на всички предоставени записи, индексиране на съдържанието и предоставяне на възможност за търсене на фрагменти от конкретни откъси по фрази и ключови думи.

Castbox благодарение на услугите на Google Cloud Platform в рамките на едно денонощие е в състояние да извърши транскрипция на около 20 часа записи, с 96% ефикасност при замяната на речта с текст.

Колко струва Speech-to-Text в GCP?

Първите 60 минути на всеки месец са безплатни. При използването на повече от един час се начислява такса за всеки 15 секунди ползване.

За моделите за автоматично разпознаване на речта (ASR: Default и ASR: Command and search) това струва 0,006 $ за 15 секунди.

За моделите премиум (Video и Phone Call) цената достига 0,009 $ за 15 секунди.

Speech-to-Text РЪКОВОДСТВО

За да свалите Speech-to-Text, се нуждаете от акаунт в Google Cloud Platform.

Влезте в конзолата. Създайте нов проект и запомнете неговия ID.

Speech-to-Text tutorial

От страничната лента (менюто в ляво) изберете APIs & Services / Dashboard.

Speech-to-Text tutorial

Изберете ENABLE APIS AND SERVICES.

Speech-to-Text tutorial

Потърсете Cloud Speech API.

Speech-to-Text tutorial

Кликнете върху Enable и изчакайте няколко секунди.

Стартирайте Cloud Shell. За да активирате Cloud Shell, кликнете върху иконката в горния десен ъгъл на лентата.

Speech-to-Text tutorial

Изчакайте докато проектът стартира user@project:~$.

Speech-to-Text tutorial

След това генерирайте API ключ за предаване на командите. За да създадете ключ, отидете на APIs & Services – Credentials.

Speech-to-Text tutorial

Изберете Create credentials и в падащото меню кликнете API key.

Speech-to-Text tutorial

Копирайте ключа, който току-що сте генерирали. В Cloudshell поставете командата export. Заменете your_api_key с Вашия генериран ключ.

export API_KEY=<YOUR_API_KEY>

Заявка за интерфейс API за услуги можете да създадете във файла request.json. За да създадете този файл, можете да ползвате вградения в Shell редактор за кодове:

Speech-to-Text tutorial

Създайте файл с наименование request.json в домашния си каталог и добавете следните елементи:

{
"config": {
"encoding":"FLAC",
"languageCode": "en-US"
},
"audio": {
"uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
}
}

В конзолата впишете командата, посочена по-долу (на една линия):

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

Отговорът трябва да изглежда по следния начин:

{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}

Стойността transcript съдържа създаден от услугата за транскрипция звуков файл brooklyn.flacConfidence показва до каква степен API правилно е разпознало и обработило речта в текст.

И това е всичко! По този начин действа API Speech-to-Text.

Изпробвайте Speech-to-Text безплатно – вземете ваучер за 500 $ в GCP

Speech-to-Text е една от множеството услуги, които предлага Google Cloud Platform. Създавайки инфраструктура в облака на Google, можете по удобен и стабилен начин да развивате и мащабирате своето приложение. В това какви услуги и възможности дава GCP, можете да се убедите безплатно, използвайки поддръжката на сертифицираните Cloud архитекти. Fly On The Cloud, като Google Cloud Premier Partner дава на клиентите ваучер в размер на 500 $ (824 BGN) за използване на свободно избрани услуги в платформата на Google.

Научете повече за Google Cloud Platform
Свържете се с нас, за да получите ваучер за 500 $ (824 BGN) в GCP