«Яндекс» даст разработчикам возможность работать с голосовыми командами

Развитие событий: "Яндекс" ищет разработчика систем голосовой биометрии (21 июля 2015)

«Яндекс» разработал и отдал в использование сторонним разработчикам еще несколько речевых технологий:

- голосовая активация — когда приложение начинает слушать пользователя после слов «Слушай, Яндекс», по аналогии с уже знаменитым «Ok, Google"

- голосовое понимание естественного языка — распознавая речь, технология «понимает», что «Юрий Синодов» — это имя и фамилия, «Краснопресненская 1» — это адрес, а «10:00» — это время. Эта же технология умеет распознавать команды пользователя приложению.

- синтез речи — зачитывает текст с естественными интонациями, старается учитывать знаки препинания.

Об этом рассказал руководитель отдела голосовых технологий и продуктов «Яндекса» Денис Филиппов на конференции YaC.

Денис Филиппов, Яндекс

Новые технологии добавлены в бесплатную библиотеку Yandex SpeechKit Mobile SDK для мобильных устройств и коммерческую Yandex SpeechKit Cloud. Мобильные разработчики могут использовать их в своих приложениях бесплатно, если количество запросов не превышает 10 тысяч в сутки. Веб-разработчикам на базе Yandex SpeechKit Cloud технологии обойдутся в зависимости от количества запросов — порядка $5 за тысячу запросов.

Использоваться технологии будут и в собственных сервисах «Яндекса», но в каких и как именно — пока не уточняется.

Потестировать новые возможности Yandex SpeechKit можно в демоприложении «Диктовка». Оно доступно только в Yandex.Store, который устанавливается на Android-телефоны. Никаких практичных возможностей у приложения нет — можно просто самостоятельно оценить работу технологий — диктуя, редактируя и слушая текст.

По субъективным ощущениям редакции, пока распознавание все же больше похоже на тренировку дикции, чем на удобную функцию. Не получается просто говорить, не пытаясь тщательно выговаривать слова — выходит каша. При попытке редактировать эту кашу голосом выходит еще хуже — в текст добавляются неправильно распознанные команды.

Оригинал:

Технология синтеза речи применяется для задач озвучивания динамически обновляемой информации, например, в телефонии, когда для клиента банка нужно озвучить состояние текущего счета в автоматическом режиме, или в робототехнике, для озвучивания ответа. Синтез речи очень полезен для мобильных приложений, которыми люди пользуются в ситуациях, когда у них заняты руки и нет возможности читать текст с экрана.

Результат:

Яндекс Диктовка

«Яндекс» говорит, что точность распознавания его технологии — 85% для коротких запросов, 95% для геозапросов, 82% для текстов, а человек распознает на слух — 96−99% информации. С точки зрения пользователя кажется, что точность еще не достаточна для комфортной работы. Хотя в перспективе — это отличное направление и здорово, что «Яндекс» делится такими технологиями с разработчиками.

«Яндекс» запустил бесплатный Yandex SpeechKit Mobile SDK в 2013 году. За это время технологией воспользовались более 500 приложений, по данным поисковика. Ключи для коммерческой веб-версия Yandex SpeechKit Cloud получили уже 600 компаний, при том, что официально запущена она была только в августе 2014 года.

Добавить 5 комментариев