«Яндекс» даст разработчикам возможность работать с голосовыми командами → Roem.ru

«Яндекс» даст разработчикам возможность работать с голосовыми командами

30 октября 2014 в 10:33
Roem.ru

"Яндекс" разработал и отдал в использование сторонним разработчикам еще несколько речевых технологий:

- голосовая активация - когда приложение начинает слушать пользователя после слов "Слушай, Яндекс", по аналогии с уже знаменитым "Ok, Google"

- голосовое понимание естественного языка - распознавая речь, технология "понимает", что "Юрий Синодов" - это имя и фамилия, "Краснопресненская 1" - это адрес, а "10:00" - это время. Эта же технология умеет распознавать команды пользователя приложению.

- синтез речи - зачитывает текст с естественными интонациями, старается учитывать знаки препинания.

Об этом рассказал руководитель отдела голосовых технологий и продуктов "Яндекса" Денис Филиппов на конференции YaC.

Новые технологии добавлены в бесплатную библиотеку Yandex SpeechKit Mobile SDK для мобильных устройств и коммерческую Yandex SpeechKit Cloud. Мобильные разработчики могут использовать их в своих приложениях бесплатно, если количество запросов не превышает 10 тысяч в сутки. Веб-разработчикам на базе Yandex SpeechKit Cloud технологии обойдутся в зависимости от количества запросов - порядка $5 за тысячу запросов.

Использоваться технологии будут и в собственных сервисах "Яндекса", но в каких и как именно - пока не уточняется.

Потестировать новые возможности Yandex SpeechKit можно в демоприложении "Диктовка". Оно доступно только в Yandex.Store, который устанавливается на Android-телефоны. Никаких практичных возможностей у приложения нет - можно просто самостоятельно оценить работу технологий - диктуя, редактируя и слушая текст.

По субъективным ощущениям редакции, пока распознавание все же больше похоже на тренировку дикции, чем на удобную функцию. Не получается просто говорить, не пытаясь тщательно выговаривать слова - выходит каша. При попытке редактировать эту кашу голосом выходит еще хуже - в текст добавляются неправильно распознанные команды.

Оригинал:

Технология синтеза речи применяется для задач озвучивания динамически обновляемой информации, например, в телефонии, когда для клиента банка нужно озвучить состояние текущего счета в автоматическом режиме, или в робототехнике, для озвучивания ответа. Синтез речи очень полезен для мобильных приложений, которыми люди пользуются в ситуациях, когда у них заняты руки и нет возможности читать текст с экрана.

Результат:

"Яндекс" говорит, что точность распознавания его технологии - 85% для коротких запросов, 95% для геозапросов, 82% для текстов, а человек распознает на слух - 96-99% информации. С точки зрения пользователя кажется, что точность еще не достаточна для комфортной работы. Хотя в перспективе - это отличное направление и здорово, что "Яндекс" делится такими технологиями с разработчиками.

"Яндекс" запустил бесплатный Yandex SpeechKit Mobile SDK в 2013 году. За это время технологией воспользовались более 500 приложений, по данным поисковика. Ключи для коммерческой веб-версия Yandex SpeechKit Cloud получили уже 600 компаний, при том, что официально запущена она была только в августе 2014 года.

Добавить 5 комментариев

30 октября 2014 в 16:07 Ответить
Sergey Lyubchenko
Это вот зачем это? Я понимаю разработчики платформ пилят свои голосовые сервисы. А яндексу это нахрена? Типа а чо у них есть а у нас нету?
30 октября 2014 в 17:33 Ответить
Игорь Нетленкин
Да вы чего, Sergey?!! Чтобы такой траффик проходил мимо кассы? ни в жисть! С дальнейшим анализом запросов (big data, ага) И вообще это золотое дно. Грести деньги лопатой с разработчиков… Мммм…
30 октября 2014 в 18:20 Ответить
Andrew Tishkin
$5 тысяч за тысячу — не многовато ли? Или «тысяч» лишнее?
30 октября 2014 в 19:39 Ответить
Игорь Ашманов Сам себе компания
Полцента за запрос тоже немало.
30 октября 2014 в 19:45 Ответить
Игорь Нетленкин
Почему в центах, а не в рублях и копейках, не патриот, штоле? В копейках это горааааздо длиннее будет (с) 38 попугаев 20 коп за запрос это охренеть какое жлобство

«Яндекс» вынес распознавание речи в облака