Mail.ru делает голосовой интерфейс под кодовым названием «Маруся»

"Ведомости" сообщают о разработке голосовых интерфейсов "Маруся" внутри Mail.ru, будет ли название использоваться в реальной работе — пока неизвестно:

Mail.ru Group действительно разрабатывает голосового помощника, передала через представителя вице-президент холдинга Анна Артамонова. Будет ли использоваться рабочее название «Маруся» при релизе – пока не решено, отмечает представитель холдинга. По его словам, компания разрабатывает как самого голосового помощника, так и платформу с навыками, которыми он будет обладать.

Как именно будет использоваться «Маруся», представитель компании не рассказывает: «Будем стараться интегрировать во все продукты, где это будет иметь смысл, и не только в продукты Mail.ru».

Два сотрудника Mail.ru Group знают, что разрабатывается не только голосовой помощник, но и устройство-колонка. Представитель компании это не комментирует.

Mail.ru Group разрабатывает собственного голосового помощника

Добавить 29 комментариев

  • Ответить
    Игорь Ашманов Сам себе компания

    Там на этой площадке толкаются как минимум Эппл, Гугл, Амазон, Яндекс.
    Интересно, что у них вс ех сделан стратегический выбор как минимум в двух аспектах:

    а) пользователю нужен не собеседник, а помощник,
    б) помощника сделаем на нейронке.

    И то, и другое мне лично кажется грубой ошибкой.

    Заметим, что статистику удержания, рост, количества запросов — никто, в том числе Яндекс, не публикует. Это неспроста: время удержания там не растёт, насколько я могу судить (и оно у всех — позорное), а подавляющую долю «диалогов» составляют голосовые запросы к картам и поисковику.

  • Ответить

    Иногда кажется, что проекты делают просто потому, что делает сосед. Дань моде, и плевать на любые метрики.

    «Елена» Мегафона нужна только лишь для того, чтобы ей сказать «оператор» и получить соединение с оператором. Ибо 80% звонков — опсосам это стыдно признать — по теме отписки от «уже-не-смс» лохотронов и возврату денег.

    Пока не удалось сделать даже текстовых помощников, какие могут быть голосовые? Это не серьёзно просто.

    Ну и я не даю приложениям разрешения включать микрофон. Вообще хочу аппарат с кнопкой физического отключения микровона, вот прямо чтобы контакт размыкала. И для камеры.

  • Ответить
    Игорь Ашманов Сам себе компания

    Нет, голосовые или голосовые — неважно. Распознавание голоса уже на уровне человеческого.
    А вот диалог — пока даётся плохо. Он требует сложного лингвистического программирования, а программисты пытаются решить вопрос механическим обучением нейронки.

  • Ответить
    Игорь Ашманов Сам себе компания

    Там есть несколько очевидных причин, почему виртуального собеседника нельзя афигачить «машин лёнином».
    Основная — принципиальная нехватка статистики, на многие порядки.

    Подробнее про это, например, вот тут:

    https://vc.ru/services/46901-pochemu-ai-ml-na-primere-dialoga-s-mashinoy-na-estestvennom-yazyke

  • Ответить

    Иногда кажется, что проекты делают просто потому, что делает сосед. Дань моде, и плевать на любые метрики.

    Для некоторых, типа mail.ru, это безусловно так.

    А для Гугла и Яндекса цель абсолютно понятна и прозрачна: доставлять поисковую рекламу тем, кто не умеет читать и писать.

    Видимо, рептилоиды в своем синедрионе решили, что в двадцать первом столетии этот вопрос будет остро актуален.

  • Ответить

    «Иногда кажется, что проекты делают просто потому, что делает сосед. «

    Ну это мотив ничем не хуже других в области «инноваций».
    «Инновации» вообще область суеверий, показухи, моды и втюхивания.

    Если сосед уже сделал новый искусственно-интеллектуальный блокчейн на воздушной подушке и с вертикальным взлётом — тебя клиенты начинают спрашивать, есть ли у тебя такой, а если нет — разочаровываются в твоём отсталом сервисе.

  • Ответить
    Игорь Ашманов Сам себе компания

    На нашей конференции в понедельник Яндекс и Гугл говорили, что доля голосовых запросов — уже 20%.
    Тематическую раскладку не дали, несмотря на вопросы. Но можно предположить, что это в основном карты.

  • Ответить

    Я в календарь ещё голосом добавляю события постоянно
    Руками очень лениво.
    А так, в режиме «voice line interface» — «Пятого декабря в 11:00 мероприятия Яндекса в Экстрополисе» — всё, в календаре

    На кнопки ленюсь нажимать, да.

  • Ответить

    >>> а) пользователю нужен не собеседник, а помощник, б) помощника сделаем на нейронке. И то, и другое мне лично кажется грубой ошибкой.

    Понятно, что правильный ответ на столь важный вопрос, который все супермегагранды решают грубо и ошибочно — дорогого стоит и даже бесценен. Но, тем не менее поинтересуюсь: а как надо? как делать правильно?

  • Ответить

    Всё же пугает меня «20%»… Я действительно вижу регулярно живые примеры запросов на прогноз погоды и вообще в поиск голосом рта.

    Пугает то, что люди нисколько не парятся, а ведь у них в кармане — подслушивающее устройство. Не хочется становиться Кошастым, но как иначе сохранить в тайне свою личную жизнь?

    Мне тут давеча разблокировали аккаунт на Пейсбучике, который блокировали по наводке агрессивных толерастов. Никто не просил, но бан сняли, хотя он был пожизненный. За эти счастливые годы неведения Пейсбучик превратился в какой-то кошмар, выпилить нельзя вообще ничего. И ведь люди там живут, проводят всё свободное время!

  • Ответить

    Ответ не бесценен, потому что
    а) грандам его не надо, для них он не стоит ничего, у них своя стратегия и свои знатоки,
    б) он будет бесценен, только если что-то сделать самому.

    Ответ такой.
    Помощник людям не нужен. Это старая идея компьютерного Дживса, дворецкого, который всё-всё за тебя делает. Он есть во всех фантастических романах всех грандов научной фантастики с 19550-х годов.
    Мне кажется, он настолько же не нужен, как оказался не нужен видеофон, который тоже был во всех романах и на стенке во всех фантастических фильмах. Или как телевизор 3D.

    Ситуация там примерно такая же: видеосвязь-то есть, пожалуйста — а видеофона нет. Видеосвязь используется дя общения с далёкими родственниками, для интервью с кандидатом на работу, иногда для переговоров. Всё это редко и разрозненно.
    Говорят, азиаты, перескочившие вообще эпоху больших экранов, всё-таки используют смартфон для общения через видео. Может, потому что в экран тогда влезает только лицо, а спущенные штаны или неубранная кровать — нет.

    Вот и с голосовым «помощником» ситуация такая же, мне кажется — есть нишевые применения, разрозненные — когда заняты руки, в машине, в планировщик занести… Орать в опенспейсе, в самолёте, в магазине или в квартире — ну как-то хм.

    Самое основное, что помощник — это очень ответственное дело. Он должен давать гарантированно точную информацию. А её нет. В поисковике есть верхняя десятка, а не точный ответ. Зачти-ка её голосом. Прослушай-ка её ухом. И так далее.

    Что касается применения нейронок для обучения диалогу — это вообще тупик, на мой взгляд. Для внятного и содержательного диалога нужно ведение фокуса, извлечение и запоминание параметров, предыдущих ответов, обращение к внешним базам данных (биллинг, CRM, поисковик, энциклопедии).
    Ничему этому на примерах прошлых диалогов автоматически научиться нельзя. Попробуй сделай на нейронке элементарный диалог знакомства с запоминанием имени пользователя.

    Нужно довольно сложное лингвистическое программирование, на специальных языках. С извлечением переменных, ведением фокуса, деревьями решений, вызовом внешних функций, словарями.

    Нейронка может помогать в простых случаях: обучиться обслуживанию информационных запросов (запрос -> текст) или быстро оживить FAQ, то есть может работать в формате нечёткого поиска по текстам или парам вопрос-ответ.
    Условно, делать добавление нечёткости с помощью синонимов из совместной встречаемости слов, LSA, типа word2vec.

    Мы делали эксперимент по машинному обучению на 120 000 диалогов абонентов с колл-центром мобильного оператора. Обучались двумя разными способами, результат всегда плохой — все транзакционные запросы проваливаются.
    Причины описаны по ссылке выше.

    Поэтому, на мой взгляд:
    а) нужен собеседник в парадигме общения, а не ассистента,
    б) нужно сложное лингвистическое программирование.
    Мы такие проекты для В2В делаем, в том числе помощников — но в узких областях. В «горизонтальной» области — только общение. Вот есть ещё проект платформы для бытовой техники:
    https://sova.ai/ru/

    Возможно, опора на «навыки» и сообщество разработчиков выведет яндексовскую Алису куда-то, но пока там нет инструментов разработчика, нет сообщества.

  • Ответить
    Игорь Ашманов Сам себе компания

    И наше обсуждение на нашей конференции Алисы и её 33 000 навыков с Анастасией, главой В2В-направления Алисы, как-то наводит на мысли, что там развивается ещё одна поисковая машина, голосовая. Только не с верхней десяткой, а в лучшем случае тройкой или пятёркой. И с фактической арендой места в этой пятёрке.

  • Ответить

    Только назад озвучивает что она записала и спрашивает, верно ли?

    Если неверно — говоришь «нет» и надиктовываешь заново.

    В принципе, с поправкой на некую однообразность структуры диалогов, несвойственную человеку, такие разговоры могут быть и с живым ассистентом.

  • Ответить

    >> как-то наводит на мысли, что там развивается ещё одна поисковая машина, голосовая.
    >> Обучались двумя разными способами, результат всегда плохой — все транзакционные запросы проваливаются.

    собсно, проблемы то две — и голос в полной мере не распознается как надо и диалог полноразмерный вести не выходит.
    По голосу понятно — проблема чисто техническая, вызванная забеганием вперед. Наверно, нужен и уже своевременен какбы такой спецъязык для голосового общения именно с компом, как с домашним животным. В стиле Эллочки Людоедки. Небольшой вокабуляр, легко запоминается, легко распознается. Дети и подростки между собой тоже разговаривают на упрощенных формах (проще и мысли выражать при ограниченном словарном запасе и понимать проще).
    Другой вопрос — нафиг нужен этот глос, когда все наблатыкались печатать уже. Не будет ли этот голос — как и этап «большие экраны» — просто пройден незамеченным и невостребованным. Сам же диалог может словами интерактивно или графикой прекрасно на экраны выводиться.
    Что касаемо диалогов — то в любом диалоге либо это бесконечный и бессмысленный диалог, либо один из говорящих имеет некую конечную цель уже с первой фразы и ведет собеседника к этой «цели». Иначе, деревья будут бесконечны и диалог бесконечен.
    Дурь этой Алисы в том, что она деает вид, что понимает все. А она (не она, а вообще диалог) должен строится, что машина-собеседник постоянно тупит и говрит : не понимаю, говорите короче, сформулируйте точнее, блабла). Она должна какбы мозг компостировать собеседнику, тупить, а не умничать.
    Одним словом, диалог не со всезнающим и всепонимающим собеседником-машиной, а какбы с туповатым тугодумом, который с момента начала диалога уже имеет «цель», к которой он хочет в конце диалога вас привести и упорно туда и ведет. Аргументирует. возражает, переспрашивает и доказывает. Даже и ругается, для правдоподобия и усложнинеия теста тьюринга.
    Ну и сами эти диалоги сразу по целям — либо поиск, получение инфы, либо какая либо команда, приказ чтото сделать или прсто болтовня ради болтовни.
    Собсно, других целей ни у каких диалогов и нет. Если определять цель сразу — то мук с распознаванием и ветвями будет куууда меньше.
    Пусть робот с вопроса начинает: чо хотел? Ответ: узнать, приказать, язык почесать. Ну и далее уже можно в выбранном русле и двигаться.

  • Ответить

    «В принципе, с поправкой на некую однообразность структуры диалогов, несвойственную человеку, такие разговоры могут быть и с живым ассистентом.»

    В этом-то и проблема, что нет.
    Не могут быть однообразными диалоги с любым диктором, то есть с массой разных людей.
    Они будут говорить разное. Принципиально разное, условно говоря, каждый день 50% новых реплик — и так весь год. Учи, не учи — всё равно.

    И как покрыть это разнообразие, обеспечить полноту — разработчики «чатботов» обычно не знают.

    Тупость чатботов обычно даже не в том, что развитие диалога тупое или бедное — они обычно просто оередную реплику не понимают.

  • Ответить

    на 120 000 диалогов абонентов с колл-центром мобильного оператора

    Инфа о проценте разговоров про отписку от лохотронов — секретная или можете раскрыть?

    У меня есть подозрение, что опсосы 80% звонков в саппорт получают по левым списаниям. Я это сужу по окружению своему.

    И, как ни странно, мало кто знает, что всяких Елен нужно сразу обходить фразами «связаться с оператором», не тратить время на болтовню с роботом.

  • Ответить

    В рунете ещё болезнь, через один сайты заражены поганой трубкой сбора телефонов и вылезающими чат боксами. Приходится блокировщиками зачищать вместе с рекламой.

    Ну и особенно раздражает, если затемняется экран и вылезает попапчик — «оставьте свой телефон», это особенно добивает и чем-то напоминает кишку Савёловского рынка, где стаями нападают на тебя с предложениями.

  • Ответить

    Видеосвязь используется дя общения с далёкими родственниками, для интервью с кандидатом на работу, иногда для переговоров. Всё это редко и разрозненно.

    Зачем сразу обобщать? Например, у буржуев очень популярен zoom.us как инструмент рабочего общения в распределенных командах.

  • Ответить

    Одни предсказывают, что через 30-50 лет люди будут нормально владеть навыками программирования и интерфейсы таки станут больше текстовыми, меньше GUI и больше каких-то структурированных элементов.

    Другие предсказывают, что интерфейсы станут голосовыми — «Компутер, выключи суп на плите и поищи свежей порнухи с Фокси Ди»

    Кто прав?

  • Ответить

    Лично меня пугает, что пока системно человечество идёт по пути деградации себя. Рывки качественные происходят, но они именно рывки, не системные, очень часто за счёт подвига малой группы людей. И очень много рывков вязнут в пассивности и лени человечества.

    Таки мечта Емели на печи — голосовой помощник-компутер, чтобы Тесла возила в офис попить кофе в переговорке с другими бездельниками, а после офиса — в спортзал или бардель.

    Делают голосовой поиск. При этом НИКТО из поисковиков не озабочен тем, чтобы сделать текстовый с операторами и сложными условиями, чтобы модно было по индексу сделать не тривиальный запрос. А ведь когда-то именно с этого начиналось, но всё пошло в удовлетворение базовых потребностей — что показать в десятке по «пластиковым окнам», «студентки на развратной вечеринке» и т.д.

  • Ответить

    При этом НИКТО из поисковиков не озабочен тем, чтобы сделать текстовый с операторами и сложными условиями, чтобы модно было по индексу сделать не тривиальный запрос.

    А зачем? Это только ухудшит жизнь рекламодателям. Поиск существует, чтобы продавать рекламу, а вовсе не наоборот.

  • Ответить

    [i]При этом НИКТО из поисковиков не озабочен тем, чтобы сделать текстовый с операторами и сложными условиями, чтобы модно было по индексу сделать не тривиальный запрос[/i]
    Ставлю на то, что сколько-нибудь сложные запросы подобного типа оказываются очень «тяжелыми» и их нельзя выпускать на открытый интерфейс. В сочетании со сложностью изучения языка запросов, фича получается совсем невыгодная — абьюзить ее легко, а использовать с пользой — сложно.
    Тут-то она и кончилась, хотя я, конечно, тоже жалею.