Mail.ru обещает добавить в поиск понимание разговорных реплик и контекста разговора при помощи нейросети

Mail.ru обещает создать новый поиск, который благодаря нейросети, может общаться на естественном языке и понимает контекст запроса

Знакомые Roem.ru лингвисты утверждают, что нейросети принципиально не позволяют учитывать контекст при выдаче ответа пользователю, поскольку чем сложнее этот контекст, тем ниже вероятность, что в обучающем датасете будут данные совпадающие с данной комбинацией запросов пользователя.

Поиск Mail.ru научится «живому» диалогу

Добавить 5 комментариев

  • Ответить

    У Mail, для русского языка, самая лучшая исходная позиция. Они ближе к созданию воображаемого поиска вышеописанного типа, чем кто бы то ни было из конкурентов.

    Сравним:

    Mail — умеет создавать поиск*, у холдинга огромные массивы записанного успешного и удовлетворяющего людей общения, за 20 лет накопилось море ВКонтактов, OK, реплик в играх — публичных и частных реплик-диалогов соцсетей и ICQ, часть диалогов возникает вокруг расшаренных ссылок в ВК/Ok в прошлом ссылки и аудитория была и в ICQ, тоже полезно. Всё это первичные данные для поиска диалоговых сценариев, где люди задают вопросы, затем уточняющие вопросы и получают удовлетворяющие их (необязательно верные!) или разочаровывающие ответы. У Mail низкая поисковая доля и новый поиск может быть сколько угодно странным. Его можно крутить безвозбранно. Хуже-то от этого холдингу не будет. Причём диалоги уже должны крутить. Для создания «Маруси». Поиск — будет ещё одним применением общей с «Марусей» платформы.

    Google — не умеет создавать среду общения, записей общения людей на русском у них меньше, чем у Mail; Google умеет создавать поиск. Зависимость от поиска у Google значительная. Корёжить его в России, где есть и Mail и Яндекс/Рамблер — стрёмно. Голосовой Ассистент, на мой вкус, общается лучше чем у игрока ниже.

    Последний игрок, Яндекс — не умеет создавать среду общения, записей общения людей на русском у них ещё меньше, чем у Google, так как у последнего есть шпионские Chrome и Android, а у яндекса есть только «Браузер». Зависимость Яндекса от поиска высокая. Корёжить его, по непонятным принципам, стрёмно. Но нужно. Хотя бы для «Алисы» (на мой вкус она ну очень тупая).

    ———

    * Прим.: Интегральный показатель качества поиска у Mail выше чем у Google. По асессорскому анализу (по-человеческому, для них же и стараются) поиск Mail лучше чем и поиск Яндекс и поиск Google.

  • Ответить

    Тут есть нюанс, что если ты строишь поиск действительно по датасетам, то при росте количества реплик от нуля к десяти, например, количество примеров, по которым ты мог бы научить нейросеть, схлопывается до нуля.

    И если вопросы пользователей затрагивают что-то новое (например: ковид в феврале) — ты даже и диалог поддержать не сможешь.

    Хотя это и будет сильно волнующей людей вещью.

  • Ответить
    Игорь Ашманов Сам себе компания

    Когда мы получали в течение 3 лет от Яндекса 500 миллионов запросов в месяц по договору о зачистке индекса, то 50% запросов в месяц были новые. Сегалович говорил мне то же самое — запросы непрерывно обновляются, не говоря уж про серии запросов, где это обновление возводится в степень длины серии.

    Удерживать фокус обсуждения с чатботом (или гибридом чатбота с поисковиком) гораздо проще, просто взведя переменную темы. Это делается легко, а вот с помощью машинного обучения это очень тяжело, нехватка данных на многие порядки, как выше написал Юра.
    Но у Яндекса, а также у многих других это сделать религия не позволяет, ведь нейросеточка порешает.

  • Ответить
    Игорь Ашманов Сам себе компания

    Прикольно, кстати, что люди, делающие чатботов для техподдержки и контакт-центров, реально не понимают, что нейросеткой этого не сделаешь.
    Им внушили, что сейчас это легко, на раз-два, компьютер всё сам сделает.

    Там две причины (очевидные тем, кто делает чатботов, и неочевидные тем, кто считает, что ML всё порешает) —

    а) кардинальная нехватка данных, на несколько порядков (разнообразие возможных входных реплик от носителя языка — минимум на 3−4 порядка больше, чем количество имеющихся логов, и так будет примерно всегда);

    б) необходимость создавать транзакции с обращениями к внешним сервисам и получением динамических данных: формировать из чатбота запросы к БД и биллингу.

    А сводные логи по всей цепочке (запрос → SQL-запрос → ответ БД → формирование ответной реплики) — никто, конечно, не отдаст для обучения.
    И при этом старый ответ из БД на этот запрос в любом случае для обучения будет бесполезен.

    Поэтому на запрос Маши «хочу узнать свой баланс» ей в самом лучшем случае нейросетка, тупо обученная на логах обращений, даст её баланс за май прошлого года, а в худшем — баланс Пети за январь.

    То есть для содержательного диалога с контакт-центром в любом случае нужно лингвистическое программирование, которым датасайентисты со скачанным TensorFlow в руках — не владеют. И им Даннинг с Крюгером даже не сказали, что оно нужно.

  • Ответить
    Игорь Ашманов Сам себе компания

    Что там на самом деле сделано в Мыле — проще напрямую спросить Андрея Калинина, который руководит тамошним поиском и машинным обучением.