Mail.ru обещает добавить в поиск понимание разговорных реплик и контекста разговора при помощи нейросети

14 апреля 2020 в 18:25
Mail.ru

Mail.ru обещает создать новый поиск, который благодаря нейросети, может общаться на естественном языке и понимает контекст запроса

Новости СМИ2

Умный поиск https://t.co/32SuBFzEHx понимающий запросы на человеческом языке и учитывающий историю запросов pic.twitter.com/ch13uNV7En
— Роем! (@roemru) April 14, 2020

Знакомые Roem.ru лингвисты утверждают, что нейросети принципиально не позволяют учитывать контекст при выдаче ответа пользователю, поскольку чем сложнее этот контекст, тем ниже вероятность, что в обучающем датасете будут данные совпадающие с данной комбинацией запросов пользователя.

Поиск Mail.ru научится "живому" диалогу

Выбор редакции

Добавить 5 комментариев

15 апреля 2020 в 02:08 Ответить
Иван Ильин
У Mail, для русского языка, самая лучшая исходная позиция. Они ближе к созданию воображаемого поиска вышеописанного типа, чем кто бы то ни было из конкурентов.
Сравним:
Mail — умеет создавать поиск*, у холдинга огромные массивы записанного успешного и удовлетворяющего людей общения, за 20 лет накопилось море ВКонтактов, OK, реплик в играх — публичных и частных реплик-диалогов соцсетей и ICQ, часть диалогов возникает вокруг расшаренных ссылок в ВК/Ok в прошлом ссылки и аудитория была и в ICQ, тоже полезно. Всё это первичные данные для поиска диалоговых сценариев, где люди задают вопросы, затем уточняющие вопросы и получают удовлетворяющие их (необязательно верные!) или разочаровывающие ответы. У Mail низкая поисковая доля и новый поиск может быть сколько угодно странным. Его можно крутить безвозбранно. Хуже-то от этого холдингу не будет. Причём диалоги уже должны крутить. Для создания «Маруси». Поиск — будет ещё одним применением общей с «Марусей» платформы.
Google — не умеет создавать среду общения, записей общения людей на русском у них меньше, чем у Mail; Google умеет создавать поиск. Зависимость от поиска у Google значительная. Корёжить его в России, где есть и Mail и Яндекс/Рамблер — стрёмно. Голосовой Ассистент, на мой вкус, общается лучше чем у игрока ниже.
Последний игрок, Яндекс — не умеет создавать среду общения, записей общения людей на русском у них ещё меньше, чем у Google, так как у последнего есть шпионские Chrome и Android, а у яндекса есть только «Браузер». Зависимость Яндекса от поиска высокая. Корёжить его, по непонятным принципам, стрёмно. Но нужно. Хотя бы для «Алисы» (на мой вкус она ну очень тупая).
———
* Прим.: Интегральный показатель качества поиска у Mail выше чем у Google. По асессорскому анализу (по-человеческому, для них же и стараются) поиск Mail лучше чем и поиск Яндекс и поиск Google.
15 апреля 2020 в 08:39 Ответить
Юрий Синодов Roem.ru
Тут есть нюанс, что если ты строишь поиск действительно по датасетам, то при росте количества реплик от нуля к десяти, например, количество примеров, по которым ты мог бы научить нейросеть, схлопывается до нуля.
И если вопросы пользователей затрагивают что-то новое (например: ковид в феврале) — ты даже и диалог поддержать не сможешь.
Хотя это и будет сильно волнующей людей вещью.
15 апреля 2020 в 09:03 Ответить
Игорь Ашманов Сам себе компания
Когда мы получали в течение 3 лет от Яндекса 500 миллионов запросов в месяц по договору о зачистке индекса, то 50% запросов в месяц были новые. Сегалович говорил мне то же самое — запросы непрерывно обновляются, не говоря уж про серии запросов, где это обновление возводится в степень длины серии.
Удерживать фокус обсуждения с чатботом (или гибридом чатбота с поисковиком) гораздо проще, просто взведя переменную темы. Это делается легко, а вот с помощью машинного обучения это очень тяжело, нехватка данных на многие порядки, как выше написал Юра.
Но у Яндекса, а также у многих других это сделать религия не позволяет, ведь нейросеточка порешает.
15 апреля 2020 в 09:16 Ответить
Игорь Ашманов Сам себе компания
Прикольно, кстати, что люди, делающие чатботов для техподдержки и контакт-центров, реально не понимают, что нейросеткой этого не сделаешь.
Им внушили, что сейчас это легко, на раз-два, компьютер всё сам сделает.
Там две причины (очевидные тем, кто делает чатботов, и неочевидные тем, кто считает, что ML всё порешает)-
а) кардинальная нехватка данных, на несколько порядков (разнообразие возможных входных реплик от носителя языка — минимум на 3-4 порядка больше, чем количество имеющихся логов, и так будет примерно всегда);
б) необходимость создавать транзакции с обращениями к внешним сервисам и получением динамических данных: формировать из чатбота запросы к БД и биллингу.
А сводные логи по всей цепочке (запрос -> SQL-запрос -> ответ БД -> формирование ответной реплики) — никто, конечно, не отдаст для обучения.
И при этом старый ответ из БД на этот запрос в любом случае для обучения будет бесполезен.
Поэтому на запрос Маши «хочу узнать свой баланс» ей в самом лучшем случае нейросетка, тупо обученная на логах обращений, даст её баланс за май прошлого года, а в худшем — баланс Пети за январь.
То есть для содержательного диалога с контакт-центром в любом случае нужно лингвистическое программирование, которым датасайентисты со скачанным TensorFlow в руках — не владеют. И им Даннинг с Крюгером даже не сказали, что оно нужно.
15 апреля 2020 в 09:23 Ответить
Игорь Ашманов Сам себе компания
Что там на самом деле сделано в Мыле — проще напрямую спросить Андрея Калинина, который руководит тамошним поиском и машинным обучением.