Почему «Яндекс» так верит в «вероятностные модели» и ничего не меняет в поиске?

Матрикс.Net, конечно, был огромным технологическим прорывом. Самонастраивающаяся система, учитывающая предпочтения пользователей, доля "Яндекса" в Рунете перестала падать, постоянно превышает 60%, Google не в силах преодолеть планку 30%, несмотря на все чудеса дистрибуции своего браузера.

Однако есть и плохие следствия такой "обучаемости". Например, если сам по себе запрос находится на грани осмысленности, то "Яндекс" начинает искать по самому "сильному" слову. Получается бред:

Есть и случаи вопиющего насаждения безграмотности: например, запрос "межпозвонковая грыжа" Яндекс переколодовывает в "межпозвоночную грыжу". Межпозвоночная грыжа может быть разве что у сиамских близнецов, но "Яндекс" подстроился под пользователей, компании подстроились под "Яндекс", и межпозвонковая грыжа - это теперь какой-то артефакт, то чего не существует. Ответы техподдержки "Яндекса" носят психотерапевтический характер:

Ответ Яндекса:

Здравствуйте, Наталия!

Исправление поисковых запросов производится при помощи вероятностных моделей, построенных на основе анализа пользовательских запросов за большой промежуток времени. Если вероятность того, что в веденном запросе есть опечатка, выше определенного значения, то предполагаемая опечатка исправляется автоматически с сообщением об автозамене запроса и ссылкой на поиск по оригинальной формулировке. Факт автоматического исправления вовсе не означает, что мы считаем предполагаемое написание грамматически более корректным.

Вероятностная модель очевидно не покрывает все случаи написания, но, будучи основанной на статистике, всегда (за исключением ошибок в программе или дефектов в данных) предлагает статистически более достоверный вариант. Поскольку такой вариант подходит для большинства пользователей, производится автоматическая замена. При этом для некоторой, обычно очень малой, части пользователей замена может быть ненужной. В Вашем случае именно так и происходит.

Результаты поиска по исходному запросу Вы можете увидеть, перейдя по ссылке «В запросе «межпозвонковая грыжа» была исправлена опечатка.», расположенной под поисковой строкой.

Если Вы заметите примеры запросов, по которым исправление запроса срабатывает ошибочно, пожалуйста, напишите нам об этом, мы будем Вам очень благодарны.

--

Нам непонятно почему яндекс навязывает безграмотность населению и медицинским центрам, которые вынуждены писать неправильный диагноз для увеличения поисковой выдачи. То есть человек делает МРТ позвоночника и набирает диагноз межпозвонковая грыжа, который был ему поставлен и видит, что в запросе опечатка. Значит врач ошибается! Мы понимаем, что мы- врачи и нас значительно меньше, чем основного населения. В данном конкретном случае нарушаются наши права на правильное использование диагнозов заболевания.

Уважаемый "Яндекс", скажи, пожалуйста: твоя вероятностная модель это истина сошедшая с неба и её из-за этого нельзя менять? Может быть пора напрячь заплесневевшие с 2009-го года, когда был запущен Matrix Net, мозги и найти управу на вероятностные модели?

Или придумать более инновационные и грамотные вероятностные модели?

Лучшие комментарии

  • Контекст комментария

    miteigi nemoto

    О! Добавлю свои пять копеек от рассерженного пользователя со стажем: поисковики тупые как валенки, за 10 лет прогресса нет, одни цветочки да бантики. Побороли поисковый спам? Достаточно почитать некоммерческие запросы, где в топ-10 всегда большая помойка из говносайтов с говнобанерами, или бесконечная лента неуникального копипаст-контента. По коммерческим запросам тоже говно-коммерческие-сайты постоянно вылазят, вместо реальных и качественных лидеров отрасли. Как, например, поискать информацию только по корпоративным сайтам? Как, например, поискать материал только в контексте физики или агропромышленного комплекса? Региональная выдача, говорите? Полная лажа — вылазят сайты компаний, которые не относятся к региону или городу. Теряется весь смысл этой затеи. И да еще: отправлял им идею о фиче год назад. Фича в том, что не важно где курсор на сайте поисковика, но при нажатии Ctr+v происходит поиск по тексту из буфера. Никто не реализовал. Кормят какими-то островами, графами знаний из вики, да картинками-прибаутками. Они выражаются, что умеют с вероятность в 90% определить покупные ссылки, а вот гоносайты от человеческих что-то не научились отделять.

  • Контекст комментария

    Petr ¹

    Еще пять копеек: Раньше яндекс пропагандировал язык запросов и умение пользоваться поисковиком. Теперь язык запросов практически игнорируются. Поисковик ориентирован на неискушенную публику — к экзотическим запросам считает нужным подмешивать, по его мнению, ответы на некие популярные. Как следствие — выдача забита совершенно ненужными ответами. Я понимаю, что дилетанты правят миром. Но можно же сделать опции в настройках, чтобы кто хочет — мог бы использовать натуральный Яндекс без ненужных подмешиваний. Сейчас при поиске фраз в кавычках — Яндекс ее все равно ломает и подсовывает словоформы помимо подмешивания результатов для похожих слов. Надо сказать, что гугл с такими запросами справляется лучше.

Добавить 37 комментариев

  • Ответить
    Альтер Эго

    По первому запросу налицо нарушение КоАП ст. 6.21.2. Всегда подозревал яндекс в пропаганде педофилии, наконец есть доказательства, пора теперь тряхнуть яндекс на штраф до одного миллиона рублей либо административное приостановление деятельности на срок до девяноста суток, как того требует закон.

  • Ответить

    О! Добавлю свои пять копеек от рассерженного пользователя со стажем: поисковики тупые как валенки, за 10 лет прогресса нет, одни цветочки да бантики. Побороли поисковый спам? Достаточно почитать некоммерческие запросы, где в топ-10 всегда большая помойка из говносайтов с говнобанерами, или бесконечная лента неуникального копипаст-контента. По коммерческим запросам тоже говно-коммерческие-сайты постоянно вылазят, вместо реальных и качественных лидеров отрасли. Как, например, поискать информацию только по корпоративным сайтам? Как, например, поискать материал только в контексте физики или агропромышленного комплекса? Региональная выдача, говорите? Полная лажа — вылазят сайты компаний, которые не относятся к региону или городу. Теряется весь смысл этой затеи. И да еще: отправлял им идею о фиче год назад. Фича в том, что не важно где курсор на сайте поисковика, но при нажатии Ctr+v происходит поиск по тексту из буфера. Никто не реализовал. Кормят какими-то островами, графами знаний из вики, да картинками-прибаутками. Они выражаются, что умеют с вероятность в 90% определить покупные ссылки, а вот гоносайты от человеческих что-то не научились отделять.

  • Ответить

    > И да еще: отправлял им идею о фиче год назад. Фича в том, что не важно где курсор на сайте поисковика, но при нажатии Ctr+v происходит поиск по тексту из буфера. Никто не реализовал. А если я в поисковую строку ввёл часть запроса, а оставшуюся часть вставляю из буфера обмена? ИМХО, пользователи будут думать, что Яндекс глючит. Как вы думаете, какая часть пользователей будет пользоваться вашей фичей? Я думаю, ооочень маленькая. В чём проблема поставить курсор в строку ввода поискового запроса? Тем более, она сейчас всегда видна.

  • Ответить

    Почему «Яндекс» так верит в «вероятностные модели» и ничего не меняет в поиске? Потому, что «Яндекс» ничего не зарабатывает на полноте и точности поиска. — Ваш Капитан.

  • Ответить

    >> Потому, что «Яндекс» ничего не зарабатывает на полноте и точности поиска. Он зарабатывает лояльность аудитории. Не то чтоб это веский аргумент, почему у них есть интерес делать лучше, но аргумент.

  • Ответить

    Он зарабатывает лояльность аудитории. Конкурентов же нет, причем тут лояльность? Ага, а поиском народ пользуется, только чтобы рекламу смотреть Не только, еще он там пиратский контент ищет. да и конкурентов у Яндекса нет… Нету. Все якобы «конкуренты» тоже ничего не зарабатывают на полноте и точности. Это как конкуренция между лохотронами — «конкурируют» они только в красочности и привлекательности зазывал, а не в проценте обманутых «клиентов».

  • Ответить

    Ещё одно обвинение поисковикам: когда хочешь найти нечто об устройстве, сути предмета или явления, сначала приходится пролистать несколько страниц о том, как это купить или получить услугу.

  • Ответить

    Виктор Черкасов, а если находишь, то там часто лажа полная, не так ли? Особенно мне «нравятся» странички про «как выбрать то или иное устройство», часто написанные X лет назад и мало отвечающие про современные модели и технологии… Тем временем один из лучших и актуальных справочников по свойствам устройств находится в Яндекс.Маркете в «Словаре терминов» по каждой ветке товаров. Я бы выдавал на Яндексе справа ссылку на такой словарь. Например, ищешь «как выбрать монитор», он тебе справа показывает «Словарь терминов», «Сравнение популярных моделей на Яндекс.Маркете». Кстати в контексте у Яндекса смешная картина по запросу «как выбрать монитор» (привет любителям конверсии!): Кибермаркет Юлмарт Широкий ассортимент компьютерной и бытовой техники по низким ценам! 24 часа ulmart.ru Страница ведет на главную! далее идет объява Samsung, будто бы нерусские делали: калибровка цветов монитора калибровка монитора, запоминающая поведение пользователей ! samsung.com Ведет на страницу 24″ Сенсорный LED монитор серии 7 S24C770T, где чуть ниже написано «К сожалению, данный продукт сейчас отсутствует на складах онлайн магазинов наших партнеров».

  • Ответить

    Ничего вы не понимаете в колбасных обрезках… им плевать на пользователя и на поисковый спам. На пользовательские жалобы служба отдела веб-поиска Яндекса смотрит сквозь пальцы, реакции ноль. Что вы хотите? Яндекс.Директ продается, индексы растут…

  • Ответить

    Еще пять копеек: Раньше яндекс пропагандировал язык запросов и умение пользоваться поисковиком. Теперь язык запросов практически игнорируются. Поисковик ориентирован на неискушенную публику — к экзотическим запросам считает нужным подмешивать, по его мнению, ответы на некие популярные. Как следствие — выдача забита совершенно ненужными ответами. Я понимаю, что дилетанты правят миром. Но можно же сделать опции в настройках, чтобы кто хочет — мог бы использовать натуральный Яндекс без ненужных подмешиваний. Сейчас при поиске фраз в кавычках — Яндекс ее все равно ломает и подсовывает словоформы помимо подмешивания результатов для похожих слов. Надо сказать, что гугл с такими запросами справляется лучше.

  • Ответить
    Альтер Эго

    В утекшем документе про факторы черным по белому написано, что без кликов Google, который Яндекс получает из браузеров, качество было бы куда хуже.

  • Ответить

    @Ещё одно обвинение поисковикам: когда хочешь найти нечто об устройстве, сути предмета или явления, сначала приходится пролистать несколько страниц о том, как это купить или получить услугу.@ Ну, вообще-то купить или получить услугу — более частое желание; если вам нужно что-то иное, никто не мешает добавить в запрос пару-тройку ключевиков. Единственное, с чем я из вышеперечисленных претензий категорически согласен — это с тем, что поисковики начали игнорировать собственный язык запросов. ОК, в общем случае это, возможно, и полезно пользователю, но сделайте уже жесткий режим, чтобы словоформы не менялись, операторы принимались во внимание, даже если результатов меньше дюжины,

  • Ответить
    Альтер Эго

    >К первой картинке — видимо, были учтены ваши предпочтения. Вон и ссылочка посещённая выделена :) Да ну что пристали к человеку? Я б тоже кликнул, уж больно сниппеты привлекательно яндекс сформировал. >Я думала Гугл конкурент, разве не? Не. У гугла политика еще хуже. Там не только на пользователей наплевать, но и на ВМ-ов. Не хочет гугл свой поиск починять, хочет приделывать костыли, которые определяют покупные ссылки через одно место и никого в гугле не волнует покупал ты ссылки или естественным оброс. Как итог, вся коммерция у гугла в полной заднице. Раньше как спрашивали рефераты и прон, так и будут спрашивать. Не конкурент он Яндексу.

  • Ответить
    Альтер Эго

    а вот гоносайты от человеческих что-то не научились отделять. Так говоносайты, они же как раз человеческие.

  • Ответить

    Просто прогресс в области качества поиска остановился, в том смысле, что с простыми статистическими методами далеко не уедешь, а сложные пока не работают на масштабе веба. Машинное обучение дает возможность немного улучшить качество, но для среднего запроса по больнице подобное улучшение довольно маленькое (посмотрите, например, результаты Yahoo learning to rank challenge). Самый лучший метод лучше (довольно-таки простой модели) меньше 10%. А можно и посложнее модель сделать. Клики и пользовательское поведение — это хорошая штука, но они, опять-таки, покрывают меньшую часть запросов.

  • Ответить

    > В утекшем документе про факторы черным по белому написано, что без кликов Google, который Яндекс получает из браузеров, качество было бы куда хуже. А что за документ? Где почитать?

  • Ответить
    Альтер Эго

    > А что за документ? Где почитать? Продают сеошники. Оставьте контакты, вам сразу предложат. Я за 20 т.р. покупал.

  • Ответить

    > Продают сеошники. Оставьте контакты, вам сразу предложат. Я за 20 т.р. покупал Чувак жжёт! ИМХО: Чтобы там поисковики не придумывали, армия наших вебмастеров-сеошников говно-сайто-строителей всегда на шаг впереди. А что поделать, на заводе сейчас никто работать не хочет, проще сайтов на стряпать с дешёвым рерайтом и получать свой кусок хлеба сидя на диване, а народ у нас сообразительный, подстраивается под любые алгоритмы поисковиков, и вряд ли это в ближайшее десятилетие изменится.

  • Ответить

    Ну вот Ватсон работал на масштабе окрестности Википедии. При этом, было задействовано сотни серверов для ответа на один единственный вопрос (на человеческом языке и с большим контекстом, ака длинный вопрос). При этом большой вопрос, насколько подобные технологии помогают в обычных ad hoc запросах телеграфного стиля.

  • Ответить
    Альтер Эго

    > А что поделать, на заводе сейчас никто работать не хочет, проще сайтов на стряпать с дешёвым рерайтом и получать свой кусок хлеба сидя на диване, А Вы нам с завода пишете? Прямо от станка?

  • Ответить

    Товарищ, очевидно, очень упрощает. Тот факт, что ответ можно найти на первых двух страницах поиска — это еще ничего не значит. Правильный факт нужно извлечь из страницы и понять, что именно он является ответом на вопрос. В этом состоит основная сложность. Не очень интересна система со 100% recall, когда у нее будет почти нулевая точность. И если так рассуждать, то Ватсон ничего особенного не добавляет по сравнению с Википедией. Если кто читатал айбиэмовские статьи, то, может быть, обратил внимание на тот факт, что больше 90% ответов можно получить из заголовоков статей/