Открытка компании: Почему «Яндекс» тихо ввел новый алгоритм обработки опечаток? (+)

Редакция Roem.ru не несет ответственности за материалы, размещенные в этом разделе читателями ресурса. Они добавляются через форму на сайте, и могут быть опубликованы без предварительной модерации.

Если ввести слово с опечаткой, "Яндекс" теперь молча подставляет верный вариант вместо ошибочного и ищет по нему, вместо старого предложения замены запроса.

Например, так он делает для английских букв в слове, похожих по написанию. Если написать "Синодов" с английскими "о", поиск все равно будет по слову "Синодов" кириллицей.

Соответственно, перестал действовать нехитрый способ так называть в ЖЖ деятелей рунета, чтобы они не нашли запись: раньше вставляли латинские буквы, а теперь фигурант все равно найдет упоминание о себе и даже не узнает о вставленной в имя ошибке. Удвоение букв типа "Сиинодовв" тоже не поможет.

Странно, что Яндекс делает это молча, это не в их правилах.

Комментарий представителя компании

  • Контекст комментария

    Илья Сегалович Яндекс

    > речь идёт про то, что такую замену сразу подставляют в запрос > (переколдовывают запрос), вообще не предлагая пользователю что-то там исправлять. > В принципе, это правильно — если разработчик поиска уверен в качестве опечаточника Сейчас внедрена излишне агрессивная версия. Мы будем сообщать в гораздо большем числе случаев об исправлениях и давать возможность пользователю убедиться, что по исходному варианту запроса действительно (почти) ничего не найдено.

Добавить 97 комментариев

  • Ответить

    Я бы не сказал, что совсем уж молча — Илья Сегалович фактически писал [url=http://iseg.livejournal.com/98253.html]об этом у себя в ЖЖ[/url] месяц назад. Что до того, что не было написано в блоге-новостях компаний, то объяснение может быть простым — как сказал Ден Расковалов, [url=http://roem.ru/2007/12/11/nanoyandex/]не столь давно[/url], таких новостей у «Яндекса» в неделю по несколько штук. Так что новость про опечатки могла просто не выдержать конкуренции с другими информационными поводами.

  • Ответить

    От суки! (с) Но вообще по-моему довольно логичный ход. Если в выдаче нету этой инфы — зачем тогда парить лишним экраном без результатов и suggestion?

  • Ответить

    «таких новостей у «Яндекса» в неделю по несколько штук» — вот это верно. Эти парни также втихую делают гораздо более интересную вещь: http://analyzethis.ru/?analyzer=update&detail=yandex (в анализаторе апдейтов АиП ее сразу видно). Чтобы пиарить все такие новости Яндекс, возможно, стоит заводить кучку отдельных блогов для каждой ЦА, как это сделано в Google.

  • Ответить
    Игорь Ашманов Сам себе компания

    Илья писал тогда про улучшение подбора замены для запроса с опечатками. Это мы анализи руем анализатором «Подсказка», и Яндекс действительно 14 ноября дал резкий скачок качества по нему. А здесь речь идёт про то, что такую замену сразу подставляют в запрос (переколдовывают запрос), вообще не предлагая пользователю что-то там исправлять. В принципе, это правильно — если разработчик поиска уверен в качестве опечаточника. Зачем грузить пользователя, если ты и так знаешь, что он имел в виду. Наш второй анализатор (Опечатки) сверяет не подсказку с каноническим запросом, а поисковую выдачу для запроса канонического и запроса с опечаткой. Сейчас для простых опечаток она у Яндекса действительно одинаковая.

  • Ответить

    Пробовал автоматом исправлять слова запроса с год назад — не совсем гуд, если пользователь ищет именно неправильное написание (как пример: только что родившийся «медвед», но еще не попавший в морфологию Яндекса), лучше расширять запрос исправленным вариантом, но больший приоритет отдавать форме, введенной пользователем.

  • Ответить

    Думаю, что они это обсуждали. Скорее всего, число людей, ищущих именно неправильные формы слова невелико, а большую массу пользователей исправление их ошибок — наоборот устраивает. Вдобавок, кавычки никто не отменял.

  • Ответить
    Игорь Ашманов Сам себе компания

    А тут, скорее всего играет роль омонимия. Синодов — это и фамилия, и родительный падеж слова Синод. А опечатка «Синодоы» — это либо Синодов, либо Синоды. То есть при восстановлении до правильного написания происходит развилка на два разных запроса. Как уж Яндекс эту коллизию разрешает, не знаю. На что заменять запрос — на Синодова или на Синоды?

  • Ответить

    причем разрешает только яндекс. гугль пытается найти исправления: «синодом» (кому, чему) и «синодов». что удивительно, выдача гугль по «синодов» оказалось монотонной в отличие от яндекса. в первых 3 десятках найденных документах только «Юрий Синодов».

  • Ответить
    Игорь Ашманов Сам себе компания

    Да это неудивительно. Гугл применяет морфологический разбор далеко не всегда, а на основе разных соображений по статистике слова в индексе. Примерно логика такая — если слово в данной форме встречается гораздо чаще, чем омонимы, для которых эта форма косвенная, то косвенную форму омонима вообще не ищем. Может быть, проверяется ещё и актуальность, давность пребывания в индексе и т.п. Всякие вхождения синода в родительном множественном, типа «постановления синодов» и так далее встречаются крайне редко и более старые по сравнению с Юрой.

  • Ответить

    > речь идёт про то, что такую замену сразу подставляют в запрос > (переколдовывают запрос), вообще не предлагая пользователю что-то там исправлять. > В принципе, это правильно — если разработчик поиска уверен в качестве опечаточника Сейчас внедрена излишне агрессивная версия. Мы будем сообщать в гораздо большем числе случаев об исправлениях и давать возможность пользователю убедиться, что по исходному варианту запроса действительно (почти) ничего не найдено.

  • Ответить

    2 Маxime = что неудачного в замене авомир на автомир? не смог понять. = при чем тут «морфология Яндекса»? Использование логов c июля 2005 года http://company.yandex.ru/blog/message.xml?msg=100016 [афтар] -> [аффтар] Полностью автоматический словарь [райфаззен] -> [pрайффайзен] [ретеил] -> [ритейл] [колбассоф] -> [колбасофф] [gemeboy] -> [gameboy] [крбина] -> [корбина] [вросеть] -> [евросеть] [ismeteo] -> [gismeteo] [fischki] -> [fishki] [ьегафон] -> [мегафон] [forexs] -> [forex] [инфолаин] -> [инфолайн] [тинидозол] -> [тинидазол] [netbaynet] -> [netbynet] [stepaschka] -> [stepashka] [скаэкспресс] -> [скайэкспресс] [хетхантер] -> [хедхантер] Контекст запроса (первая версия) с ноября: [лодки катра] -> [лодки катЕра], но, при этом, [школьная катра] -> [школьная каРТа]

  • Ответить

    к предудыщему: «исправляет» в смысле «автоисправляет», то есть ищет по умолчанию исправленное, а не просто предлагает поискать исправленный вариант. Яндекс как раз *предлагает* исправить [Авомир], но *не* исправляет сам. И это, имхо, совершенно правильно: это самый несчатный «Авомир» упомянут на 5й позиций (сайта у него нет), а все остальнае «авомиры» это опечатки от «Автомир»)

  • Ответить

    Maxime, директостатистика подсказывает мне, что вероятность запроса «Яндексу» аввомира — исчезающе мала. «Яндекс» говорит, что таких запросов за месяц — 0 (и я там первый, зачем-то) И зачем тогда что-то дорабатывать для сферического коня в вакууме? В реальной жизненной ситуации алгоритмы «Яндекса» — работают.

  • Ответить

    Значит статистика врет, т.к. я этот запрос выдавал вчера несколько раз:) Эт не сферический конь — это реальный запрос из лога моего поисковика :) В реальной как раз-таки не всегда работают, пример с запросом «Сочи» уже оскомину набил, но они почему-то его не правят более 2 лет, интересно почему ? :) У Гугла и Гого подобного не замечено…

  • Ответить

    Про [сочи]. Все тоже: по этому запросу также находятся (и неправильные слова в них подсвечиваются) документы, содержащие формы глагола «сочиться», а также сокращения слова «сочинение», «соч.». Это особенно заметно при сортировке результатов по дате или в поиске по блогам, где эта сортировка стоит по умолчанию.

  • Ответить

    В поиске на ya.ru, если сейчас ввести этот запрос и затем кликнуть на сортировку по дате, то девятым результатом показывает: Смерть на похоронах Никто не подозревал, что слёзы на похоронах будут сочиться из глаз не только от окончательного осознания потери близкого человека. http://www.kinopoisk.ru/level/1/film/256498 · 91 КБ · 7 часов назад

  • Ответить

    2 iseg, про [сочи] В объявлениях Яндекс.Маркета сейчас в поиске через http://www.ya.ru показывается (на второй странице результатов при сортировке их по дате): «Сочи» на Маркете Классическая музыка Арканджело Корелли «Арканджело Корелли. 12 сонат для скрипки, соч.5. 12 кончерти гросси, соч.6» 146 р., в наличии МОЙ МИР — Россия Выделены жирным оба «соч.»

  • Ответить

    iseg, скажите, пожалуйста, а за сколько времени в Яндексе баги правятся ? А то неделя прошла, а Сочи всё сочится. Гуглу на правку багов обысно суток-двое хватает…

  • Ответить

    Поправим, постараемся. Повелительное наклонение глагола мешает. Насчет Google — не надо ничего обожествлять: google:[друг народа] _ДРУГОЙ_ СТРАНЫ И _ДРУГОГО_ НАРОДА У НАС НЕТ Года два уже как ошибке.

  • Ответить
    Игорь Ашманов Сам себе компания

    Вероятно, у Яндекса глаголы с «-ся» как бы происходят от глаголов без «-ся». От этакой виртуальной основы. Так что этот глагол — «сочить». Максим, ну так вы же сочите уже довольно давно, всё сочите, сочите и сочите со своим сочинским поисковиком. Может быть, я ошибаюсь. Стоит посмотреть, что там в Яндексе со словом, у которого самая крутая глагольная омонимия: трусь. То ли два совершенно разных глагола, то ли три.

  • Ответить

    Игорь, ошибаетесь, сочинский поисковик сделан на основе DataparkSearch, в котором морфология на основе словарей ispell, для которого в словаре русского языка от Лебедева нет повелительной формы у глагола «сочить». Кстати, Игорь, ваш флексу по запросу «Сочи» также подсвечивает «соче» в свлове с переносом «соче-тающей»: http://oficery.flexum.ru/?query=#p=2

  • Ответить
    Игорь Ашманов Сам себе компания

    Нет, я имел в виду, что вы всё пристаёте и ппристаёте к Яндексу и всё продвигаете сочинский поисковик. Я пошутил — вы же сочинец, или занимаетесь Сочами в сети, значит — сочите. У нас во Флексуме вообще морфология попроще — бессловарная, питается исключениями, значит, такого исключения там нет. Поправят.

  • Ответить
    Игорь Ашманов Сам себе компания

    А, ну вот, посмотрел про «трусь», с ним косяков в Яндексе нет: http://www.yandex.ru/yandsearch?text= P.S. Слово «трусь» является повелительным наклонением глагола «трусить» в смысле «бояться», а также первым лицом настоящего времени от глагола «тереться». Правда, у глагола «трусить» в смысле «трясти» и у глагола «трусить» в смысле «бежать трусцой» — нет такой формы. Повелительное наклонение у них вроде бы должно быть «труси». Но различить эти омонимы на письме невозможно — все остальные формы этих двух глаголов совпадают с трусить-бояться, так что тут требовать чего-то от поисковика трудно. Тем не менее, на удивление, Яндекс как-то различает эти глаголы и даёт на запрос «труси» только статьи про глагол в смысле «трясти». Удивительно. Также и различительную форму «труси» Яндекс с «тереться» не склеивает (по-моему, раньше склеивал, неоколько лет назад), так что тут всё как бы нормально. Однако, есть тут и явный косяк: по тому же запросу «труси» находятся и подсвечиваются «Трусов», «трус» и «трусы», в том числе в Маркете. http://www.yandex.ru/yandsearch?&p=2&text= Вероятно, форма «труси» всё-таки отсутствует в парадигме грагола «трусить» во всех смыслах, а «труси» обрабатывается как неизвестное слово, тут-то к нему и приклеиваются «левые» окончания. Поэтому, видимо, и формы глагола «трушу» по запросу «труси» не находятся, а не от тонкого различения омонимов. Ну, может, если считать, что слова «труси» не существует вообще, то это не косяк.

  • Ответить

    Для сведения: сочи как имя собственное — мужского рода, единственного числа и неизменяемое. Вы уж поправте вашу морфологию, пожалуйста. Игорь, не притягийвайте за уши глоклую куздру, повелительным наклонением глагола «тру’сить» является «бойся» — остальное в русском языке не употребляется, ровно как же и нет «сочи» как повелительной формы глагола «сочить», есть «насочи». Вы отсортируйте выдачу Яндекса по дате — увидите тот же косяк, как на Маркете, и в основной выдаче…

  • Ответить

    «# ТРУСИТЬ Даль Не трусь таракан, да ножка кропки (хрупки…» Дело в том, что у меня в словаре Даля в дореволюционной грамматике то, что Яндекс подсвечивает как «трусь» (с мягким знаком), прописано с твердым: «трусъ», т.е. «трус» по-современному (существительное). Выходит у Яндекса еще и Даль неправильно оцифрован…

  • Ответить
    Игорь Ашманов Сам себе компания

    Максим, вы, наверно, прочли то, что я написал, но не поняли. А может, не стали читать. При чём здесь то, что других повелительных у глагола «трУсить» нет? Я писал про другое. Есть два омонима у слова «трусь» — глаголы трусить и тереться. Для первого эта форма — повелительное наклонение, для второго — первое лицо наст. времени. Я видел, как несколько лет назад несколько машинных морфологий вообще падали (зависали) на этом омониме, потому что это довольно редкий случай омонимии. А вот у глагола трУсить (бояться) есть омоним — глагол трусИть (трясти, просеивать, бежать трусцой). У него повелительное наклонение другое (трусИ), а все остальные формы совпадают с трУсить. А формы «труси» в Яндексе нет вообще, что и даёт странные эффекты бессловарной морфологии (когда «труси»=»трусы, трус, Трусов»). Все эти глаголы в кв какой-то мере употребительны, в том смысле, что в Яндексе можно найти довольно много случаев употребления каждого из них. Просто в Яндексе, как и в любом другом поисковике, они иногда путаются. Что вам тут не нравится? Что касается «сочить», то Илья, возможно, неспроста упомянул повелительное наклонение глагола, говоря о слове «Сочи» — это, скорее всего, означает, что у них есть воображаемая основа глагола «сочиться» без частицы «-ся», что и приводит к проблемам с «Сочи». Скорее всего, такую архитектурную проблему быстро победить нельзя, тут правкой словаря не отделаешься, нужно морфологическую машинку переделывать, а заплатку по случаю им ставить не хочется, что и приводит к затягиванию исправления.

  • Ответить
    Игорь Ашманов Сам себе компания

    Да, насчёт Даля. Вы же не думаете, что словари на Яндексе оцифрованы Яндексом? Для оцифровки нужно построить целую небольшую человеко-машинную фабрику, её в Яндексе пока нет, насколько я знаю. Такая фабрика была построена в Рубриконе (http://www.rubricon.ru), они купили права и оцифровали десятки больших и малых словарей, и словари Яндекс брал от них. Просто он их заиндексировал. Там и БСЭ, и Даль и все остальные. Так что если там ошибка, то ей лет пять-шесть и Яндекс тут не при чём. Как и в случае всех остальных опечаток, которые он заиндексировал на просторах Рунета.

  • Ответить
    Игорь Ашманов Сам себе компания

    Ну и последнее, Максим: по-моему никакого глагола «сочить» в современном русском языке нет, хотя Даль с Ушаковым и дают такое слово: * Сочить (Ушаков) СОЧИ’ТЬ, чу́, чишь, д. н. не употр., несов., что. 1. Испускать, выделять из себя по капле (книжн., поэт.). С. слезы. Сосна сочит смолу. Рана сочит кровь. 2. Спускать в виде сока (спец.). С. мед из сотов… * СОЧИТЬ Даль СОЧИТЬ СОЧИТЬ, см. сочать… Ну так Даль вон вообще неслыханное «сочать» даёт, Даль — вообще известный приколист. А если бы такой глагол и был, то он никак не мог бы иметь нелепого повелительного наклонения «насочи» — это вообще был бы глагол НЕСОВЕРШЕННОГО вида, то есть «насочи» вообще другая лексема, другое слово, форма глагола СОВЕРШЕННОГО вида. Впрочем, такого глагола (насочить) тоже не существует. Я же говорю, что «сочить» в Яндексе, возможно, есть — как внутренний приём, как воображаемая основа для глагола «сочиться», что в принципе нормально, как программистская уловка. А ошибка в том, что они это воображаемое существо напрасно выпускают на волю. Им бы нужно было разбирать контекст хотя бы в том смысле, что Сочи в середине предложения идёт с прописной буквы, а значит, это никак не глагол, но я не знаю, сохраняют ли они признаки капитализации на этапе индексации.

  • Ответить

    Может Вас наведет это на какие-то размышления на счет капитализации. Есть запрос «доставка цветов Минеральные Воды». До начала декабря ТОП выдачи в яндекс был забит исключительно «доставкой водой». С начала декабря ситуация изменилась. Я не думаю, что все вдруг кинулись продвигаться по этому запросу. Но то, что яндекс стал отличать на этапе индексации «воды» от «Воды» выглядит вполне реальным. Хотя причин изменения конкретно этого ТОПа может быть масса.

  • Ответить

    Игорь, в Словообразовательном словаре русского языка А.Н. Тихонова (у меня издание 1990 года), и «сочить» и «насочить» есть, см. гнездо С.658. Яндекс.Словари от всего остального проиндексированного контента отличается тем, то контент(статьи словарей) находится на серверах Яндекса, а не его партнеров по этому проекту, — хоть какая-то редактура выкладываемого на свои сервера должна же быть…

  • Ответить
    Игорь Ашманов Сам себе компания

    Ну я лично никогда не встречал ТЕКСТА с этими самонужнейшими словами, только словарные статьи. В любом случае, слово «насочи» никак не может быть повелительным наклонением для «сочить». Для «сочить» повелительное — сочи. Которое и вызывает те самые проблемы с вашим любимых городом в Яндексе. Что касается «хоть какой-то редактуры» БСЭ, БЭС, Даля, Ушакова и прочего — вы, наверно, шутите. Да! Почему, кстати, Яндекс не верифицирует хоть как-то тексты сайтов, которые он закладывает в свой индекс?!

  • Ответить
    Альтер Эго

    и все опять бросились писать на сайтах: «Уважаемый Яндекс, пожалуйста, не удаляй мой сайт из индекса и поставь его на первое место по запросам: {здесь список запросов}» :-)

  • Ответить

    Игорь, почему вас смущает слово «редактура» — в этом нет ничего невыполнимого, даже более, без неё — ближе к халтуре, Кто конкретно из партнеров по проекту её проводит, и как другой партнер контролирует — личное дело этих партнеров, я сужу по конечному результату, а он не важен. Выгораживать одного партнера валя вину на другого — как-то не очень хорошо… Яндекс.Словари — это далеко не индексирование сайтов, это индексирование определенного контента, который удобнее иметь локально (и это не требует каких-либо сверхобычных усилий для храния). Поэтому ваше сравнение с индексирование сайтов здесь неуместно,

  • Ответить
    Игорь Ашманов Сам себе компания

    Редактирование словарей делали их авторы и издатели. Редактирование оцифрованной копии этих словарей — те, кто их издавал в цифровом виде, например Рубрикон, Лукойл-Информ и т.п. У Яндекса нет ни ресурсов, ни прав на редактирование. Эти права на издание стоят серьёзных денег, скажем, только права на несколько лет на БСЭ в компьютерной форме обошлись в своё время (году в 1997) Лукойл-Информу примерно в 400 тысяч долларов. А если ты не купил прав, то и выставлять и редактировать ничего тоже не можешь. Кроме того, в тех словарях, что я перечислял, результат отличный, количество ошибок сканирования ничтожно. Вместо того, чтобы раздувать одну замеченную ошибку, посчитайте, сколько их на страницу. К слову, БСЭ, Даля, БЭСсканнировал и редактировал в своё время Владимир Долгов (в Лукойл-Информе), и труда там было вложено много, работала масса народа. Качество оцифровки там очень хорошее.

  • Ответить

    Игорь, объясните, что значит «партнер» на этой странице: http://slovari.yandex.ru/about И почему вы, купив словарь Даля и выправив с его помощью сайт АиП, не можете на нем написать «Даль (или Рубрикон) — партнер АиП»…. Ошибка не одна, там их похоже море, вторую не долго пришлось искать: http://slovari.yandex.ru/dict/dal/article/dal/03131/73000.htm?text= У Яндекса: «Аз семь альфа и омега.», у Даля: «Азъ есмь альфа и омега»…

  • Ответить
    Альтер Эго

    Самое интересное в этом исследовании может быть «поиск нуля». Сочинцы, конечно, за «ноль» возьмут «Сочи». С учетом предстоящих в этом городе событий остальные «нули» на некоторое время могут быть принудительно девальвированы. Но выбранный, таким образом, «ноль» в самом ближайшем будущем ожидает крах, в виду его естественной девальвации.

  • Ответить
    Игорь Ашманов Сам себе компания

    Я договоров Яндекса с партнёрами не читал. Думаю, что означает это примерно следующее: партнёр в своё время купил права на воспроизведение словрей в электронной форме или разработал их самостоятельно. Часто, особенно в 90-х годах, такой договор на словарь означал, что покупатель прав ещё и обязуется самостоятельно оцифровать словарь и отдать обратно цифровую копию издательству, для использования прии здании новых печатных изданий. Я сам заключал договора на продажу компьютерных словарей с Издательством «Русский Язык» в 1995-1999 годах именно с этим условием. Естественно, при оцифровке исправление ошибок — ответственность того, кто цифрует. Правообладатель платит за продажу в электронной форме издательству авторские отчисления — т.н. роялти, а уж издательство рассчитывается с авторами. Далее обладатель прав на электронную версию заключил договор с Яндексом, разрешив Яндексу показывать словари у себя, за что Яндекс платит правообладателю а) деньгами, б) трафиком, в) брендингом или ещё как-то. Эти условия у всех, очевидно, разные. Для заключения такого договора у партнёра должно быть право передать право воспроизведения дальше (это должен позволять договор с издательством). Не думаю, что хотя бы один договор с партнёром из указанных на этой странице включает право или обязанность Яндекса править опечатки. Правка опечаток — чудовищно сложный труд. Если бы Вы видели, как работает корректор в хорошем издательстве, то не предполагали бы, что Яндекс может что-то там такое поправить. А я видел: корректор отмечает остро отточенным карандашом КАЖДУЮ букву в каждом прочитанном слове. И таких корректур — как минимум две. Так что Яндекс ничего править не может, может только сообщать партнёру о замеченных ошибках, а уж когда тот проведёт исправление очередного накопившегося пакета ошибок и передаст обратно новую версию для индексации — Бог весть.

  • Ответить

    Игорь, не рассказывайте сказки, вы здесь описали процесс перепродажи авторских прав, а не партнерство :) Партнерство предполагает участие двух компаний в проекте, и вам, как владельцу компании, должна быть хорошо известна поговорка «доверяй, но проверяй» в отношениях между разными юр. и даже физ. лицами. Поэтому выгораживать Яндекс за счет другого партнера — дело паршивое, уж простите за повтор. Поиск опечаток не такая уж и сложная работа, если я их нахожу по паре за полчаса… Я думаю, если бы Волож и Долгов (?) платили бы за каждую опечатку из своего кармана символические $2.71, как это делает дедушка Кнут — тогда бы поиск опечаток был бы таким, как вы описали :)

  • Ответить
    Игорь Ашманов Сам себе компания

    Максим, у вас что-то никак не пройдёт новогоднее похмелье, видимо. Ну чего вы со мной боретесь, да ещё в таком тоне? Никто вам сказок не рассказывает, а если вы читаете и не понимаете, это ваша проблема. Мне совершенно незачем выгораживать Яндекс, он сам по себе — отличный бизнес и уникальный сервис. Где вы ещё найдёте эти словари в онлайне, бесплатно? Я же занимался бизнесом по оцифровке и продаже словарей в компьютерной форме 5 лет, так что просто рассказываю, как оно на самом деле устроено, а не как вы себе это воображаете. Так вот, Яндекс.Словари — это и есть перепродажа прав на показ словаря. И у Яндекса именно такие договора. Потому что с правами обращаются аккуратно и никакой другой формы быть не может. А что за такое фигурное «партнёрство» вы выдумали, я не знаю. Актуальная версия словаря, в которую вносятся изменения, может быть только у одного партнёра, а именно у правообладателя, и никак не у Яндекса. Поиск опечаток — сложная работа, а то, что вы называете поиском — это глупость. Я думаю даже, что в тех страницах, что вы УЖЕ посмотрели, осталось ещё больше опечаток, не замеченных вами. Что касается «Аз семь альфа и омега.» При сканировании Даля и других словарей есть одна проблема: программ проверки правописания для старой орфографии — не существует. А распознавалка Finereader, которой и распознавали старые словари, всё время норовила заменить старые слова, а также слова с ером и ятями на известные ей русские слова в современной орфографии. Вычитать словари так, как это делают в настоящем издательстве, в Лукойл-Информе не было ни времени, ни людей. Это было попросту коммерчески неоправданно. Как и сейчас неоправданно для Яндекса. Что касается призов за поиск опечаток, мы применили недавно это к новому изданию нашей книги по оптимизации сайтов. Давали, между прочим, подписку на платную рассылку, не 2,71 доллара, а 100 долларов за опечатку. Да, некоторое количество опечаток было найдено, но профессиональный корректор находит их на порядок больше.

  • Ответить

    Я так думаю, что если бы старина Кнут не 2,71, а 2,87 и в рублях своим студентам посулил — то многие и наши пытливые студенты и понятливее стали бы, и опечатки бы нашли — безо всякого партнерства Всех с Новым годом!

  • Ответить
    Игорь Ашманов Сам себе компания

    Максим, в эпоху Интернета ни в чём нельзя быть уверенным, может, я как раз на вокзале в настоящий момент. Хамить начали вы — своей фразой про сказки, которые я якобы рассказываю. Я-то темой владею, в отличие от вас, это моя профессия. Наверно, это обидно, да? Я же вижу, что вы по существу спорить не можете, всё время меняете тему. Вы начали с глупостей про то, что повелительное наклонение глагола «сочить» — «насочи» (перепутав глаголы совершенного и несовершенного вида), теперь перекинулись на «Аз есмъ», придумали, что Яндекс должен сам выправить несколько десятков очень объёмных словарей, зачем-то выдумали какое-то мифическое партнёрство вместо реального договора по передаче прав. Про перлы о том, что повелительным наклонением глагола «трусить» является «бойся» — и говорить нечего, по-моему, такое на трезвую голову написать невозможно. Вам хочется обязательно поругать Яндекс? Это нормально, бывает у мужчин после 30, ну так и идите к ним в блог. Или у себя на сайте напишите, где никто не будет въедливо поправлять ваши перлы. Вот у вас есть своя поисковая машина, так? В ней же нет словарей, так? Это недостаток, лучше было бы со словарями, верно? Ну так найдите «партнёров», выставьте словари, заодно проверьте их на опечатки. Слабо?

  • Ответить

    Игорь, вы продолжаете свои сказки: 1, поднимите глаза и прочитайте: «нет «сочи» как повелительной формы глагола «сочить», есть «насочи».». Если вы прочитаои это как «насочи» — повелительная форма для «сочить» — извиняюсь, я не думал, что вам нужно будет разжевывать до мельчайших подробностей, или вы просто уже ищите за что прицепиться ? Глаголы «сочить» и «насочить» относятся к одному, вышеуказанному гнезду словообразовательного словаря Тихонова, и сказанное мною означает, что у «сочить» нет повелительной формы, есть только повелительная форма у глагола «насочить». 2. Про «бойся»: ну приведите на трезвую голову пример употребления «трусь» без отрицательной частицы «не» и не в составе оборота «трусь, не трусь, а…». Слабо ? 3. Не педалируйте из себя крутого специалиста — у вас это выглядит как своего рода комплекс Рамблера…

  • Ответить
    Игорь Ашманов Сам себе компания

    Максим, вы всё больше горячитесь, это не способствует взвешенной аргументации. 1. Значит, глагол «сочить» есть, а повелительного наклонения у него вдруг нет? Такие случаи, конечно, бывают — вот у глагола «победить» форма первого лица настоящего времени — затруднённая. От фонетических причин. Но вот что мешает глаголу «сочить» иметь повелительное наклонение? Вот почему у глагола «сочить» формы «сочи» нет, а у его ближайшего соседа по словоизменительному классу — глагола «мочить» — форма «мочи» есть? И «точи» есть, «учи» есть, «лечи» есть, а этот глагол, неприятный вам лично — ущемлён, почему это? Потому что ВЫ так решили? А почему в словарях эта затруднённая форма никак не обозначена? Забыли её всяккие Тихоновы, Зализняки, Дали и т.д.? 2. А у глагола «трУсить» тоже нет повелительного наклонения, потому что лично ВЫ ему не разрешаете? А в выражении «не трусь» что это за слово такое стоит вторым? Не существующая на самом деле форма? А «бойся» оказывается формой глагола «трусить», а не глагола «бояться»? Вы бы всё-таки похмелились, а уж потом писали сюда. 3. Я не крутой специалист, я просто — специалист. То есть здесь я говорил о своих профессиональных вопросах. Я машинными морфологиями профессионально занимаюсь с 1987 года, выпустил много разных продуктов с морфологией и словарями — ОРФО, МультиЛекс, Рамблер, Спамтест, Новотека, Флексум и ещё с десяток тому подобных. Везде приходилось разбираться с морфологией, окончаниями, словоформами и т.п. в приложении к поиску, переводу и проверке правописания. Это не магия, а простая рутина. Но её много и она несколько запутанная. А вы — совершенно очевидно не специалист, вы просто поговорить вышли. Это не страшно: если вы не специалист, то это не мешает разговаривать о специальных вопросах, просто нужно помнить, что данная область для вас не родная, поэтому не стоит выпендриваться и писать в запальчивости, делая всякие категорические высказывания. P.S. Кстати, к слову о замечательном Ispell: боюсь, его достоинства в вопросе о «сочи» объясняются просто бедностью его морфологической модели и словарей; насколько я помню, в ispell даже нет супплетивных форм, то есть формы с нулевой основной (двумя основами) типа «человек-люди», «идти-шёл» не поддерживаются. Ну, чего требовать от халявной технологии… Все, кто занимается поисковым и словарным бизнесом серьёзно, как правило, делают свою морфологию.

  • Ответить

    Игорь, этих форм нет, потому, что их нет :) Вам доказать очень просто, достаточно просто привести пример их употребления в живом языке, однако вы, как специалист, вместо этого успели еще раз меня оскорбить, еще раз привести перечень страшных проектов, в которых приняли участие, но так и забыли привести этот меленький пример… Боюсь с PS вы опять попали пальцем в небо, во-первых, словарь ispell составлялся на основе корпуса живого языка, а не вашей куздрявой грамматики, а во-вторых, в «холявной» технологии все впорядке с супплетивными формами: http://www.43n39e.ru/cgi-bin/search.cgi.ru?ps=10&np=0&dt=back&t=&c=&tmplt=janus.htm.ru&s=IRPD&m=near&g=&GroupBySite=yes&sy=0&rm=&wf=33F37FFF&dp=&sp=1&q= А вот ваш флексум, с вашим-то 20-летним опытом серьезной компьютерной морфологии, продолжает считать «соче» словоформой от «Сочи»: http://oficery.flexum.ru/?query=#p=3 Нет уж, такой профессионализм нам не нужен…

  • Ответить
    Игорь Ашманов Сам себе компания

    «Нет, потому что нет» — не может быть, потому что не может быть никогда? Ну-ну. Великие лингвистические открытия сыплются водопадом. Если «трусь» ходит в основном в составе выражения «не трусь», значит его не существует вовсе? То есть слово есть, но его нет. Типа как со словом «жопа», да? То вы в доказательство существования нелепого слова «насочить» ссылаетесь исключительно на словари, а то для вполне употребительного слова «трусь» требуете всенепременно примеры употребления в каком-то «живом языке». Вы уж выберите что-то одно — ИЛИ наличие в словарях, ИЛИ в языке. Вам нужно употребление «трусь» — ну и поищите его в Яндексе, найдёте кучу примеров употребления. [url=http://www.yandex.ru/yandsearch?text=+]Вот, например.[/url] Миллиона употреблений хватит? Боюсь, для «насочить» не найдёте ни одного, кроме примеров в словарях. А вот оскорблять вас даже не нужно стараться — вы всё делаете сами. Несёте запальчивую чушь и никогда не признаёте ошибок. При указании на ошибку считаете, что это вас стараются оскорбить. Продолжайте в том же духе и к 50 годам достигнете совершенства в построении своего полностью виртуального мира, где вы будете один великий властитель и гений. Насчёт такого классного ispell. Он, конечно, составлялся на основе корпуса и так далее. Что ж он тогда делает в точности все те же ошибки с глаголом «сочить» в вашем замечательном поисковике? Ищет «сочить» как миленький, находит, натурально, [url =http://www.43n39e.ru/cgi-bin/search.cgi.ru?ps=10&np=0&dt=back&t=&c=&tmplt=janus.htm.ru&s=IRPD&m=near&g=&GroupBySite=yes&sy=0&rm=&wf=33F37FFF&dp=&sp=1&q=] Сочи, как обычно [/url]. Та же фигня с «сочу», «сочат» и т.п. Всё превращается в Сочи. Всё есть в ispell и всё путается с Сочами. Где ж тот «живой русский язык»? Те же формальные словарные глаголы, не употребляющиеся в живом языке. Вообще, насколько я знаю, ispell составлялся не на основе «живого русского языка» (это Даль так составлялся), а на основе тыренного Грамматического словаря Зализняка, как и все существующие ныне машинные морфологии русского языка. Да, теперь, очевидно, у вас в поисковике «человек-люди» распознаётся, значит, как-то эта морфология всё-таки развивается. Я последний раз тестировал её что-то вроде два-три года назад, тогда ещё не было. А у Яндекса, Апорта и Рамблера всё было с 2000 года. А «идти-шёл» распознаётся, интересно? Что касается Флексума, то я уже объяснил выше, что морфология там простенькая, никакого сравнения с яндексовской. Она там вообще бессловарная. Со временем заменим на полновесную, которая у нас также имеется. Проекту меньше года, ему пока есть что развивать и без морфологии. Ищет пока нормально и ладно. То, что «вам такой профессионализм не нужен» — отлично видно из того, что вы вообще ничего не слышите в этой дискуссии, а просто подпрыгиваете повыше, чтобы доказать, что вы тоже что-то смыслите в этих морфологических делах. Я вам не сказал ничего, кроме прописных общеизвестных истин, но даже они вам не нужны, вы сами с усами. Ну и флаг в руки, оставайтесь знатоком того, каких слов в «живом языке» есть, а каких нет. Ну и поправьте наконец ошибку со словами «Сочи» и «сочат» в вашем поисковике http://www.43n39e.ru, а то уже сил никаких нет! Ведь это уже неприлично, в конце-то концов.

  • Ответить
    Игорь Ашманов Сам себе компания

    А, нет, есть, есть словоупотребления слова «насочить» не знаю, правда, в том ли смысле: «… Навлинский лесхоз на Брянщине по договору с местным райпищекомбинатом за прошлый сезон насочил всего 80 тонн.» «…Кто Федора Яруновича подослал, чтобы на отца нашего насочить хану?» «У меня уже получалось сдвоенные арты получать, но по арт-цепочке получалось только в 17-м году взять два ТМ. А твой способ крут! Еще бы потом из ЧД кварок насочить, чтоб не ждать крутых пушек…» Живой язык, фигли.

  • Ответить

    Игорь, проблема в вашей логике в том, что вы так и не продемонстировали нам наличие этой «жопы», а именно употребления «сочи» как повелительной формы глагола «сочить» в литературе. Ну зачем же мухлевать при помощи Яндеса ? Вас же просили найти употребление «трусь» как повелительной формы «трусить» (бояться) без отрицательной частицы не и не в составе оборота «трусь, не трусь, а..» В словаре ispell нет глагола «сочить», если его туда добавить, то проблема рассасывается сама-собой. Продемонстируйте нам как быстро вы поправите свой Флексум. :) Я уложился в час от написания вами. Время пошло, считайте это тестом на профессионализм.

  • Ответить

    Максим, я за Флексум отвечу вместо Игоря. Исправлять эту ошибку мы сейчас не будем (хотя ее, конечно, признаем). Во-первых, на «слабо» не ведемся. Во-вторых, делать нам действительно есть что и совсем не в области морфологии, а в удобстве использования сервиса и разных новых фичах для авторов поисков. В третьих, я не вижу большой беды в том что морфология срабатывает именно так, а вот беду с последующим тестированием поискового движка и его выкаткой — вижу (у нас не один поиск, а 2300, лемматизация осуществляется сразу после выкачки, чиня одно можем запросто сломать другое и заметить это только через неделю и т.п.). В четвертых, действительно, замена усекателя окончаний на словарную морфологию эту и многие другие аналогичные проблемы разрешит, но мы прийдем к этому естественным путем развития поискового движка, сейчас же нас больше волнует оперативность обновлений и поддержка больших объемов данных, а не морфология. Стоп-словарь мы обновим после праздников. Но, вообще, при создании программного продукта есть два способа исправить ошибку: действительно ее исправить, или упомянуть в документации. Второй путь превращает ее из «баги» в «фичу». Тот факт, что мы используем усекатель окончаний, я только что добавил в FAQ, в раздел «Технические детали»: http://support.flexum.ru/article/744 . Убедительная просьба, в следующий раз, если вы считаете что во Флексуме что-то сделано неверно, обращайтесь в нашу техническую поддержку по адресу support@flexum.ru . PS. С Новым годом!

  • Ответить

    надо поставить крестик (для памяти) на этом посте: вот есть такой простой парень Максим, который переговорил самого Ашманова

  • Ответить
    Игорь Ашманов Сам себе компания

    В словаре ispell ЕСТЬ глагол сочить. Посмотрите на ссылку в моём комментарии выше. Ваш поисковик искал и находил слова «сочить», «сочат», «сочу», прочие формы глагола. И распознавал их как слово «Сочи». Это происходило именно потому, что в словаре ispell есть глагольная парадигма для глагола «сочить». Это и есть ошибка, за которую вы ругмя ругали Яндекс и Вебальту на вашем сайте и в прочих форумах-блогах. Сейчас вы добавили его видимо, в стоп-словарь или в сновной словарь ispell, так что он у вас перестал связываться с «Сочи». И что? Вы «рассказывали сказки», пользуясь вашим же выражением, что ispell якобы построен на каком-то «корпусе живого русского языка», что очевидно — нелепость. И наличие в словаре «сочить» это ясно показывает. Ispell построен на том же самом словаре Зализняка, что и все машинные морфологии русского языка. Почему — это отдельная история, но вам она, очевидно, неинтересна, поскольку реальное устройство мира вас не интересует. Что касается употребления «сочи», то я вам его ни разу не обещал. Напротив, я пытался вам объяснить, почему Яндекс находит «сочиться» по запросу «Сочи». Потому что у него есть глагол «сочить» с повелительным наклонением «сочи». Естественно, это ошибка. Так ведь у вас происходило то же самое — по запросу «сочить» находились «Сочи». То есть вы не видели бревна в своём глазу, а гавкали, как Моська, на Яндекс, за соринку у него в глазу. Теперь вы — в результате этой дискуссии — наконец асилили что-то там поправить в своём поисковике. Ну и слава Богу. Спасибо скажите, что теперь у вас нет этой ошибки. Вы стали лучше Яндекса!!! Это повод отметить, по-моему! Рекомендую дижестивы типа Зубровки, они растворят накопившуюся желчь. Что касается приказа найти «трусь» без «не» — это вы лучше собаку свою попросите или тёщу. Впрочем, в Яндексе они найдут эти примеры без труда. Я же вовсе не для того захожу на Роем.ру, чтобы ваши нелепые и надуманные задачки решать. С «не» или без «не» — какое отношение это имеет к существованию или отсутствию слова в языке? Это вы не можете ответить на простой вопрос: если ЕСТЬ огромное количество вхождений выражения «не трусь» (как и «трусь, не трусь») в «корпусе живого великорусского языка», каковым по факту является Яндекс, то как это может быть, что этой формы глагола якобы не существует? Просто потому, что вам так захотелось? Вот если без «не» — существует, а если с «не» — то я запрещаю! Вы не пробовали Чёрному морю приказывать, чтобы оно отступило от ваших царственных ног? А вы в курсе, например, что глагол «щурить» вообще не употребляется без слова «глаз»? Значит ли это, что глагола «щурить» не существует?

  • Ответить

    Игорь: >Ispell построен на том же самом словаре Зализняка, что и все >машинные морфологии русского языка. >Почему — это отдельная история, но вам она, очевидно, неинтересна, >поскольку реальное устройство мира вас не интересует. А мне очень интересно, расскажете?

  • Ответить

    Сидел. Щурился на солнышке. Тихонько пискнул ноут. Ашманов. Опять пальцем в никуда. Словари для русского ispell здесь: http://scon155.phys.msu.su/~swan/orthography.html Там же история его составления. В последней версии слова «сочить» нет, можете самолично убедиться, Есть «сочиться» но это не то, :) То, что вы видели — это работа алгоритма подбора морфологии для незнакомых слов (отсутсвующих в словаре).

  • Ответить
    Игорь Ашманов Сам себе компания

    Максим, «щурить» и «щуриться» — это разные глаголы. Странно, что приходится это простейшее обстоятельство объяснять. Вот именно потому, что обычный глагол «щурить» переходный, а «щуриться» — нет, вы можете употреблять «щуриться» самостоятельно — потому что дополнения не требуется. А у щурить есть всего одно употребляемое дополнение — глаз. Если вы вдруг тут же, в том же посте, пишете, что «сочить» и «сочиться» — «это не то», разные глаголы, один в ispell есть, а другого нету, то как же вы не различаете возвратный глагол и его обычного родственника? Как это объяснить — проидуриваетесь нарочно? А очень просто: вы вряд ли придуриваетесь специально, просто голову не включаете. Вам обидно, вы бросаетесь спорить, пишете чушь в запальчивости, и единственное, что вам остаётся — это стараться не вспоминать, что вы сказали три поста назад. Напомню, например, вы говорили, что повелительное наклонение глагола «трусить» — это «бойся». Не стыдно? А ещё говорили, что формы «трусь» в русском языке не существует. Вы не помните уже, а я помню. Итак, когда я искал в вашем поисковике «сочить», а находил «Сочи» — это работа бессловарной морфологии, которая строит гипотезы в ispell? Ну допустим. Так что ж вы всё это время до сегонядшнего дня к Яндексу цеплялись, котрый по сути делает то же самое?

  • Ответить
    Игорь Ашманов Сам себе компания

    И вот ещё один пример того, Максим, как вы слушаете и не слышите, читаете и не видите. На странице, которую вы же даёте, автор ispell пишет, что начал он с некоего 50-титысячного словаря русских лексем, составленного Далтоном. Но только потом он его пополнил и выверил по словарю Зализняка. А поскольку сам автор пишет, что теперь у него 130 тысяч слов, то ясно, что именно произошло — была сварена каша из топора. В конце концов мусор был выброшен, был взят словарь Зализнякаи добавлены современные слова и специальные термины, которых в нём нет. Естественно, использовались другие орфографические словари, в том числе Лопатин. Таким путём шли и вообще ВСЕ создатели работающих машинных морфологий, Зализняка никто не смог миновать. И это естественно, потому что именно блестящий, отличнейший словарь Зализняка даёт полную и точную русскую грамматику, которая, в отличие от большинства грамматических словарей, практически готова для программирования «как есть», и притом на материале в 100 тысяч основ. Но он же даёт и и «лишние» для задач анализа текстов и поиска лексемы, наподобие»сочить». Это приходится править вручную. Кроме всего прочего, Зализняк был доступен в электронной форме с конца 1990-х годов, благодаря Машинному Фонду Русского Языка В.М.Андрющенко. Я лично взял у Анрющенко машинную копию Грамматического словаря в 1988 году, для использования в программе ОРФО. Соответственно, и «Ортодок», и «Пропись», и «Корректор», и «Литера» и прочие тогдашние спеллинг-чекеры опирались на него же. Так что и сейчас в Яндексе, и в Лингво, и в Апорте, и в Рамблере, и в Мете, и Гоге (я так думаю), и в ispell — тот же самый Зализняк. Конечно, переработанный под задачу.

  • Ответить
    Альтер Эго

    Максим, вот вы гордитесь, что за час обработали одно исключение. Но проблема ведь осталась Ищу «сочь», нахожу «сок» http://s.sochi.org.ru/cgi-bin/search.cgi.en?q= А в русском языке должно находиться «сог» (беречь-берег, мочь-мог). И ведь «мочь» нормально обрабатывается…. Хотя, конечно, любимый всеми глагол «интить» у вас как у всех: http://s.sochi.org.ru/cgi-bin/search.cgi.ru?ps=10&np=0&dt=back&sy=0&sp=1&s=IRPD&tmplt=janus.htm.ru&m=near&c=01&GroupBySite=yes&wf=33F37FFF&q=

  • Ответить

    Тщетно гражданин А. пытался щурить недели две, но век-то не было. Игорь, по-моему, взять чужой словарь, составленый из текстов, причесать при помощи орфографического словаря, «одновременно в словарь было добавлено большое число слов, взятых из технических и литературных текстов.» (эту часть вы скромно не прочитали) — как раз больше соответсвует моему «построен на основе живого языка», нежели вашему «построен на том же словаре Зализняка, что и остальные». Исследователь букф, «сочь» и «интить» еще не стали словарными словами русского языка :) Врочем, добавить-то не долго :]

  • Ответить
    Альтер Эго

    Вот именно, не стали. Но почему если я ищу «интить», мне подсовывают какую-то хрень ? Это такая словарная морфология ?

  • Ответить

    iseg: > Мы будем сообщать в гораздо большем числе случаев об исправлениях и давать > возможность пользователю убедиться, что по исходному варианту запроса > действительно (почти) ничего не найдено. Поправили, работает со вчерашнего дня.