А какая связь между грузинским конфликтом и отменой IPO Яндекса в 2008’ом? Как вы помните, тогда обрушились американские деривативы, утопив Lehman Brothers, уронив индекс NASDAQ на 40%, и похоронив карьеры эдак трети инвест-банкиров по всему миру.
В каком-то смысле поиск Apple уже давно запустила: Spotlight на десктопе и мобильниках, «колдунщики» по Wiki, Yelp и AppStore в том же Spotlight, поиск на картах, поиск в iTunes.
В обсуждаемой вакансии никакого инсайда нет. Судя по тому, что вакансия открыта в San Francisco, это бывшая Topsy ищет мальчика/девочку, которая поможет не продолбать миллион мелких проектов, которые творятся на бэкэндах уже запущенных поисковых сервисов.
Если Apple в ближайщие три года запустит поиск по Web, я лично буду очень удивлен, проект такого объема почти невозможно утаить от отрасли: нужно нанимать тысячи людей и несколько лет шерстить интернет на всех парах. Про менее амбизиозный поисковый проект FB, скажем, знали примерно все.
Ну и совершенно не заметно какой-либо активности Apple в области контекста, а этот проект в чем-то будет посложнее и подольше запуска Yet Another Web Search.
Чем, простите, Яндекс так хорош, если по собственным анализаторам Ашманова он уступает и Google и Mail.ru в качестве поиска: http://analyzethis.ru/?lang=ru&location=ru Почему хоть кто-то должен помогать Яндексу, если он считает не нужным инвестировать в себя, а занят возвратом денег своим американским бенефициарам?
Google, конечно, использует машинное обучение в ранжировании. А как конкретно, почему именно так, могли бы сказать только сотрудники соответствующей группы, но не скажут.
KPI — Key Performance Indicator http://ru.wikipedia.org/wiki/KPI Формальная метрика, которая должна позволять оценивать состояние дел у человека/направления. Некоторые метрики http://analyzethis.ru/ вполне сойдут за KPI соответствующих групп.
Только поймите меня правильно. У них скрытый текст не для поисковой оптимизации, это особенность верстки, которая не влияет на ранжирование, а лишь создает некоторое количество «глупостей» на выдаче. Но это уже проблемы нашей работы с HTML. Вспомните тред про: «Конкурентам — привет» на company.yandex.ru.
Уважаемые анонимы. Токенизатор ссылок поправили в тот же день, что я написал пост на roem. Через несколько дней благораря этому исчезла упячка с [a5] и [b9]. Токенизатор текстов можно исправить только вместе с полной переиндексацией. Ждем удобного момента. Спасибо за внимание к проблемам разбора HTML в поиске Яндекса.
Господа, спасибо вам за вашу бурную реакцию и живой интерес ;) Да, эта страница нерелевантна запросу [a5]. Причины ясны. Википедия имеет на страницах «скрытый текст». Посмотрите на HTML: Источник — «http://ru.wikipedia.org/wiki/» В линках тоже встречается. Конечно, это проблема нашего токенизатора, который мог бы и должен с %-последовательностями работать так же, как и с HTML entities. Это обидная ошибка/недочет. Будет исправлена в рабочем порядке. Еще раз спасибо за интерес и поддержку ;)
> Денис, а почему Вы так резко прореагировали? > Вроде бы никакая конкретная компания или человек не назывались. Синодов, завези троллей поумнее. Ресурс гибнет. Уже какой пост в теме, а мы еще не вышли на тему иммиграции.
> позволяют целыми днями решать задачи из Эйлера > посылают за счет компании на конференции в Пекин и Барселону > отправляют на неделю в Петрозаводск Ух ты. Где это?
> А Вы не могли бы огласить полный список? Я думаю, что его не существует в природе за ненадобностью. Самое полное из существующего — moikrug.ru. Как вытащить из него данные без обхода и парсинга — не знаю. А не посчитано ли то, что вас интересует, тут: http://moikrug.ru/companies/548669435/ ?
BB>> Хотя я именно в данной ситуации (с хантингом яндекса, особенно в этой интерпретации) лицо пристрастное — чать людей знает, кем я там работал. И мне местами тяжело матом не говорить. Ибо то, что получилось…. Время покажет. Давай как-нибудь пересечемся? Я твои полунамеки честно не понимаю.
> А вот мой личный опыт это утверждение не подтверждает. Московский гугл платит своим интёрнам больше, чем Яндекс младшим разработчикам. Аноним, дойди до меня или anatolix@’а, пожалуйста. Лучше вживую, чем на roem ;)
BB>> Ден, ты уж извини — а кто все эти люди? Ну а кто мы с тобой? ;) Ситуация с большой четверкой предельно ясна. Российский офис google перестал питать иллюзии, кризис был тому толчком. Часть людей уходит, часть людей уезжает в «работающие» офисы google, часть не хочет уезжать, части не предлагают, но и не увольняют. Rambler часть людей растерял при очередных перетрясках, сейчас начинает «отстраиваться» сверху, скупает плохо устроенные имена. Mail, Яндекс — стабильны, Яндекс хантит больше и смелее.
Как меня утомило. OK. Во-первых, говоря «доверительный интервал» мы не определяем автоматически методику его расчета. Есть два подхода — фреквентистский и байесовый. При фреквентистском мы не позволяем себе вычислять вероятности событий в пространстве неизвестного, но фиксированного параметра (по-английски confidence interfal), при байесовом — позволяем (по-английски credible interval). В фреквентистском мы фиксируем статистику и тест, принимающий или отвергающий гипотезу о значении неизвестного параметра, потом ищем интервал неизвестного параметра, при котором мы принимаем гипотезу при наших результатах эксперимента с нужной степенью достоверности. В байесовом мы предполагаем известным распределение результатов эксперимента, а распределение неизвестного параметра принимаем априорно равномерным. После чего ищем апостериорное распределение и ищем нужные (a/2, 1-a/2) квантили. Для биномиального распределения можно доказать, что апостериорное распределение неизвестного параметра описывается соответствующей бета-функцией. Обращая ее получим приведенный мною интервал. Если m != n/2, то распределение бета-функции будет несимметричным => несимметричным будет доверительный интервал. Я, наверное, запутаю, но можно решить ту же задачу проще при фреквентистском подходе. Пусть тест (Clopper-Pearson) будет следующим: при заданном исходе мы принимаем гипотезу о значении неизвестного параметра при уровне достоверности a, если вероятность попадания числа исходов в [m, n] будет больше (1+a/2) и вероятность попадания числа исходов в [0, m] будет больше (1+a/2). Нужные скрины выкладок в mathcad (в том числе та самая несимметричная плотность): http://img-fotki.yandex.ru/get/3602/denraskovalov.f/0_2e2d7_96e840fa_XL.jpg Интервал получается немного другим, но тоже несимметричным. Зато без бета-функции проще представить (лично мне).
Значение статистики для мат. ожидания — 0.7. Симметричный доверительный интервал может быть несимметричен, если не симметрична плотность. Плотность для биномиальной с p != 0.5 не симметрична.
> Например то, что с вероятностью 0.9 вероятность выпадения решки находится в [0.45, 0.86]. Тьфу, что с уровнем достоверности 0.9. PS Рашид Ильфатович, я никому не скажу, что вы читали мне тервер ;)
> Монету, на вид вроде симметричную, подкинули 10 раз, выпало 7 решек, что можете сказать о монете? Например то, что с вероятностью 0.9 вероятность выпадения решки находится в [0.45, 0.86].
> Проверка гипотез по одному наблюдению — жто реально круто, а вот сам доверительный интервал по одному набл. — круто уже просто нереально. Горе мне, горе. Задача и правда не должна вводить в ступор, ибо постановка привычна для статистики и решение тривиально. Для уровня достоверности x, оценка вероятности выпадения решки — 1, с доверительным интервалом [1 — x, 1]. Мозг вправился.
> Так про это и был вопрос. «ведущий разработчик поисковых систем» «эсперт-специалист по машинному обучения» должен был разбираться в таких совершенно простых примерах и хотя бы, иметь простейшее представление о байесовском методе Это кто такой?
Нет, не меня. Но то, что вы написали, приводит меня в ступор, да. Не ясна постановка задачи. Что есть «монета»? Если привычная для задач по тер. веру материальная реализация бернуллевской случайной величины с вероятностью исходов {1/2, 1/2}, то ответы очевидны. Если автор пытается сообщить нам, что «монета» — это объект с вероятностью исходов {p, 1 — p} и просит найти p, то в этом случае, если пользоваться методом максимального прадоподобия, то да, p = 1, монета падает только на решку.
> По-моему, кстати, давать задачки при найме — чудовищная глупость, просто поглаживание эго основателей и текущего менеджмента А что нужно делать при найме?
Стыдно. Работаем. В семейном поиске фильтр порно очень жесткий (высокая полнота при низкой точности). Сделать фильтр нужной полноты и точности — просто. Просто убрать все порно по всем запросом нельзя — слишком часта эта поисковая потребность. Сложно понять, когда пользователь не обидится, увидев порно.
Добавлю. Тестовый кластер, на котором работала публичная бета нам понадобился для тестирования новых механизмов. Был период, в течении которого публичная бета не являлось бетой «Находки». Надеюсь, ни одного инфаркта не было спровоцировано ;)
> А почему по всевозможным названиям фильмов, включая пример поискового запроса в яндексовском новостном сообщении подсовываются imdb сайты вместо навигационных? Наши алгоритмы обхода и ранжирования все равно рассчитаны на русскоязычного пользователя. Обучаются алгоритмы на основании некой статистической информации. После обучения могучих алгоритмов оказалось, что пользователю из России http://southlandtales.com к примеру менее интересен, чем http://www.imdb.com/title/tt0405336 Вкратце так.
> Не более 1 результата, только по не русским запросам — по-моему это костыль… Нет. Это прежде всего желание не навредить. Соберем отзывы, статистику, поймем, не сделали ли дырок для дорвейщиков, оптимизаторов, тогда и изменим правила.
Дискуссии пользователя
А какая связь между грузинским конфликтом и отменой IPO Яндекса в 2008’ом? Как вы помните, тогда обрушились американские деривативы, утопив Lehman Brothers, уронив индекс NASDAQ на 40%, и похоронив карьеры эдак трети инвест-банкиров по всему миру.
> Забавно, когда об искусственном интеллекте рассуждает менеджер.
Это, правда, всегда забавно. Но когда инженер рассуждает о планах менеджера, это, поверьте, еще забавней :)
> Для обработки текстов DL не дает значимого улучшения.
Только не рассказывайте про это вот этим ребятам, расстроятся еще:
http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-
DeepLearning.pdf
В каком-то смысле поиск Apple уже давно запустила: Spotlight на десктопе и мобильниках, «колдунщики» по Wiki, Yelp и AppStore в том же Spotlight, поиск на картах, поиск в iTunes.
В обсуждаемой вакансии никакого инсайда нет. Судя по тому, что вакансия открыта в San Francisco, это бывшая Topsy ищет мальчика/девочку, которая поможет не продолбать миллион мелких проектов, которые творятся на бэкэндах уже запущенных поисковых сервисов.
Если Apple в ближайщие три года запустит поиск по Web, я лично буду очень удивлен, проект такого объема почти невозможно утаить от отрасли: нужно нанимать тысячи людей и несколько лет шерстить интернет на всех парах. Про менее амбизиозный поисковый проект FB, скажем, знали примерно все.
Ну и совершенно не заметно какой-либо активности Apple в области контекста, а этот проект в чем-то будет посложнее и подольше запуска Yet Another Web Search.
Чем, простите, Яндекс так хорош, если по собственным анализаторам Ашманова он уступает и Google и Mail.ru в качестве поиска: http://analyzethis.ru/?lang=ru&location=ru Почему хоть кто-то должен помогать Яндексу, если он считает не нужным инвестировать в себя, а занят возвратом денег своим американским бенефициарам?
Google, конечно, использует машинное обучение в ранжировании. А как конкретно, почему именно так, могли бы сказать только сотрудники соответствующей группы, но не скажут.
solar, +1 :)
KPI — Key Performance Indicator http://ru.wikipedia.org/wiki/KPI Формальная метрика, которая должна позволять оценивать состояние дел у человека/направления. Некоторые метрики http://analyzethis.ru/ вполне сойдут за KPI соответствующих групп.
Тут пить не умеют? Да я тут вообще не просыхаю.
Ссылки — главный столп? Смешно.
> Андерсен консалтинг Дожили. Поддельные Alter Ego detected ;)
Хм. «Что-то типа pfound» для Яндекса могут измерять только в Яндексе и g-word company.
> Яндекс 23 числа, в день установки на Рамблер, выкатил какой-то новый алгоритм, по качеству круче Матрикснета и Спектра. А что вы измеряете?
> имеющим двойные стандарты Да, маловато. Для серьезной должности нужны четырех-, пяти-кратные.
> Расковалов (руководитель отдела качества поиска) … и будет, как всегда, в когне непгав … (с)
Галь, я тебе завтра скажу, кто такой lamot. Хотя догадаться не трудно ;) И это не я.
Только поймите меня правильно. У них скрытый текст не для поисковой оптимизации, это особенность верстки, которая не влияет на ранжирование, а лишь создает некоторое количество «глупостей» на выдаче. Но это уже проблемы нашей работы с HTML. Вспомните тред про: «Конкурентам — привет» на company.yandex.ru.
Да. Википедии можно.
Уважаемые анонимы. Токенизатор ссылок поправили в тот же день, что я написал пост на roem. Через несколько дней благораря этому исчезла упячка с [a5] и [b9]. Токенизатор текстов можно исправить только вместе с полной переиндексацией. Ждем удобного момента. Спасибо за внимание к проблемам разбора HTML в поиске Яндекса.
vnaz, чтобы страница находилась, достаточно линка с таким текстом.
Господа, спасибо вам за вашу бурную реакцию и живой интерес ;) Да, эта страница нерелевантна запросу [a5]. Причины ясны. Википедия имеет на страницах «скрытый текст». Посмотрите на HTML: Источник — «http://ru.wikipedia.org/wiki/» В линках тоже встречается. Конечно, это проблема нашего токенизатора, который мог бы и должен с %-последовательностями работать так же, как и с HTML entities. Это обидная ошибка/недочет. Будет исправлена в рабочем порядке. Еще раз спасибо за интерес и поддержку ;)
Всем чмоки в этом чати. Посвященный, ты уже переехал?
> Может ты просто не умеешь их готовить? Смайлики забываю ставить ;)
> Денис, а почему Вы так резко прореагировали? > Вроде бы никакая конкретная компания или человек не назывались. Синодов, завези троллей поумнее. Ресурс гибнет. Уже какой пост в теме, а мы еще не вышли на тему иммиграции.
Alter Ego — туповатый тролль хе-хе-хе
> позволяют целыми днями решать задачи из Эйлера > посылают за счет компании на конференции в Пекин и Барселону > отправляют на неделю в Петрозаводск Ух ты. Где это?
> А Вы не могли бы огласить полный список? Я думаю, что его не существует в природе за ненадобностью. Самое полное из существующего — moikrug.ru. Как вытащить из него данные без обхода и парсинга — не знаю. А не посчитано ли то, что вас интересует, тут: http://moikrug.ru/companies/548669435/ ?
> Хотя, думаю, отлично понимаешь Все там будем.
BB>> Хотя я именно в данной ситуации (с хантингом яндекса, особенно в этой интерпретации) лицо пристрастное — чать людей знает, кем я там работал. И мне местами тяжело матом не говорить. Ибо то, что получилось…. Время покажет. Давай как-нибудь пересечемся? Я твои полунамеки честно не понимаю.
AE> Не волнуйся, и дойдет, и превзойдет, со временем… Ногами дойди, с целью поговорить, для непонятливых ;)
> А вот мой личный опыт это утверждение не подтверждает. Московский гугл платит своим интёрнам больше, чем Яндекс младшим разработчикам. Аноним, дойди до меня или anatolix@’а, пожалуйста. Лучше вживую, чем на roem ;)
BB>> Ден, ты уж извини — а кто все эти люди? Ну а кто мы с тобой? ;) Ситуация с большой четверкой предельно ясна. Российский офис google перестал питать иллюзии, кризис был тому толчком. Часть людей уходит, часть людей уезжает в «работающие» офисы google, часть не хочет уезжать, части не предлагают, но и не увольняют. Rambler часть людей растерял при очередных перетрясках, сейчас начинает «отстраиваться» сверху, скупает плохо устроенные имена. Mail, Яндекс — стабильны, Яндекс хантит больше и смелее.
> последние пол-года народ из Яндекса и Гугла А http://michael-levin.moikrug.ru/ http://lidiya-tretyakova.moikrug.ru/ http://ivan-lapshov.moikrug.ru/ http://puvar.moikrug.ru/ http://vadimantonov1.moikrug.ru/ (и еще не один замечательный человек) и не знают ;)
Вместо 1+a/2 читать (1+a)/2. На рисунке верхняя и нижняя границы перепутаны, да.
Как меня утомило. OK. Во-первых, говоря «доверительный интервал» мы не определяем автоматически методику его расчета. Есть два подхода — фреквентистский и байесовый. При фреквентистском мы не позволяем себе вычислять вероятности событий в пространстве неизвестного, но фиксированного параметра (по-английски confidence interfal), при байесовом — позволяем (по-английски credible interval). В фреквентистском мы фиксируем статистику и тест, принимающий или отвергающий гипотезу о значении неизвестного параметра, потом ищем интервал неизвестного параметра, при котором мы принимаем гипотезу при наших результатах эксперимента с нужной степенью достоверности. В байесовом мы предполагаем известным распределение результатов эксперимента, а распределение неизвестного параметра принимаем априорно равномерным. После чего ищем апостериорное распределение и ищем нужные (a/2, 1-a/2) квантили. Для биномиального распределения можно доказать, что апостериорное распределение неизвестного параметра описывается соответствующей бета-функцией. Обращая ее получим приведенный мною интервал. Если m != n/2, то распределение бета-функции будет несимметричным => несимметричным будет доверительный интервал. Я, наверное, запутаю, но можно решить ту же задачу проще при фреквентистском подходе. Пусть тест (Clopper-Pearson) будет следующим: при заданном исходе мы принимаем гипотезу о значении неизвестного параметра при уровне достоверности a, если вероятность попадания числа исходов в [m, n] будет больше (1+a/2) и вероятность попадания числа исходов в [0, m] будет больше (1+a/2). Нужные скрины выкладок в mathcad (в том числе та самая несимметричная плотность): http://img-fotki.yandex.ru/get/3602/denraskovalov.f/0_2e2d7_96e840fa_XL.jpg Интервал получается немного другим, но тоже несимметричным. Зато без бета-функции проще представить (лично мне).
Значение статистики для мат. ожидания — 0.7. Симметричный доверительный интервал может быть несимметричен, если не симметрична плотность. Плотность для биномиальной с p != 0.5 не симметрична.
> Например то, что с вероятностью 0.9 вероятность выпадения решки находится в [0.45, 0.86]. Тьфу, что с уровнем достоверности 0.9. PS Рашид Ильфатович, я никому не скажу, что вы читали мне тервер ;)
> Монету, на вид вроде симметричную, подкинули 10 раз, выпало 7 решек, что можете сказать о монете? Например то, что с вероятностью 0.9 вероятность выпадения решки находится в [0.45, 0.86].
> Проверка гипотез по одному наблюдению — жто реально круто, а вот сам доверительный интервал по одному набл. — круто уже просто нереально. Горе мне, горе. Задача и правда не должна вводить в ступор, ибо постановка привычна для статистики и решение тривиально. Для уровня достоверности x, оценка вероятности выпадения решки — 1, с доверительным интервалом [1 — x, 1]. Мозг вправился.
> Так про это и был вопрос. «ведущий разработчик поисковых систем» «эсперт-специалист по машинному обучения» должен был разбираться в таких совершенно простых примерах и хотя бы, иметь простейшее представление о байесовском методе Это кто такой?
Нет, не меня. Но то, что вы написали, приводит меня в ступор, да. Не ясна постановка задачи. Что есть «монета»? Если привычная для задач по тер. веру материальная реализация бернуллевской случайной величины с вероятностью исходов {1/2, 1/2}, то ответы очевидны. Если автор пытается сообщить нам, что «монета» — это объект с вероятностью исходов {p, 1 — p} и просит найти p, то в этом случае, если пользоваться методом максимального прадоподобия, то да, p = 1, монета падает только на решку.
> По-моему, кстати, давать задачки при найме — чудовищная глупость, просто поглаживание эго основателей и текущего менеджмента А что нужно делать при найме?
http://projecteuler.net/index.php?section=profile&profile=tolstopuz — наш ответ Митричеву ;)
Стыдно. Работаем. В семейном поиске фильтр порно очень жесткий (высокая полнота при низкой точности). Сделать фильтр нужной полноты и точности — просто. Просто убрать все порно по всем запросом нельзя — слишком часта эта поисковая потребность. Сложно понять, когда пользователь не обидится, увидев порно.
Добавлю. Тестовый кластер, на котором работала публичная бета нам понадобился для тестирования новых механизмов. Был период, в течении которого публичная бета не являлось бетой «Находки». Надеюсь, ни одного инфаркта не было спровоцировано ;)
Да, не очень корректно промолчали о закрытии. Бету закрыли, как уже не нужную. Мы собрали достаточный нам отклик. Всем спасибо за помощь ;)
> А чего от Visual Basic отказались? Никто от него не отказался. Попроцессить чиселки в Excel на VBA — милое дело.
Поделюсь еще одним жарким «сливом». При разработке поиска используется vim и python — проекты, лиды которых работают в google ;)
> А почему по всевозможным названиям фильмов, включая пример поискового запроса в яндексовском новостном сообщении подсовываются imdb сайты вместо навигационных? Наши алгоритмы обхода и ранжирования все равно рассчитаны на русскоязычного пользователя. Обучаются алгоритмы на основании некой статистической информации. После обучения могучих алгоритмов оказалось, что пользователю из России http://southlandtales.com к примеру менее интересен, чем http://www.imdb.com/title/tt0405336 Вкратце так.
> Не более 1 результата, только по не русским запросам — по-моему это костыль… Нет. Это прежде всего желание не навредить. Соберем отзывы, статистику, поймем, не сделали ли дырок для дорвейщиков, оптимизаторов, тогда и изменим правила.