На Lenta.ru появился очередной гость из "Яндекса". Сейчас это был Андрей Стыскин - глава отдела ранжирования "Яндекса". Рассказал что:
в поисковом индексе только русских документов более 5 миллиардов, еще в два раза больше — на других языках. Факторов ранжирования сейчас около восьми сотен. Среди них есть посещаемость сайта, страницы, ссылки на документ, предпочтения пользователей по конкретным запросам. Поисковик накладывает на ранжирование индекс пользовательских намерений. Например, по одним запросам пользователь хочет с большей вероятностью увидеть энциклопедическую информацию, по другим — мультимедийный контент, по третьим — сделать покупку. (анализ выдачи - умирает, если не умер - Roem.ru)
Мы создаем этот список на основании анализа логов поведения пользователя. "Яндекс" получает в день около 200 миллионов запросов, по каждому из которых пользователь кликает — опять-таки в среднем — на два сайта. Не очень показательно, если на сайт просто часто переходят по данному запросу. Другое дело, как дальше пользователь взаимодействует с этим сайтом и поисковой выдачей — по этим вещам уже можно судить, нашел ли он там то, что искал. Информацию о переходах компания получает прежде всего от браузеров. (если ваш сайт хороший - продвигайте Я.Браузер. Если плохой - не продвигайте - Roem.ru)
Например: мы научились для запросов класса "смотреть онлайн" оценивать вероятность того, что пользователь действительно что-то посмотрел на данной странице. Для видеохостингов — узнавать, сколько процентов данного ролика просмотрел пользователь, прежде чем закрыть вкладку. Понятно ведь, что если ролик не стали смотреть, значит он не очень соответствовал ожиданиям. (Печально только, что у Google данных по смотрению видео чуть больше - Roem.ru)
Последние предложения Минкульта о изменении позиций "белых" "серых" сайтов вообще не реализуемы. У нас же машинное обучение, зеркало, отражает именно то, что хотят найти пользователи, мы вообще никогда не вмешиваемся в поиск "вручную". (Тут "Яндекс" проигрывает Google - он давно чистит выдачу по DMCA. - Roem.ru)
В качестве обучающей выборки для "Крипты" использовались поисковые запросы миллиона людей из "Моего круга", где мы знаем пол и возраст человека и эти данные с большой вероятностью соответствуют действительности.
У нас есть целый отдел для борьбы с обманом поисковой машины. Возьмите хваленый алгоритм pagerank, анализирующий граф ссылок на страницах. Когда оптимизаторы поняли, как он работает, сеть стала просто забита ссылками, и сейчас pagerank не имеет практически никакого смысла.
Полностью: Лента.ру: Главный специалист «Яндекса» по ранжированию рассказал о персонализации и счастье пользователей.
Добавить 8 комментариев
Это Амит Яндекса?
оценивать вероятность того, что пользователь действительно что-то посмотрел на данной странице. Это по длительности промежутка до следующего события в логах яндекса? Ни хрена себе Математика!
А сапа как работала, так и будет..
сеть стала просто забита ссылками, и сейчас pagerank не имеет практически никакого смысла И в прошлом веке уже не имел, если верить в растолкованный PageRank. Да, наверное это так и есть, но про причине отсталости технологий всяких яндексов с гуглами — ссылочные биржи никак не умрут. Что вынуждает яндексоидов упорствовать в своём любимом пиаре. Кукуц, нам тут тебя очень не хватает!
Ну про смерть ссылок надо читать так «так как мы занепотили 95% доноров, то вы задолбаетесь подносить деньги в сапу». Они просто хотят сделать SEO таким же дорогим, как контекст.
Всё было бы гораздо интереснее, если бы за каждую размещённую ссылку биржи просто заносили Яндексу дольку малую. И сеошники живы, и поисковая система не в обиде, и мир и интернетах.
У нас есть целый отдел для борьбы с обманом поисковой машины. Расскажу кому-нибудь с Яндекса, как подзаработать на поиске, ну и как еще одно средство от обмана. Может пригодится. За одно могу еще рассказать про сегмент, на котором тоже можно подзарабатывать. В целом, могу озвучить, эффективность сами оцените. :)))
Дело за малым: корректно обрабатывать PDF