Новостник и разработчик админки Forbes, Тэйлор Були, со ссылкой на неназываемого спикера из Google, рассказал, что поисковик умеет парсить и понимать некоторые JavaScript.
C одной стороны это значит, что роботы Google могут взаимодействовать с сайтом как человек, за счет время обхода сайта таким роботом может сильно возрастать. С другой - Google может получать больше информации из, так называемого, "глубокого веба": страниц, которые формируется по запросу пользователя и недоступны обычным переходом по ссылке.
При этом эксперты сходятся во мнении, что "толкование" самого кода является слишком сложной задачей для компьютера, поэтому его исполнение позволяет получать информацию из JavaScript-кода самым простым путем.
"Глубокий веб" (Deep web или invisible web) это часть Интернета, по каким-либо причинам не индексируемого поисковыми машинами. Например, сайты, контент которых доступен лишь зарегистрированным пользователям, или базы данных, которые выдают данные лишь в ответ на запрос пользователя. Считается, что объем информации в "глубоком вебе" намного больше, чем в проиндексированной части Сети.
Добавить 9 комментариев
***Флуд***
Опера в своём Мини (на серверах его поддержки) делает то же самое уже очень давно. Быстро, масштабируемо, надёжно.
Бред. Google выполняет JavaScript уже как минимум 5 лет, это вам любой дорвейщик подтвердит. Используется это при ранжировании или нет — не знаю, но получить бан автоматом за неспортивное поведение с JavaScript проще простого. Для простейшего выполнения JavaScript на сервере есть библиотека на perl.
Для выполнения JavaScript на сервере существует очень много средств, включая хрень для дельфи. Сложнее с DOM, но Опера же асилила.
IMHO гугл мало интересует парсинг и понимание Скрипта. Его, как поисковик, интересует человеко-видимое содержание сайта. Из кода разных типов надо построить некий «скриншот» Страницу — просто что бы знать — имеет ли смысл отправлять на по какому-либо запросу? И какую рекламу подвешивать рядом? Раньше (на добродетельных сайтах) было прямое соответствие между строками HTML и видимым содержанием в браузерном окне. Если в коде написано «колбаса», то и на странице «колбаса». А сегодня — и по разному и со шпикачками всё больше. Потому самое простое толкование жирных смесей кода сегодня: исполнение его браузерным движком снятие скриншота распознавание экранным «файнридером» индексация того что осталось после распознавания Описанный способ формирования индекса и соответствие позволяет установить: «запрос X — страница сайта Y».
Давно это было, но писали, что Гугл умеет заполнять формы, что бы глубже индексировать интернет. (Ну, некоторые формы и не на всех сайтах). Тогда обсуждался вопрос, а как Гугл будет давать ссылку на такой контент, если часто у него нет своего уникального url. Со скриптами ИМХО такая же история. Ну проиндексирует он, а дальше что он с этим будет делать? Пользователю показать затруднительно, можно только в своих целях использовать, типа борьбы со спамом, нахождение новых ссылок для индексации или чего-нибудь еще.
Сдается мне, что господа говорят глупости. Обеспечить эмуляцию DOM — значит практически рендерить страницу целиком, а это нехилые вычислительные ресурсы, в сотни/тысячи раз медленнее чем просто выкачать и распарсить что-то. Врятли гугл готов пожертвовать столькими ресурсами ради какого-то сомнительного глубокого веба. Скорее всего, все выглядит как прикручивание JS движка, чего-нибудь наподобии V8 в некоторые части робота, для исполнения примитивного JS, типа document.write. Так-же, если следовать идее полноценного рендеринга и парсинга JS, гуглу прийдется выкачивать не только html страницы, а так-же все внешние скрипты и CSS стили. А вы видели в логах чтобы гуглбот качал такого рода контент? С заполнением форм и другими действиями якобы под пользователя — аналогично. Представьте себе, что произойдет если гугл начнет заполнять, ну например все формы на роеме. Оставлять комменты, подписываться на RSS, рассылки, регаться. Это будет мегаспам :) Гораздо интереснее выглядит идея использовать пользовательские браузеры(Хром, тулбар) в качестве робота. Тут тебе и DOM, и халявные вычислительные ресурсы, и корректное заполнение форм. Правда непонятно как быть с прайваси и безопасностью.
Сотрудники Яндекса умеют понимать джаваскрипт начиная с 2001 года А гугл научился только сейчас! А давайте проверим! Ну-ка Гугл скажи мне как обновить jqGrid в джаваскрипте?
invent! Опера мини, повторюсь, на небольшом кластере это делает с приличной скоростью и в реальном времени, так что не надо теоретизировать про тысячи раз медленнее. К тому же их никто не заставляет каждую страницу так прогонять, хватит нескольких на сайт, каждый раз разных.