Google научился понимать Javascript

28 июня 2010 в 18:05

Новостник и разработчик админки Forbes, Тэйлор Були, со ссылкой на неназываемого спикера из Google, рассказал, что поисковик умеет парсить и понимать некоторые JavaScript.

C одной стороны это значит, что роботы Google могут взаимодействовать с сайтом как человек, за счет время обхода сайта таким роботом может сильно возрастать. С другой - Google может получать больше информации из, так называемого, "глубокого веба": страниц, которые формируется по запросу пользователя и недоступны обычным переходом по ссылке.

При этом эксперты сходятся во мнении, что "толкование" самого кода является слишком сложной задачей для компьютера, поэтому его исполнение позволяет получать информацию из JavaScript-кода самым простым путем.

"Глубокий веб" (Deep web или invisible web) это часть Интернета, по каким-либо причинам не индексируемого поисковыми машинами. Например, сайты, контент которых доступен лишь зарегистрированным пользователям, или базы данных, которые выдают данные лишь в ответ на запрос пользователя. Считается, что объем информации в "глубоком вебе" намного больше, чем в проиндексированной части Сети.

Добавить 9 комментариев

28 июня 2010 в 19:04 Ответить
Альтер Эго
***Флуд***
28 июня 2010 в 19:13 Ответить
ilyak
Опера в своём Мини (на серверах его поддержки) делает то же самое уже очень давно. Быстро, масштабируемо, надёжно.
28 июня 2010 в 20:02 Ответить
netload
Бред. Google выполняет JavaScript уже как минимум 5 лет, это вам любой дорвейщик подтвердит. Используется это при ранжировании или нет — не знаю, но получить бан автоматом за неспортивное поведение с JavaScript проще простого. Для простейшего выполнения JavaScript на сервере есть библиотека на perl.
28 июня 2010 в 20:35 Ответить
ilyak
Для выполнения JavaScript на сервере существует очень много средств, включая хрень для дельфи. Сложнее с DOM, но Опера же асилила.
28 июня 2010 в 21:36 Ответить
Иван Ильин
IMHO гугл мало интересует парсинг и понимание Скрипта. Его, как поисковик, интересует человеко-видимое содержание сайта. Из кода разных типов надо построить некий «скриншот» Страницу — просто что бы знать — имеет ли смысл отправлять на по какому-либо запросу? И какую рекламу подвешивать рядом? Раньше (на добродетельных сайтах) было прямое соответствие между строками HTML и видимым содержанием в браузерном окне. Если в коде написано «колбаса», то и на странице «колбаса». А сегодня — и по разному и со шпикачками всё больше. Потому самое простое толкование жирных смесей кода сегодня: исполнение его браузерным движком снятие скриншота распознавание экранным «файнридером» индексация того что осталось после распознавания Описанный способ формирования индекса и соответствие позволяет установить: «запрос X — страница сайта Y».
28 июня 2010 в 22:00 Ответить
Vetra
Давно это было, но писали, что Гугл умеет заполнять формы, что бы глубже индексировать интернет. (Ну, некоторые формы и не на всех сайтах). Тогда обсуждался вопрос, а как Гугл будет давать ссылку на такой контент, если часто у него нет своего уникального url. Со скриптами ИМХО такая же история. Ну проиндексирует он, а дальше что он с этим будет делать? Пользователю показать затруднительно, можно только в своих целях использовать, типа борьбы со спамом, нахождение новых ссылок для индексации или чего-нибудь еще.
29 июня 2010 в 02:49 Ответить
Dmitry Sidorov Mail.Ru Group
Сдается мне, что господа говорят глупости. Обеспечить эмуляцию DOM — значит практически рендерить страницу целиком, а это нехилые вычислительные ресурсы, в сотни/тысячи раз медленнее чем просто выкачать и распарсить что-то. Врятли гугл готов пожертвовать столькими ресурсами ради какого-то сомнительного глубокого веба. Скорее всего, все выглядит как прикручивание JS движка, чего-нибудь наподобии V8 в некоторые части робота, для исполнения примитивного JS, типа document.write. Так-же, если следовать идее полноценного рендеринга и парсинга JS, гуглу прийдется выкачивать не только html страницы, а так-же все внешние скрипты и CSS стили. А вы видели в логах чтобы гуглбот качал такого рода контент? С заполнением форм и другими действиями якобы под пользователя — аналогично. Представьте себе, что произойдет если гугл начнет заполнять, ну например все формы на роеме. Оставлять комменты, подписываться на RSS, рассылки, регаться. Это будет мегаспам :) Гораздо интереснее выглядит идея использовать пользовательские браузеры(Хром, тулбар) в качестве робота. Тут тебе и DOM, и халявные вычислительные ресурсы, и корректное заполнение форм. Правда непонятно как быть с прайваси и безопасностью.
29 июня 2010 в 09:00 Ответить
Альтер Эго
Сотрудники Яндекса умеют понимать джаваскрипт начиная с 2001 года А гугл научился только сейчас! А давайте проверим! Ну-ка Гугл скажи мне как обновить jqGrid в джаваскрипте?
29 июня 2010 в 09:44 Ответить
ilyak
invent! Опера мини, повторюсь, на небольшом кластере это делает с приличной скоростью и в реальном времени, так что не надо теоретизировать про тысячи раз медленнее. К тому же их никто не заставляет каждую страницу так прогонять, хватит нескольких на сайт, каждый раз разных.

Важное

Обсуждаемое