Новости / Google научился понимать Javascript

Новостник и разработчик админки Forbes, Тэйлор Були, со ссылкой на неназываемого спикера из Google, рассказал, что поисковик умеет парсить и понимать некоторые JavaScript.

C одной стороны это значит, что роботы Google могут взаимодействовать с сайтом как человек, за счет время обхода сайта таким роботом может сильно возрастать. С другой - Google может получать больше информации из, так называемого, "глубокого веба": страниц, которые формируется по запросу пользователя и недоступны обычным переходом по ссылке.

При этом эксперты сходятся во мнении, что "толкование" самого кода является слишком сложной задачей для компьютера, поэтому его исполнение позволяет получать информацию из JavaScript-кода самым простым путем.

"Глубокий веб" (Deep web или invisible web) это часть Интернета, по каким-либо причинам не индексируемого поисковыми машинами. Например, сайты, контент которых доступен лишь зарегистрированным пользователям, или базы данных, которые выдают данные лишь в ответ на запрос пользователя. Считается, что объем информации в "глубоком вебе" намного больше, чем в проиндексированной части Сети.

Комментарии RSS

  • Текст закрыт для комментирования
    • Alter Ego
    • Alter Ego
    • 28.06.2010 19:04:30 #
    ***Флуд***
  1. Опера в своём Мини (на серверах его поддержки) делает то же самое уже очень давно.

    Быстро, масштабируемо, надёжно.
  2. Бред. Google выполняет JavaScript уже как минимум 5 лет, это вам любой дорвейщик подтвердит. Используется это при ранжировании или нет - не знаю, но получить бан автоматом за неспортивное поведение с JavaScript проще простого.
    Для простейшего выполнения JavaScript на сервере есть библиотека на perl.
  3. Для выполнения JavaScript на сервере существует очень много средств, включая хрень для дельфи. Сложнее с DOM, но Опера же асилила.
  4. IMHO гугл мало интересует парсинг и понимание Скрипта. Его, как поисковик, интересует человеко-видимое содержание сайта.

    Из кода разных типов надо построить некий "скриншот" Страницу — просто что бы знать — имеет ли смысл отправлять на по какому-либо запросу? И какую рекламу подвешивать рядом?
    Раньше (на добродетельных сайтах) было прямое соответствие между строками HTML и видимым содержанием в браузерном окне. Если в коде написано "колбаса", то и на странице "колбаса". А сегодня — и по разному и со шпикачками всё больше.

    Потому самое простое толкование жирных смесей кода сегодня:

    исполнение его браузерным движком
    снятие скриншота
    распознавание экранным "файнридером"
    индексация того что осталось после распознавания

    Описанный способ формирования индекса и соответствие позволяет установить: "запрос X — страница сайта Y".
  5. Давно это было, но писали, что Гугл умеет заполнять формы, что бы глубже индексировать интернет. (Ну, некоторые формы и не на всех сайтах). Тогда обсуждался вопрос, а как Гугл будет давать ссылку на такой контент, если часто у него нет своего уникального url. Со скриптами ИМХО такая же история. Ну проиндексирует он, а дальше что он с этим будет делать? Пользователю показать затруднительно, можно только в своих целях использовать, типа борьбы со спамом, нахождение новых ссылок для индексации или чего-нибудь еще.
  6. Сдается мне, что господа говорят глупости.
    Обеспечить эмуляцию DOM - значит практически рендерить страницу целиком, а это нехилые вычислительные ресурсы, в сотни/тысячи раз медленнее чем просто выкачать и распарсить что-то. Врятли гугл готов пожертвовать столькими ресурсами ради какого-то сомнительного глубокого веба.

    Скорее всего, все выглядит как прикручивание JS движка, чего-нибудь наподобии V8 в некоторые части робота, для исполнения примитивного JS, типа document.write.

    Так-же, если следовать идее полноценного рендеринга и парсинга JS, гуглу прийдется выкачивать не только html страницы, а так-же все внешние скрипты и CSS стили. А вы видели в логах чтобы гуглбот качал такого рода контент?

    С заполнением форм и другими действиями якобы под пользователя - аналогично. Представьте себе, что произойдет если гугл начнет заполнять, ну например все формы на роеме. Оставлять комменты, подписываться на RSS, рассылки, регаться. Это будет мегаспам :)

    Гораздо интереснее выглядит идея использовать пользовательские браузеры(Хром, тулбар) в качестве робота. Тут тебе и DOM, и халявные вычислительные ресурсы, и корректное заполнение форм. Правда непонятно как быть с прайваси и безопасностью.
    • Alter Ego
    • Alter Ego
    • 29.06.2010 09:00:46 #
    Сотрудники Яндекса умеют понимать джаваскрипт начиная с 2001 года
    А гугл научился только сейчас!
    А давайте проверим!
    Ну-ка Гугл скажи мне как обновить jqGrid в джаваскрипте?
  7. invent! Опера мини, повторюсь, на небольшом кластере это делает с приличной скоростью и в реальном времени, так что не надо теоретизировать про тысячи раз медленнее.


    К тому же их никто не заставляет каждую страницу так прогонять, хватит нескольких на сайт, каждый раз разных.
  • Текст закрыт для комментирования

Новые комментарии RSS

Почитать

От читателей

Чтобы добавлять свои ссылки, надо зарегистрироваться на сайте