Новостник и разработчик админки Forbes, Тэйлор Були, со ссылкой на неназываемого спикера из Google, рассказал, что поисковик умеет парсить и понимать некоторые JavaScript.
C одной стороны это значит, что роботы Google могут взаимодействовать с сайтом как человек, за счет время обхода сайта таким роботом может сильно возрастать. С другой - Google может получать больше информации из, так называемого, "глубокого веба": страниц, которые формируется по запросу пользователя и недоступны обычным переходом по ссылке.
При этом эксперты сходятся во мнении, что "толкование" самого кода является слишком сложной задачей для компьютера, поэтому его исполнение позволяет получать информацию из JavaScript-кода самым простым путем.
"Глубокий веб" (Deep web или invisible web) это часть Интернета, по каким-либо причинам не индексируемого поисковыми машинами. Например, сайты, контент которых доступен лишь зарегистрированным пользователям, или базы данных, которые выдают данные лишь в ответ на запрос пользователя. Считается, что объем информации в "глубоком вебе" намного больше, чем в проиндексированной части Сети.
Новости / Google научился понимать Javascript
- 28.06.2010 17:05:07
Новости
- Facebook встроил в себя Lightbox 1
- Lenta.ru добавила кнопок 13
- Chrome разрешил смотреть за вкладками на других устройствах 2
- Muz.ru сделал для Минсвязи платформу распознавания цифрового контента 2
- Google App Engine включил полнотекстовый поиск 2
- Fast Lane Ventures склонировала LoopNet 58
- Microsoft и Google сосредоточились на картах для помещений 5
- Twitter приобрёл службу почтовых рассылок RestEngine 2
- Facebook по примеру VK.com запускает файлообмен 7
- Twitter недоступен в самом популярном мобильном браузере 11
- Facebook тестирует платное продвижение постов 2
- Facebook переформатировал App Center 0
Инсайды, Слухи, Открытки
- Почему Яндекс не пускает на "Ведомости"? 4
- Публичный саппорт: зачем Facebook повторно рассылает свои письма? 6
- Автоматический сервис оценки компаний от СКБ-Контур оценил "Мегафон" в 1,3 годовой выручки 1
- Коллекторы банка "Тиньков" тестируют работу через "Одноклассники" 12
- Почему карты "Яндекс.Денег" делаются три недели? 15
- Комментатор Черданцев недоволен Sports.ru 10
- Omlet.ru стал монетизировать залётных пользователей Stream.ru 0
- Кадры: Лина Удовенко уходит из Ivi.ru 17
- Кадры: Бывший коммерческий директор Мастерхоста взыскивает зарплату через суд 4
- Pruffi Friends за месяц заработало 2 млн рублей 10
- Выходец из Digital Access собирается запусить еще один кинотеатр TVzor? 0
- Публичный саппорт: Проблема с загрузкой кнопок для Яндекс.Бара 2
Новые комментарии 
- Dan_Te > Почему Яндекс не пускает на "Ведомости"? (5)
- Alter Ego > Публичный саппорт: зачем Facebook повторно рассылает свои письма? (7)
- remud > Fast Lane Ventures склонировала LoopNet (58)
- kukutz > Яндекс начал поддержку московского Occupy (2)
- Qwerty > Facebook встроил в себя Lightbox (1)
- dsimonov > Как банк Тинькова стучит вашим друзьям о ваших отношениях с банком через "Одноклассники" (12)
- Ashmanov > Битвы роботов в Рунете (43)
- Alter Ego > Сотрудников "Яндекса" будут мотивировать через биржу (40)
- sinodov > Lenta.ru добавила кнопок (13)
- sinodov > Muz.ru сделал для Минсвязи платформу распознавания цифрового контента (2)
- astrolabium > Chrome разрешил смотреть за вкладками на других устройствах (2)
- Alter Ego > Открытка компании: Почта для доменов Рамблера закрыта? (2)
- Alter Ego > Слух: Билайн-интернет блокирует сайты без разбора (4)
- Psycho > Открытка компании: iConText навстречу социальным проектам (3)
- Psycho > Почему карты "Яндекс.Денег" делаются три недели? (15)
- Psycho > Комментатор Черданцев недоволен Sports.ru (10)
- Erjemin Sergei > Автоматический сервис оценки компаний от СКБ-Контур оценил "Мегафон" в 1,3 годовой выручки (1)
- Psycho > Про macter.ru (7)
- artemkv > Google App Engine включил полнотекстовый поиск (2)
- Alter Ego > Кадры: Слияния и поглощения на мировом рынке игр (2)
Комментарии
Быстро, масштабируемо, надёжно.
Для простейшего выполнения JavaScript на сервере есть библиотека на perl.
Из кода разных типов надо построить некий "скриншот" Страницу — просто что бы знать — имеет ли смысл отправлять на по какому-либо запросу? И какую рекламу подвешивать рядом?
Раньше (на добродетельных сайтах) было прямое соответствие между строками HTML и видимым содержанием в браузерном окне. Если в коде написано "колбаса", то и на странице "колбаса". А сегодня — и по разному и со шпикачками всё больше.
Потому самое простое толкование жирных смесей кода сегодня:
исполнение его браузерным движком
снятие скриншота
распознавание экранным "файнридером"
индексация того что осталось после распознавания
Описанный способ формирования индекса и соответствие позволяет установить: "запрос X — страница сайта Y".
Обеспечить эмуляцию DOM - значит практически рендерить страницу целиком, а это нехилые вычислительные ресурсы, в сотни/тысячи раз медленнее чем просто выкачать и распарсить что-то. Врятли гугл готов пожертвовать столькими ресурсами ради какого-то сомнительного глубокого веба.
Скорее всего, все выглядит как прикручивание JS движка, чего-нибудь наподобии V8 в некоторые части робота, для исполнения примитивного JS, типа document.write.
Так-же, если следовать идее полноценного рендеринга и парсинга JS, гуглу прийдется выкачивать не только html страницы, а так-же все внешние скрипты и CSS стили. А вы видели в логах чтобы гуглбот качал такого рода контент?
С заполнением форм и другими действиями якобы под пользователя - аналогично. Представьте себе, что произойдет если гугл начнет заполнять, ну например все формы на роеме. Оставлять комменты, подписываться на RSS, рассылки, регаться. Это будет мегаспам :)
Гораздо интереснее выглядит идея использовать пользовательские браузеры(Хром, тулбар) в качестве робота. Тут тебе и DOM, и халявные вычислительные ресурсы, и корректное заполнение форм. Правда непонятно как быть с прайваси и безопасностью.
А гугл научился только сейчас!
А давайте проверим!
Ну-ка Гугл скажи мне как обновить jqGrid в джаваскрипте?
К тому же их никто не заставляет каждую страницу так прогонять, хватит нескольких на сайт, каждый раз разных.