Роман «Кукуц» Иванов без «Яндекса» запустил блог-поиск по ЖЖ 2000-2015 годов

Развитие событий: Почему нельзя раздать архив ЖЖ за 2000—2015 всем желающим: «Кто-нибудь использует его во зло» (18 июня)

Роман Иванов рассказал:

Я считаю, что в ЖЖ случилась или как минимум нашла своё отражение почти вся русскоязычная культура нулевых годов. Культурное значение этого архива трудно переоценить. Когда «Яндекс» закрыл поиск по архивам, я очень огорчился, поскольку убеждён, что этот архив должен быть сохранён для человечества. Ну и попросил у «Яндекса» архивы. А «Яндекс» внезапно согласился и дал их. Последние полгода я с несколькими другими волонтёрами программировал этот самый поиск и вроде бы довёл его до вменяемого состояния.

Яндекс зачистил свой «Поиск по блогам» в апреле 2015 года. Остались ссылки не старше 1 месяца → Roem.ru

Именно в апреле 2015 года, бывший министр связи, а ныне помощник Президента из зарубежного «санкционного списка» попросил у властей «права на интернет забвение».

Яндекс сократил глубину поиска по блогам до 1 месяца в апреле 2015 года

Мелкумова Яндекс сократил глубину поиска по всем блогам кроме ЖЖ до 1 месяца в апреле 2015 года. Глубина поиска по ЖЖ сократилась в сентябре via www.facebook.com/adagamov/posts/986927001424225?comment_id=988179977965594&reply_comment_id=988307641286161&comment_tracking=%7B%22tn%22%3A%22R0%22%7D

LJ Search — некоммерческий поиск по архивам LiveJournal. В индексе 340 миллионов постов и 1 миллиард комментариев с 2000 по осень 2015 года. «Сохранённые копии» записей в ЖЖ недоступны для чтения из Рунета (но найденные ссылки активны и в РФ). Как объяснили авторы — «это необходимо для того чтобы избежать бессмысленной переписки с Роскомнадзором и угроз блокировки от него же». Для просмотра «сохранённых копий» пользователю требуется изменить IP-адрес на IP-адрес из другой страны.

Кроме руководителя Иванова в группе товарищей занятых LJ Search — Ник Заярный, (основатель Eviterra, с 2014 года в федеральном розыске, с 2015 в розыске Интерпола), разработчики tobe, Александр Белянский и сисадмин spaceinvaderz. «Железо» для проекта безвозмездно предоставили Servers.ru. Как рассказали представители LJ Search — во время создания Поиска Servers.ru пришлось существенно усилить и без того мощный сервер. LJ Search просто не помещался в памяти (сейчас её стало 64 Gb) и на SSD-диске.

Роман Иванов руководит разработкой настольного Яндекс.Браузера, а ранее несколько лет работал в «Яндексе» руководителем отдела коммуникационных сервисов, к которому относился и Поиск по блогам.

Лучшие комментарии

  • Контекст комментария

    Роман Иванов Яндекс, а также ljsear.ch по выходным

    Не могу ответить за журналистов, что именно они имели в виду.

    Я полную раскладку напишу на хабр на днях или раньше, но кратко выглядит всё так:
    — переданный архив, в несжатом виде: 1,4Tb
    — база mysql, в которую он залит: 1Tb
    — индекс Sphinx: 400Gb
    — объём ОЗУ, который требуется Сфинксу, чтобы обслуживать такой индекс: 36Gb (что не влезает в 32 и требует 64, да).

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    А почему не выложить этот 1.4TB в открытый доступ как всю базу? Если у Servers.ru нет ресурсов, я готов захостить и раздавать другим.

  • Контекст комментария

    zubilo

    верно, государство по этой же причине не хочет раскрывать данные — боится, что потребителем данных с движением общественного транспорта будут террористы, например.

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    Роман логика хуже чем у чиновников. Википедии ничто не мешает делать дампы данных, и DMOZ, и Common Crawl. Если не хотите этого делать, не придумывайте отговорок.

  • Контекст комментария

    Алексей Траньков

    @Иван, у Servers.ru достаточно ресурсов, но нас интересует именно гуманитарная составляющая проекта + демонстрация возможностей нашей инфраструктуры (бывший сервис Яндекса был поднят несколькими энтузиастами в свободное время, и для этого им понадобился всего один сервер и одна виртуалка).

    Раздавать дамп просто так — это и ничего не демонстрирует о нас, и никакой ценности для общества не имеет.

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    @Алексей Траньков в этом то и дело. Гуманитарной составляющей и демонстрации технологий тут очень мало — масштабы системы не поражают, у нас есть проекты работающие на вчетверо более слабых серверах на Hetzner’е и работающие с большим объёмом данных.

    Если бы Вы не публиковали данные в открытую, но давали бы доступ к ним бесплатно из своей сети — в этом, лично Вашу, логику я бы понял. По такой модели Amazon даёт доступ к большому набору данных, они доступны бесплатно через их инфраструктуру, но при этом они же доступны и многими другими способами.

    Предоставление данных по запросу, о чём пытался сказать безвременно покинувший нас в мессенжеры Роман Иванов, это оправдано только для очень больших данных. Вроде данных адронного коллайдера или данных Common Crawl которые, действительно, слишком велики для выгрузки.

    Данные ЖЖ такими сверхбольшими не являются. Поэтому Ваш гуманитарный посыл идёт мимо цели. Сообщество, и не только я, будет интересоваться что Вы с данными собираетесь делать.

    Зарабатывать на них? Объявите это явно.
    Делать общественный проект? Дайте к ним полный доступ.

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    Проблема как раз в несоответствии мотивов Романа и его действий. Если бы Роман _действительно_ хотел чтобы архив ЖЖ не исчез, то он бы именно опубликовал бы все данные для скачивания — через torrent’ы, какую-либо площадку или как-то иначе. Размещение на хостинге у Вас не гарантирует долгосрочного существования архива.

    А в том что сделано сейчас есть очень скользкая позиция незаявленного коммерческого интереса. Если он есть, то хотелось бы от Романа услышать его явно, если его точно нет, то то что сделано не соответствует целям которые заявлены.

    Я знаю похожие примеры с передачей архивов международному архиву Интернета archive.org они готовы захостить любой объём данных. Связывался ли с ними Роман чтобы передать им архив ЖЖ? Что-то не похоже.

    Это некрасивая история Алексей, более похожая на том что Вы делаете не гуманитарный проект, а обеспечиваете себе пиар на проекте формат которого не соответствует реальным интересам сообщества.

  • Контекст комментария

    Роман Иванов Яндекс, а также ljsear.ch по выходным

    Благодаря Ивану я сформулировал позицию по данным архивов ЖЖ. Я никому их передавать не собираюсь — все заинтересованные лица вольны обращаться в Яндекс самостоятельно. В частности, потому что я обработал уже более десятка запросов авторов на удаление их записей из поиска, а удалять такое же из исходников для меня слишком трудоёмко, а уж создавать инфраструктуру по отзыву конкретных записей у всех, кто получил копию архивов — и подавно.

    Можно ли вообще открыть такие данные всем желающим под какой-то открытой лицензией — мне кажется, вполне нетривиальный вопрос. У каждого текста в базе есть отдельный автор, он может лицензировать свой текст так или иначе — как это учесть в рамках одной лицензии на общий массив данных? Что должно быть сказано в лицензии, чтобы авторы текстов не были крайне возмущены? Я не понимаю.

  • Контекст комментария

    Игорь Ашманов Сам себе компания

    Это хороший вопрос, Роман. Но что же тогда с самими социальными сетями?
    Ведь никаким ToS нельзя отнять у автора его неимущественное авторское право.
    Почему администрация ЖЖ не мучается такими вопросами?

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    Позиция Романа, как я уже говорил, это позиция человека чьи заявленные цели и их реализация не соответствуют друг другу.

    Для гарантированного долгосрочного сохранения архива ЖЖ и есть гораздо более эффективные способы. Начиная с передачи сообществу через раздачу всей базы данных и продолжая передачей архив в Internet Archive или же один из университетских архивов и даже предоставление его в рамках Школы Анализа Данных — это больший шаг к открытости чем то что было сделано в виде сервиса поиска.

    Более того, аргументы Романа о лицензии и удалении информации в равной степени применимы и к сервисам Яндекса, таким как поиск по блогам и к созданному ему поиску. Незнание ответов на эти вопросы именно с его стороны граничит с лукавством вплоть до полного недоверия его словам.

    Передача архива третьей стороне или полная передача сообществу с полным отказом от ответственности — это и есть гарантия ухода от юридических рисков, в отличие от создания онлайн ресурсов, который уже подпадает под действия российских регуляторов.

    Учитывая большое количество публикаций в ЖЖ которые давно были удалены из блогов, то ровно это и создаёт те проблемы с запросами на удаления которые Роману «приходится отрабатывать». Однако здесь никак нельзя посочувствовать его жертвенности, поскольку эта жертвенность — это, либо цена тщеславия и желания, либо явного понимания коммерческой ценности архива ЖЖ и инвестиция усилий для сохранения цели дальнейшей монетизации этой базы данных.

    Отдельно, по поводу «обратитесь к Яндексу». Роман как раз и есть человек в Яндексе занимающийся именно этой базой данных и именно этой темой. И эти данные Роман получил не по публичной оферте Яндекса выложенной на сайте, а явно по некой предположительно легальной и безусловно закрытой процедуре. Так что же означает «обратитесь к Яндексу»? Рассылать вопросы всем топ менеджерам? Писать лично Воложу? Или запрашивать позицию пресс-службы? В отличие от госорганов, «абстрактный Яндекс» не обязан отвечать на запросы кого бы то ни было кроме органов власти. А, например, на мой же вопрос в фэйсбуке к Григорию Бакунову, тоже из Яндекса, я был направлен именно к Роману.

    Отходя чуть от этой ситуации в целом и возвращаясь к закреплению за Яндексом фактической позиции closed data corporation, то что заявляет Роман и есть явная демонстрация культуры закрытости в компании. Достаточно было короткого утверждения что раскрытие данных вредит бизнесу Яндекса и моих вопросов бы более не было.

    Ситуация же сейчас когда даже отдельные представители не соответствуют заявленным ими ценностями.

Добавить 35 комментариев

  • Ответить

    на vc.ru пишут
    «Представитель «Яндекса» Ася Мелкумова в разговоре с vc.ru не исключила того, что компания может дать архивы «Поиска по блогам» и другим пользователям, которые заинтересуются ими для своих сервисов.»

    и что, на самом деле дадут архиву тому, кто попросит?

  • Ответить

    Если «энтузиаст, желающий сделать индексацию свежих записей» не найдётся, вероятно через N лет Яндекс снова «любезно передаст». :)

    Молодцы. Архивных сервисов мало, с поиском и того меньше, так что любое подобное творение достойно похвалы.

    Интересно, есть ли в мире платные архивные проекты? Не увешанные рекламой, а именно с платой за использование. Теоретически сегодня не проблема насобирать в сети информацию, которая с той или иной вероятностью исчезнет, а потом за деньги давать доступ к сделанной копии.

    15 лет ЖЖ в 64 гига уместились, если правильно понял, хм, с таким малым размером конечно сохранить накопленное «на всякий случай» не проблема.
    Яндекс возможно ещё в закромах сохранил данные от закрытых Вопросов и Я.рушки не только авторам на их Яндекс.Диски? Там конечно шлака и флуда было больше, но кое-что встречалось не менее интереснее ЖЖ-блогов.

  • Ответить
    Владимир Мяу и компания

    > а потом за деньги давать доступ к сделанной копии.

    А вот интересно, как здесь самочувствует международное законодательство об авторском праве (и, соответственно, праве на копирование)? Не говоря уж про законы имени Яровой про забвение и всё такое прочее.

  • Ответить
    BigBrother Helmet-A

    > с 2014 года в федеральном розыске, с 2015 в розыске Интерпола

    Какая, однако, интересная у людей жизнь!
    И до сих пор в бизнесе.

  • Ответить
    Альтер Эго > zubilo контекст

    и что, на самом деле дадут архиву тому, кто попросит

    — несколько месяцев назад в FB в полузакрытом режиме обсуждалась судьба архивного индекса блогов. Общий смыл такой, что, скорее «дадут». Разумеется вменяемому человеку, что, например, не будет вносить изменений в архив и потом выдавать их за истину. Вменяемому, для понятных добродетельных целей.

  • Ответить

    Интересно, почему копию индекса не захостил к себе Rambler&Co. Так-то, на глазок, со стороны — понятно почему.

    Классический ЖЖ не имеет большого отношения к тому ЖЖ, что стал интересен Rambler&Co. со времён Петра Захарова. Захаров ещё в 2013 году говорил, что судьба «его» ЖЖ может быть похожа на судьбу Yahoo! и Tumblr (то есть старых компаний, которые под дудочку экс-Googlоида, просто закрывают проект за проектом и больше никакой деятельностью не занимаются):

    один из моих самых любимых продуктов — Yahoo! Finance. Мы также активно следим за развитием Demand Media, Glam Media и Huffington Post. История Yahoo! и Tumblr говорит о том, что у союзов между блогерской платформой и веб-порталом есть большое будущее. В России это Rambler плюс LiveJournal.

    P. S. Оттуда же, до кучи:

    Я восхищаюсь Мариссой Майер. Компания достигает ощутимые результаты в кратчайшие сроки.

  • Ответить
    Роман Иванов Яндекс, а также ljsear.ch по выходным

    Не могу ответить за журналистов, что именно они имели в виду.

    Я полную раскладку напишу на хабр на днях или раньше, но кратко выглядит всё так:
    — переданный архив, в несжатом виде: 1,4Tb
    — база mysql, в которую он залит: 1Tb
    — индекс Sphinx: 400Gb
    — объём ОЗУ, который требуется Сфинксу, чтобы обслуживать такой индекс: 36Gb (что не влезает в 32 и требует 64, да).

  • Ответить

    А что будет с данными за последний год?
    Интересно, ЖЖ спокойно позволяет индексировать сторонним роботам?

  • Ответить
    Иван Бегтин АНО "Информационная Культура"

    А почему не выложить этот 1.4TB в открытый доступ как всю базу? Если у Servers.ru нет ресурсов, я готов захостить и раздавать другим.

  • Ответить
    Роман Иванов Яндекс, а также ljsear.ch по выходным

    Я думал, мы поговорим, обсудим, вы меня поубеждаете, аргументы приведете. А вы решили мне нагрубить. Way to go, чо.

    Здесь я вам отвечать больше не буду. Если реально хотите об этом поговорить — приходите в любой мессенджер.

  • Ответить

    @Иван, у Servers.ru достаточно ресурсов, но нас интересует именно гуманитарная составляющая проекта + демонстрация возможностей нашей инфраструктуры (бывший сервис Яндекса был поднят несколькими энтузиастами в свободное время, и для этого им понадобился всего один сервер и одна виртуалка).

    Раздавать дамп просто так — это и ничего не демонстрирует о нас, и никакой ценности для общества не имеет.

  • Ответить
    Иван Бегтин АНО "Информационная Культура"

    @Алексей Траньков в этом то и дело. Гуманитарной составляющей и демонстрации технологий тут очень мало — масштабы системы не поражают, у нас есть проекты работающие на вчетверо более слабых серверах на Hetzner’е и работающие с большим объёмом данных.

    Если бы Вы не публиковали данные в открытую, но давали бы доступ к ним бесплатно из своей сети — в этом, лично Вашу, логику я бы понял. По такой модели Amazon даёт доступ к большому набору данных, они доступны бесплатно через их инфраструктуру, но при этом они же доступны и многими другими способами.

    Предоставление данных по запросу, о чём пытался сказать безвременно покинувший нас в мессенжеры Роман Иванов, это оправдано только для очень больших данных. Вроде данных адронного коллайдера или данных Common Crawl которые, действительно, слишком велики для выгрузки.

    Данные ЖЖ такими сверхбольшими не являются. Поэтому Ваш гуманитарный посыл идёт мимо цели. Сообщество, и не только я, будет интересоваться что Вы с данными собираетесь делать.

    Зарабатывать на них? Объявите это явно.
    Делать общественный проект? Дайте к ним полный доступ.

  • Ответить

    Проблема как раз в несоответствии мотивов Романа и его действий. Если бы Роман _действительно_ хотел чтобы архив ЖЖ не исчез, то он бы именно опубликовал бы все данные для скачивания — через torrent’ы, какую-либо площадку или как-то иначе. Размещение на хостинге у Вас не гарантирует долгосрочного существования архива.

    А в том что сделано сейчас есть очень скользкая позиция незаявленного коммерческого интереса. Если он есть, то хотелось бы от Романа услышать его явно, если его точно нет, то то что сделано не соответствует целям которые заявлены.

    Я знаю похожие примеры с передачей архивов международному архиву Интернета archive.org они готовы захостить любой объём данных. Связывался ли с ними Роман чтобы передать им архив ЖЖ? Что-то не похоже.

    Это некрасивая история Алексей, более похожая на том что Вы делаете не гуманитарный проект, а обеспечиваете себе пиар на проекте формат которого не соответствует реальным интересам сообщества.

  • Ответить

    Давайте так: Роман разместил не сам архив, а реализацию поиска по нему через веб-интерфейс. Владельцем архива является Яндекс. Я думаю, что вам стоит, если вы этого так хотите, обратиться напрямую к Яндексу, и самому писать на Webarchive и т. п., а не предъявлять претензии к кому-то, кто сделал то, что намеревался, а не то, что вам казалось бы правильным.

    И да, мы обеспечиваем себе пиар, конечно. Мы бизнес, а не благотворительный фонд. Просто в данном случае цели Романа (преодоление барьеров и ограничений) совпадают с нашими. Он хочет, чтобы информация была доступной, мы — чтобы качественная и производительная инфраструктура была доступной.

    Если вам достаточно Хетцнера и прочего доширака, ну ладно. Большинству недостаточно.

  • Ответить

    > Роман разместил не сам архив, а реализацию поиска по нему через веб-интерфейс.

    Видимо, мой вопрос выше был задан в несколько слишком закамуфлированном виде (но, скорее — просто воспользовались случаем уклониться от ответа). Хорошо, задам в прямом.

    Скажите, а это было обязательно для данного проекта привлекать в соинвесторы откровенный криминал? И будет ли в следующем проекте кукуца участвовать кто-то типа Деда Хасана (или кто там сейчас вместо него)?

    Или лавры VK покоя не дают?

  • Ответить

    Николай Заярный не соинвестор, а автор дизайна. В данном абсолютно некоммерческом проекте вообще нет никаких инвесторов.

    Насчёт откровенного криминала тоже есть разные мнения, я в ситуации с крахом Эвитерры вообще был пострадавшим, и нет, это не мешает мне хорошо относиться к Николаю — в частности, потому что я знаю, кто именно отменил мои билеты в нарушение всех правил.

  • Ответить
    Роман Иванов Яндекс, а также ljsear.ch по выходным

    Благодаря Ивану я сформулировал позицию по данным архивов ЖЖ. Я никому их передавать не собираюсь — все заинтересованные лица вольны обращаться в Яндекс самостоятельно. В частности, потому что я обработал уже более десятка запросов авторов на удаление их записей из поиска, а удалять такое же из исходников для меня слишком трудоёмко, а уж создавать инфраструктуру по отзыву конкретных записей у всех, кто получил копию архивов — и подавно.

    Можно ли вообще открыть такие данные всем желающим под какой-то открытой лицензией — мне кажется, вполне нетривиальный вопрос. У каждого текста в базе есть отдельный автор, он может лицензировать свой текст так или иначе — как это учесть в рамках одной лицензии на общий массив данных? Что должно быть сказано в лицензии, чтобы авторы текстов не были крайне возмущены? Я не понимаю.

  • Ответить
    Игорь Ашманов Сам себе компания

    Это хороший вопрос, Роман. Но что же тогда с самими социальными сетями?
    Ведь никаким ToS нельзя отнять у автора его неимущественное авторское право.
    Почему администрация ЖЖ не мучается такими вопросами?

  • Ответить
    Игорь Ашманов Сам себе компания

    И почему нельзя сказать ну там что-то в лицензии, как делают социальные сети — а также ППБЯ или поиск Яндекса, когда он показывает кэш?

  • Ответить

    ЖЖ прикрывается законодательством США. Но есть ли подобное в российском?

    «LiveJournal попадает под действие Положения об избежание ответственности Закона об авторском праве в цифровую эпоху и не может контролировать или нести ответственность за какой-либо Контент, размещенный на Сервисе. Не ограничивая общий характер вышесказанного, LiveJournal устанавливает определенные правила для целей обеспечения надежности и безопасности для всех своих пользователей.»

    http://digital-law-online.info/lpdi1.0/treatise33.html

  • Ответить
    Иван Бегтин АНО "Информационная Культура"

    Позиция Романа, как я уже говорил, это позиция человека чьи заявленные цели и их реализация не соответствуют друг другу.

    Для гарантированного долгосрочного сохранения архива ЖЖ и есть гораздо более эффективные способы. Начиная с передачи сообществу через раздачу всей базы данных и продолжая передачей архив в Internet Archive или же один из университетских архивов и даже предоставление его в рамках Школы Анализа Данных — это больший шаг к открытости чем то что было сделано в виде сервиса поиска.

    Более того, аргументы Романа о лицензии и удалении информации в равной степени применимы и к сервисам Яндекса, таким как поиск по блогам и к созданному ему поиску. Незнание ответов на эти вопросы именно с его стороны граничит с лукавством вплоть до полного недоверия его словам.

    Передача архива третьей стороне или полная передача сообществу с полным отказом от ответственности — это и есть гарантия ухода от юридических рисков, в отличие от создания онлайн ресурсов, который уже подпадает под действия российских регуляторов.

    Учитывая большое количество публикаций в ЖЖ которые давно были удалены из блогов, то ровно это и создаёт те проблемы с запросами на удаления которые Роману «приходится отрабатывать». Однако здесь никак нельзя посочувствовать его жертвенности, поскольку эта жертвенность — это, либо цена тщеславия и желания, либо явного понимания коммерческой ценности архива ЖЖ и инвестиция усилий для сохранения цели дальнейшей монетизации этой базы данных.

    Отдельно, по поводу «обратитесь к Яндексу». Роман как раз и есть человек в Яндексе занимающийся именно этой базой данных и именно этой темой. И эти данные Роман получил не по публичной оферте Яндекса выложенной на сайте, а явно по некой предположительно легальной и безусловно закрытой процедуре. Так что же означает «обратитесь к Яндексу»? Рассылать вопросы всем топ менеджерам? Писать лично Воложу? Или запрашивать позицию пресс-службы? В отличие от госорганов, «абстрактный Яндекс» не обязан отвечать на запросы кого бы то ни было кроме органов власти. А, например, на мой же вопрос в фэйсбуке к Григорию Бакунову, тоже из Яндекса, я был направлен именно к Роману.

    Отходя чуть от этой ситуации в целом и возвращаясь к закреплению за Яндексом фактической позиции closed data corporation, то что заявляет Роман и есть явная демонстрация культуры закрытости в компании. Достаточно было короткого утверждения что раскрытие данных вредит бизнесу Яндекса и моих вопросов бы более не было.

    Ситуация же сейчас когда даже отдельные представители не соответствуют заявленным ими ценностями.

  • Ответить
    Роман Иванов Яндекс, а также ljsear.ch по выходным

    > Роман как раз и есть человек в Яндексе занимающийся именно этой базой данных и именно этой темой.

    Это откровенная ложь. Я не занимаюсь в Яндексе этой темой последние 4 года, не занимаюсь сейчас, не занимаюсь в Яндексе этой базой и не планирую это делать.

    Всё остальное примерно такого же уровня бред.

  • Ответить

    Кукуц, то есть ты мне, фактически, утверждаешь, что он дурак, а не сволочь?
    Спасибо, сразу стало легче.

    Только вот «ни за что» в розыск Интерпола не объявляют, это тебе не Кровавая Гэбня. Или не так все-таки?

    И вообще — у вас там дизаааайн (это из Жмурок), и прочие благорастворения воздусей и прочие пони, какающие радугой (эту тему, кстати Крылов неплохо раскрыл). Верю-верю.