Алексей Басов через 3-4 месяца запустит государственный поисковик в Ростелекоме

11 октября 2013 в 10:28
Roem.ru

Развитие событий: Совладельца "Спутника" Вячеслава Рудникова будут судить за попытку хищения недвижимости (8 июля 2015)

Проект госпоисковика снова в строю. "Ведомости" сообщают:

Новости СМИ2

В 2014 г. в рунете заработает новая поисковая система «Спутник», которую разрабатывает «Ростелеком», рассказали «Ведомостям» сотрудники нескольких интернет-компаний. Располагаться этот поисковик будет по адресу: sputnik.ru. Сейчас «Ростелеком» активно нанимает разработчиков в крупных компаниях рунета — «Яндексе», Mail.ru Group и Google и др. По словам собеседников «Ведомостей», поисковик доделают через 3-4 месяца и будут продвигать «на государственном уровне» — с помощью установки по умолчанию в органах власти и госкомпаниях
...
курирует проект Алексей Басов
...
Однако сроки могут быть изменены, как и название
...
Этот проект давно перестал быть закрытым, сказала вчера «Ведомостям» пресс-секретарь Медведева Наталья Тимакова. Но устанавливаться поисковик будет на добровольных началах, утверждает она.

Источник

Комментарии Roem.ru:

1. Что за совладелец Roem.ru без национального госпоисковика

2. Странным образом идея всплывает с той же периодичностью, с которой государство принимает бюджет - раз в три года

3. Те кто делают проект и чиновники, явно по разному "ощущают" состояние поисковика.

Выбор редакции

Лучшие комментарии

Контекст комментария
Игорь Ашманов Сам себе компания
Однако, не то с Россией! Россия богата талантами. Здесь практически каждый программист на похапе может сделать поисковик и прекрасно разбирается во всех тонкостях: > Юра, полезность данных пропорциональна не объему данных, а где-то логарифму. 100% выдачи Google не сильно полезней 10% выдачи. А Юра ведь написал, что Гугл на 100% перешёл на https. > Если аккуратно своровать результаты поиска, можно очень дешево получить хороший обход (качать то, что находят существующие искалки) 10% из них, правильно я понял? Это афигенная идея — качать 10% Рунета. А вот что делать со ссылками на этих украденных урлах? Ходить по ним? > своровать клики, своровать лингвистику Своровать лингвистику путём наблюдения на магистралях — это сильный ход. Может, и Кеннеди так тоже можно убить? > и работу с запросом, даже сниппеты. Украсть пары «запрос-сниппет»? Обана. А сколько таких пар? > На малых мощностях (1000 машин) можно собрать поисковик уровня Mail.Ru. Ну да. И вы бы это взялись сделать, я так понимаю. Странно, что не на своём ноутбуке. Зачем там вообще тысяча серверов? Только для распила, как мы знаем.
Контекст комментария
Игорь Ашманов Сам себе компания
Потому что это дилетантский взгляд. Технологический вопрос тут основной. Технология — первична. Баллистическими ракетами, ядерным оружием, своими спутниками обладать хотели бы все. Выигрывать олимпиады — тоже. Иначе бы не посылали бы туда свои команды. Но не все могут. Создание лунохода или поисковика — это пирамида, где разработка и выпуск конкретного изделия — это только самый верх. Нужна полная технологическая цепочка, начинающаяся с программ начальной школы, маткружков, олимпиад, ГОСТов, пласта технологий и технологических процессов, накопленных страной. Эта пирамида есть не у всех. Обойти этот вопрос в стиле детского «я тоже могу, но просто не хочу» — не получится. Многие, наоборот, хотят, но не могут. Ну, а как бы умное и правильное рассуждение про то, что якобы доля на рынке — это главное, даже комментировать не буду. Это типичный карго-культ нашего деклассированного и дезориентированного интеллигента. Включите как-нибудь голову и подумайте про ракетную/ядерную промышленность и вопрос доли на ракетном/ядерном рынке.
Контекст комментария
Игорь Ашманов Сам себе компания
Верно. Это должно быть совершенно другой задачей, перпендикулярной. А догнать Яндекс на рынке вообще уже нельзя или крайне дорого, сравнимо с его покупкой. Поэтому и сравнивать тут будет глупо. А что Коля Федотов пишет нам из ЮВА, что технически там ничего сложного нет, типа, «он заглядывал вовнутрь», так это всякий скажет, кто заглядывал под капот автомобиля, например. А ты попробуй-ка построить современный автозавод с конкурентной продукцией. К тому же поисковики появляются, конечно, не десятками в год, но довольно часто. За прошедшие 12 лет я видел попыток создать поисковик, ну, наверно, больше десятка, то есть минимум раз в год. Некоторые проваливались на довольно ранней стадии, некоторые доходили до индексации всего Рунета, некоторые даже выкатывались на публику. В общем, этот путь усеян костями. Часть из них вы знаете (Нигма, Вебальта, Облава, Найти Просто, …), часть — нет, они остались невидимыми неудачами.Наш «народный поисковик» Флексум тоже можно к ним отнести, хотя это не совсем поисковик, а хостинг поисковиков; он стоит, работает, имеет что-то вроде 15 000 пользовательских поисковиков, но общем и целом не взлетел. Я уж не говорю про запуск вертикальных поисковиков, которых ещё в разы больше. В 2-3 случаях нас звали провести аудит и сказать, есть ли в остановленном/замороженном/невыпущенном проекте что-то ценное, можно ли его реанимировать, превратить в конкурента Яндексу. Самое, конечно, грустное в том, что практически во всех известных мне случаях: а) никаких изобретений, новых технологий и прорывов в этих проектах не наблюдалось. Просто по книжке: паук, индексатор, поиск, пейджранк, морфология и всё такое. То есть шансов как-то технологически вырваться вперёд не было изначально; б) маркетинговое позиционирование (даже если только в голове инвесторов и разработчиков) было совершенно дурацкое: «ещё один поиск не хуже Яндекса». А рынку не нужен ещё один Яндекс, этот же уже есть. в) не было никакого плана развития, как, собственно, нагнать туда аудиторию (ну разве что кроме Вебальты, где план был, но совсем уж одиозный). В этом смысле у госпоиска есть все шансы избежать проклятия этих а), б) и в), если всё делать правильно: делать новые функции, не конкурировать с коммерческими поисковиками и делать его платформой по умолчанию.
Контекст комментария
Юрий Синодов Roem.ru
Google на SSL давно всех перетащил У них риск DPI учитывается уже несколько лет.

Добавить 220 комментариев

11 октября 2013 в 09:57 Ответить
Виктор Лавренко coccoc.com
все же я не перестаю восхищаться масштабом личности Игоря. вот настолько уже в мозгах засела его идея про то, что национальный поисковик — это как космическая программа, далеко не все страны способны на это, что даже имя выбрали космическое.
11 октября 2013 в 10:18 Ответить
megaroy
порадуемся за людей, новые рабочие места, кто-то заработает много бюджетных денег.
11 октября 2013 в 10:19 Ответить
Борис Королев (ушел на сайт, где какая-никакая модерация есть) eCPM.ru
Хоккейное. Спутник — хоккейная команда Нижнего Тагила.
11 октября 2013 в 10:22 Ответить
ibear
Очень нужный сервис, как мы раньше без него жили… Судя по тому как сделали Госуслуги, работать поиск будет действительно так — http://gossearch.ru/
11 октября 2013 в 10:28 Ответить
apm
На добровольно-принудительных началах же. Хотя, пункт два комментария Roem.ru все решает.
11 октября 2013 в 11:04 Ответить
Альтер Эго
Что-то Ашманов говорил про «обзор команд, который передал наверх». Но не уточнил, чем тогда кончилось.
11 октября 2013 в 11:30 Ответить
Vladimir Ozerov
Зачем? Есть же уже национальный поисковик. Называется Яндекс.
11 октября 2013 в 11:34 Ответить
trofimov.trofimoff
Какая-то путаница с бюджетами там, только переводят и переводят деньги, а поисковик все ждем.
11 октября 2013 в 11:41 Ответить
Юрий Синодов Roem.ru
У Mail.ru, кстати, есть тулбар «Спутник» Если кто-то не помнит. Или не знал
11 октября 2013 в 11:50 Ответить
neuymin
Спутник и Погром, как справедливо замечают
11 октября 2013 в 12:18 Ответить
Альтер Эго
Над gogo в Яндексе тоже потешались. Ровно до дня, когда Костин показал продукт наружу,
11 октября 2013 в 12:19 Ответить
dima5ty гасконец
Отличная тема. Давно пора. Лишь бы seo не включили в УК по итогам. > Есть же уже национальный поисковик. Называется Яндекс. Во-первых, уже не поисковик. Во-вторых, отечество наше не в Нидерландах.
11 октября 2013 в 12:24 Ответить
Павел Гросс Domains Corp
А доменчик выкупили и очень НЕДЕШЕВО у Гледенова)) Домен: Домен: SPUTNIK.RU Сервер DNS: ns1.rostelecom.ru. Сервер DNS: ns2.rostelecom.ru. Сервер DNS: ns.sputnik.ru. 109.207.13.146 Статус: зарегистрирован, делегирован, не проверен Администратор домена: Организация «RTCOMM.RU Open Joint Stock Company» Регистратор: RTCOMM-REG-RIPN Дата регистрации: 2001.12.04 Дата окончания регистрации: 2013.12.05 Дата освобождения: 2014.01.05 Источник: TCI
11 октября 2013 в 12:25 Ответить
Альтер Эго
Забавная история может получиться, с учетом того, что Ростелекому очень просто воровать выдачу Google и Яндекс, они ведь сидят на каналах. С таким источником данных технологически несложно выстроить пристойный web-поиск.
11 октября 2013 в 12:29 Ответить
Юрий Синодов Roem.ru
Google на SSL давно всех перетащил У них риск DPI учитывается уже несколько лет.
11 октября 2013 в 12:39 Ответить
Альтер Эго
Юра, полезность данных пропорциональна не объему данных, а где-то логарифму. 100% выдачи Google не сильно полезней 10% выдачи. Если аккуратно своровать результаты поиска, можно очень дешево получить хороший обход (качать то, что находят существующие искалки), своровать клики, своровать лингвистику и работу с запросом, даже сниппеты. На малых мощностях (1000 машин) можно собрать поисковик уровня Mail.Ru.
11 октября 2013 в 12:47 Ответить
Альтер Эго
Вряд ли Басов успел сильно повлиять на проект. Скорее это будет детище Татевосяна: http://s-tatevosyan.moikrug.ru/
11 октября 2013 в 12:48 Ответить
Артемий Пулявин
А зачем? Если хотите строить бизнес, то причём тут гос. бюджет. Если хотите поиграться, то зачем использоваться для этого гос. бюджет. Если хотите конкурировать с Яндексом, а тем паче с Гуглом — гос. бюджета не хватит. И будет у нас крутой гос. поисковик, но дырявые танки. И чем будет отличаться гос. поисковик от текущих игроков рынка? Лучше бы сделали они проект, который бы искал по правовой базе, гос. услугам и просто блогам обычных людей, которые отписываются о работе бюрократической машины. А не проще ли эти деньги инвестировать в тот же Яндекс и расширить его сферу влияния дальше Турции?
11 октября 2013 в 12:56 Ответить
Альтер Эго
Сотрудники Яндекса массово прикалываются над, возможно, плохим поиском Ростелекома. Мнимый перфекционизм не мешал им открывать убогий поиск в Турции и США.
11 октября 2013 в 13:12 Ответить
Альтер Эго
А у нас в стране все поголовно за «малое государство», когда речь заходит о налогах и бизнесе, и за тоталитарное государство, когда думают о своих социальных гарантиях. Плюрализм мнений в одной голове.
11 октября 2013 в 13:24 Ответить
Paul Green
Последние инициативы Яндекса в отношении магазинов могут сильно повысить интерес к новому поиску.
11 октября 2013 в 13:41 Ответить
Альтер Эго
Судя по характеру сливов про «Спутник», информационную волну поднимает сам Яндекс, чтобы снизить шансы получения Ростелекомом денег на развитие проекта, что чревато для Яндекса потерей рыночной доли и очередных ценных сотрудников.
11 октября 2013 в 13:51 Ответить
Артемий Пулявин
>Судя по характеру сливов про «Спутник», информационную волну поднимает сам Яндекс, чтобы >снизить шансы получения Ростелекомом денег на развитие проекта, что чревато для Яндекса >потерей рыночной доли и очередных ценных сотрудников. Бред…
11 октября 2013 в 14:13 Ответить
Юрий Синодов Roem.ru
Насчёт доли рынка — может быть и бред, но вот воевать зарплатами с шальными госденьгами — Яндексу тоже ни к чему Вполне можно так действовать С другой стороны, про госпоисковик знает слишком много людей, чтобы «Яндексу» целенаправленно приходилось просить «Ведомости» что-то о нём написать.
11 октября 2013 в 14:56 Ответить
hjkl
так гос.деньги сегодня есть — завтра нет.
11 октября 2013 в 15:32 Ответить
Валентин Домбровский Travelabs
Это неловкое чувство, когда понимаешь, что совладелец Роем.ру работает в Ростелекоме.
11 октября 2013 в 15:35 Ответить
ibear
Первый скриншот уже просочился в интернеты
11 октября 2013 в 16:04 Ответить
miteigi_nemoto
Чиновников сотни тысяч, служащих в около госструктур еще больше, каждому поставят на рабочем месте в браузер «Спутник». Итого получится хорошая машина пропаганды.
11 октября 2013 в 16:14 Ответить
qqq
> Первый скриншот уже просочился у настоящего Спутника лого должно быть цвета российского триколора :)
11 октября 2013 в 16:37 Ответить
Евгений Грейс
Убого будет 100%, и не важно кто стоит за этим, если речь о государственном.. ( увы К тому же уже ж есть http://gossearch.ru/ :)
11 октября 2013 в 16:43 Ответить
Альтер Эго
ждем хвалебных статей о Спутнике на Роеме.
11 октября 2013 в 17:08 Ответить
Юрий Синодов Roem.ru
А в глаз вам не двинуть, милейший? Или вы тут много видели хвалебных статей про «Ашманов и партнёры», например?
11 октября 2013 в 17:22 Ответить
Paul Green
Любая не ругательная информация по теме госпоиска будет восприниматься некоторой частью читателей априори как хвалебная.
11 октября 2013 в 17:40 Ответить
Евгений Гордеев Russian Ventures
Главное, чтобы кнопки Pluso поставили.
11 октября 2013 в 18:04 Ответить
Альтер Эго
Всё ещё ждём запуска контекстной рекламы и счётчиков от Ростелекома.
11 октября 2013 в 18:28 Ответить
AndreyOs Ostankino
Так Ростелекому вообще можно и не делать поисковик. Надо просто продать все поисковые места по аукционной модели и принудительно поставить поисковик пенсионерам, в школах. институтах и так далее или провести новый закон в гос.думе для поддержки Ростелекома и национального аукциона по выдаче.
11 октября 2013 в 18:49 Ответить
Игорь Ашманов Сам себе компания
> все же я не перестаю восхищаться масштабом личности Игоря. вот настолько уже в мозгах засела его идея про то, что национальный поисковик — это как космическая программа, далеко не все страны способны на это Это, вообще-то, идея Воложа и Сегаловича, Виктор. Это они впервые об этом сказали где-то. Более того, она очевидна: действительно, а) поисковики есть не у всех стран, б) число таких стран заметно меньше, чем число стран, у которых есть космическая отрасль, сильно меньше, чем число стран со своим ракетостроением, и тем более имеющих собственный авиапром или автопром.
11 октября 2013 в 18:59 Ответить
Игорь Ашманов Сам себе компания
Однако, не то с Россией! Россия богата талантами. Здесь практически каждый программист на похапе может сделать поисковик и прекрасно разбирается во всех тонкостях: > Юра, полезность данных пропорциональна не объему данных, а где-то логарифму. 100% выдачи Google не сильно полезней 10% выдачи. А Юра ведь написал, что Гугл на 100% перешёл на https. > Если аккуратно своровать результаты поиска, можно очень дешево получить хороший обход (качать то, что находят существующие искалки) 10% из них, правильно я понял? Это афигенная идея — качать 10% Рунета. А вот что делать со ссылками на этих украденных урлах? Ходить по ним? > своровать клики, своровать лингвистику Своровать лингвистику путём наблюдения на магистралях — это сильный ход. Может, и Кеннеди так тоже можно убить? > и работу с запросом, даже сниппеты. Украсть пары «запрос-сниппет»? Обана. А сколько таких пар? > На малых мощностях (1000 машин) можно собрать поисковик уровня Mail.Ru. Ну да. И вы бы это взялись сделать, я так понимаю. Странно, что не на своём ноутбуке. Зачем там вообще тысяча серверов? Только для распила, как мы знаем.
11 октября 2013 в 19:09 Ответить
Альтер Эго
Ну в общем-то не все страны способны и «айфоны собирать». Я имею в виду не «разрабатывать», а именно «скручивать/свинчивать/в коробочку класть». Китай может, а Америка — нет. Не все страны бурят в Антарктиде скважины глубиной 4 километра чтобы посмотреть — живут ли в озере бактерии или нет. Большинству стран такой вопрос не интересен. Они считают, что не будет ничего плохого если узнают об этом из СМИ. Не все страны борятся за проведение Олимпиады, Чемпионатов по футболу, и даже какому-нибудь первенству по шашкам. Забот много, а смысла не очень. При создании поисковика проблемы на самом деле как минимум две — (а) как это создать технически (б) как быть прибыльным, если тебе принадлежит только минорная (а сперва вообще нулевая) часть этого рынка. И на мой дилетансткий взгляд (б) значительно серьезнее.
11 октября 2013 в 19:41 Ответить
Игорь Ашманов Сам себе компания
Потому что это дилетантский взгляд. Технологический вопрос тут основной. Технология — первична. Баллистическими ракетами, ядерным оружием, своими спутниками обладать хотели бы все. Выигрывать олимпиады — тоже. Иначе бы не посылали бы туда свои команды. Но не все могут. Создание лунохода или поисковика — это пирамида, где разработка и выпуск конкретного изделия — это только самый верх. Нужна полная технологическая цепочка, начинающаяся с программ начальной школы, маткружков, олимпиад, ГОСТов, пласта технологий и технологических процессов, накопленных страной. Эта пирамида есть не у всех. Обойти этот вопрос в стиле детского «я тоже могу, но просто не хочу» — не получится. Многие, наоборот, хотят, но не могут. Ну, а как бы умное и правильное рассуждение про то, что якобы доля на рынке — это главное, даже комментировать не буду. Это типичный карго-культ нашего деклассированного и дезориентированного интеллигента. Включите как-нибудь голову и подумайте про ракетную/ядерную промышленность и вопрос доли на ракетном/ядерном рынке.
11 октября 2013 в 20:02 Ответить
Альтер Эго
> Однако, не то с Россией! Россия богата талантами. Здесь практически каждый программист на похапе может сделать поисковик и прекрасно разбирается во всех тонкостях: Не каждый. > А Юра ведь написал, что Гугл на 100% перешёл на https. Это не совсем так. Может быть старые браузеры, может быть прихоть google, но процентов 10% еще по http. И есть еще открытый Яндекс, который в два раза пока больше. > 10% из них, правильно я понял? Это афигенная идея — качать 10% Рунета. А вот что делать со ссылками на этих украденных урлах? Ходить по ним? Нет, качать документы, которые показали поисковики. И это не 10% от чего-то там, а всего сотни миллионов документов. По ссылкам лучше ходить, если есть чему и на чем. > Своровать лингвистику путём наблюдения на магистралях — это сильный ход. Может, и Кеннеди так тоже можно убить? Да. Нужно приписать к документу запросы, по которым его нашли Google/Yandex. Полнота релевантных документов вырастет резко. > Украсть пары «запрос-сниппет»? Обана. А сколько таких пар? Миллиарды, что укладывается в считанные терабайты. > Ну да. И вы бы это взялись сделать, я так понимаю. Странно, что не на своём ноутбуке. Зачем там вообще тысяча серверов? Только для распила, как мы знаем. Нет, не взялся бы.
11 октября 2013 в 20:03 Ответить
Альтер Эго
> ядерным оружием […] обладать хотели бы все. Ну так прям уж все? Япония конституционно отказалась от владения, наши республики после развала Союза тоже не особо напрягались (я и в международной политике не силен — поправьте если что). Может это и карго-культ, но зачем маленькой Украине или Казахстану 10 ядреных боеголовок если у соседа уже есть 100? Войну ими не выиграть, даже напугать трудно. Гордиться этим и стращать соседей как великий вождь Кореи? Это вполне нормальная ситуация, когда «для концентрации над чем-либо» компания/страна отказывается от каких-то других направлений. Закрыл Гугль свой RSS-ридер — это же не значит, что его поддержка слишком сложна для корпорации? Да, в нашей стране ситуация сложилась так, что выросли и поисковик, и почтовик, и вообще IT-индустрия пока на высоте. Но может быть это случилось потому что умные люди понимают, что лучше создавать виртуальные технологии, чем пытаться в нечерноземьи вырастить рожь? А в какой-нибудь Германии лучше засеять поле овсом и радоваться жизни не думая о государственном поисковике?
11 октября 2013 в 20:07 Ответить
Eli
> Включите как-нибудь голову и подумайте про ракетную/ядерную промышленность и вопрос доли на ракетном/ядерном рынке. А в чем тут аналогия? Допустим, министерство попилостроения делает Технически Лучший Поисковик. Которым никто не пользуется, кроме бюджетных учреждений (потому что там гуглояндекс заблокировали). Дальше что? Как от этого повысится обороноспособность и суверенность, если остальной народ продолжит пользоваться гуглояндексом и не будет защищен от информационных атак врагов России?
11 октября 2013 в 20:11 Ответить
Альтер Эго
Что-то тут говна много полилось и оскорблений, но никто не задался весьма важными вопросами. Ну, например, к кому на сайт приходил робот ростелекомовского поиска? Учитывая, что масштаб поиска — весь рунет минимум, такой робот не мог остаться не замеченным. Есть подозрение, что покажут обычный поиск Мыла. И разработки никакой не надо, поиск написан и работает. Остается только морду сделать. Ну и дальше развивать колдунщики государственные. Мыло же, по блату, получит дампы запросов и результатов яндексовых, чисто в технологических целях, для улучшения качества. Так что привет Яндексу, который жутко тупит и до сих пор не перешел на SSL. Мало того, что сеорастов кормят кейвордами, так ещё и конкурентам слив из Ростелекома дадут.
11 октября 2013 в 20:13 Ответить
Альтер Эго
Нужна полная технологическая цепочка, начинающаяся с программ начальной школы, маткружков, олимпиад, ГОСТов, пласта технологий и технологических процессов, накопленных страной. Эта пирамида есть не у всех. Зато у некоторых есть бабло на скупку продукта жизнедеятельности этой пирамиды. А вот у самой этой вашей пирамиды есть только прошлое.
11 октября 2013 в 20:15 Ответить
Игорь Ашманов Сам себе компания
Похоже, говорит человек с упавшим уровнем гормонов и высоким уровнем холестерина. Да, у вас впереди только старость. И вы уже не станете никем.
11 октября 2013 в 20:18 Ответить
Paul Green
> Которым никто не пользуется, кроме бюджетных учреждений Пишут, что за последние 5 лет только число чиновников увеличилось на 100 тысяч. А бюджетников вообще десятки миллионов, да? Какой ещё сервис может иметь со старта такую базу пользователей, причём с полным соц.демом и прочими плюшками?
11 октября 2013 в 20:20 Ответить
Dobroe Derevo
Фрэнк Заппа пошутил: You can’t be a real country unless you have a beer and an airline. It helps if you have some kind of a football team, or some nuclear weapons, but at the very least you need a beer.
11 октября 2013 в 20:22 Ответить
Альтер Эго
>А в какой-нибудь Германии лучше засеять поле овсом и радоваться жизни не думая о государственном поисковике? Конечно, Германия уже и от атомной энергетики отказывается, и рыбные дни вводить предлагают. всё для радости людей.
11 октября 2013 в 20:27 Ответить
Игорь Ашманов Сам себе компания
> Нет, качать документы, которые показали поисковики. И это не 10% от чего-то там, а всего сотни миллионов документов Так-так. Яндекс индексирует больше 10 миллиардов документов. Вы предлагаете украсть на магистралях урлы нескольких сотен миллионов и вот их-то и показывать. ОК. А что вы будете делать с тем фактом, что каждый месяц задаётся больше 50% уникальных запросов, которые не задавались ранее и не будут заданы потом? И по которым выдача поисковиков вам неизвестна (потому что в видите 10%). Ничего не будете показывать по ним? Мне кажется, разбирается в поисковиках действительно не каждый, как в пишете выше. И вот вы как раз — не каждый. Или вы каждый? > Да. Нужно приписать к документу запросы, по которым его нашли Google/Yandex. Полнота релевантных документов вырастет резко. Да ну! Полнота релевантных документов — это пять. Это на докторскую. Мне кажется, вы не отличаете полноту и точность. Могла бы вырасти точность — да только на ничтожном проценте запросов. И на тех уникальных 50% запросов точность не вырастет совсем никак. > Ну, например, к кому на сайт приходил робот ростелекомовского поиска? Учитывая, что масштаб поиска — весь рунет минимум, такой робот не мог остаться не замеченным. Верно, он и приходит. Последние пару лет. И об этом тут даже писали. И юзер-эйджент известен. Но тут же специалисты по всем вопросам, которые формируют своё мнение обо всём в реальном времени.
11 октября 2013 в 20:33 Ответить
Игорь Ашманов Сам себе компания
> Япония конституционно отказалась от владения Наверно, и Германия тоже конституционно отказалась, да? И от армии они обои тоже конституционно отказалися, не хочу, говорят, и всё тут! И вот такие они альтерэги тут у нас знатоки во всём. Япония, как мы видим, кстати, не способна владеть даже мирным атомом.
11 октября 2013 в 20:39 Ответить
Артемий Пулявин
То, что что-то развивается — это хорошо, даже очень хорошо. Все наработки рано или поздно будут использоваться. Атомная промышленность помогла атомной энергетике, а ракетная промышленность сделала новогодние петарды ещё более забавнее. НО. Сидите Вы тихо там и исследуйте, зачем сотрясать воздух каждые три года. Получится — хорошо, будет потом голосовое распознавание запросов и своя военная сири, которая позволит генералам фразой: — «П*здани» метко уничтожить условного противника. А по фатку очередной оборот поршней бюрократической машины.
11 октября 2013 в 20:40 Ответить
Альтер Эго
> Так-так. Яндекс индексирует больше 10 миллиардов документов. Вы предлагаете украсть на магистралях урлы нескольких сотен миллионов и вот их-то и показывать. Если бы Яндекс сейчас оставил, скажем, 500 милллионов лучших своих документов, его качество упало бы лишь на проценты. И список этих документов несложно украсть. Написать алгоритмы обхода куда сложнее, чем украсть. > ОК. А что вы будете делать с тем фактом, что каждый месяц задаётся больше 50% уникальных запросов, которые не задавались ранее и не будут заданы потом? И по которым выдача поисковиков вам неизвестна (потому что в видите 10%). Ничего не будете показывать по ним? Индекс, конечно, надо строить, а не просто выдачу запоминать. > Мне кажется, разбирается в поисковиках действительно не каждый, как в пишете выше. И вот вы как раз — не каждый. Или вы каждый? Что-то я разочарован, Игорь Станиславович, вашими познаниями и манерой вести дискуссию. > И на тех уникальных 50% запросов точность не вырастет совсем никак. Если вы для odnoklassiniki.ru запомнили, что по нему кликнули по запросу [аднакласники], это поможет вам её найти и по запросу [аднакласники моя страница]. А если воровать не пару запрос-URL, а “слово x значит то же, что и y”, то можно получить и более сильный результат.
11 октября 2013 в 20:45 Ответить
Альтер Эго
> Да ну! Полнота релевантных документов — это пять. Это на докторскую. Мне кажется, вы не отличаете полноту и точность. Могла бы вырасти точность — да только на ничтожном проценте запросов. И на тех уникальных 50% запросов точность не вырастет совсем никак. Именно полнота. Вот есть у вас запрос, есть общий котел хороших документов по этому запросу со всех поисковиков. Когда искалка X добавляет себе в выдачу часть этих хороших документов, что увеличивается? Правильно, полнота. Садись, Иванов, пять.
11 октября 2013 в 20:48 Ответить
Игорь Ашманов Сам себе компания
> Если бы Яндекс сейчас оставил, скажем, 500 милллионов лучших своих документов, его качество упало бы лишь на проценты. По-моему, вы бредите. Такое бывает от воспаления самолюбования. Вы бы штоле пошли почитали наш анализаторы http://analyzethis.ru, там и про полноту, и про разнообразие, про количество документов, про точность… Про Яндекс, кстати. Может, какие мысли придут в голову, кроме того, что у вас есть афигенные идеи, как у того раввина из анекдота про падёж овец.
11 октября 2013 в 20:48 Ответить
Альтер Эго
Не вижу в комментариях ilyak. Волнуюсь, с ним все в порядке? Может крававый Яндекс заставил его уже работать?
11 октября 2013 в 20:58 Ответить
Игорь Ашманов Сам себе компания
> Именно полнота. Вот есть у вас запрос, есть общий котел хороших документов по этому запросу со всех поисковиков. Когда искалка X добавляет себе в выдачу часть этих хороших документов, что увеличивается? Правильно, полнота. Садись, Иванов, пять. А, по манере ставить оценки сразу вижу троешника. Намучились с неправильной стороны стола на экзаменах, да? Сочувствую. А ответ неправильный. Полнота — это не это. Таким образом можно было бы увеличить точность. Но не получится.
11 октября 2013 в 21:00 Ответить
Игорь Ашманов Сам себе компания
> А если воровать не пару запрос-URL, а “слово x значит то же, что и y”, то можно получить и более сильный результат. Это у кого можно своровать, у Яндекса? На магистралях? А нет ли у вас рецепта от облысения и для всеобщего счастья?
11 октября 2013 в 21:03 Ответить
Игорь Ашманов Сам себе компания
> НО. Сидите Вы тихо там и исследуйте, зачем сотрясать воздух каждые три года. Вы о чём вообще? Вы источник-то читали? Кто сотрясает воздух посмотрите в источнике, пожалуйста.
11 октября 2013 в 21:07 Ответить
Альтер Эго
> Это у кого можно своровать, у Яндекса? На магистралях? Ну да. Там же HTTP ходит? Вот и логируем: 1. Запрос [аднакласники] 2. Выдача: odnoklassniki.ru, vk.com, ashmanov.odnoklassniki.ru 3. Клик по odnoklassniki.ru 4. В сниппете прокрасили «одноклассники». URL-ы на обход, факт показа по запросу — в индекс, факт клика по документу по запросу — в индекс, «аднакласники»==»одноклассники» — в лингвистический модуль. Если Ростелеком — это минимально вменяемая компания, отдел поисковика обязан об этой отгрузке данных с сетевиками договориться. В общем, каналы Ростелекома могут быть источником данных не хуже, чем Chrome или бары/браузеры Яндекса.
11 октября 2013 в 21:09 Ответить
Альтер Эго
>Это у кого можно своровать, у Яндекса? На магистралях? На магистралях же можно перехватить полное содержание страницы, не только то, что видит пользователь. И запросы XHR, а там вся информация доступна.
11 октября 2013 в 21:11 Ответить
Альтер Эго
> А ответ неправильный. Полнота — это не это. Я просто оставлю это здесь: http://en.wikipedia.org/wiki/Recall_(information_retrieval) Прочитайте учебник уже, Игорь Станиславович, Возьмите бумажку, порисуйте точечки и кружочки. Посчитайте, покрутите. Нужно иногда, Игорь Станиславович, учиться чему-то новому. Как минимум, чтобы в вашем возрасте предотвратить старческую деменцию.
11 октября 2013 в 21:16 Ответить
Валентин Домбровский Travelabs
Я вот нихрена не специалист в поиске, но кажется, что бывают ещё более нихрена не специалисты. Впрочем, возможно, мне это только кажется.
11 октября 2013 в 21:29 Ответить
Игорь Ашманов Сам себе компания
> В общем, каналы Ростелекома могут быть источником данных не хуже, чем Chrome или бары/браузеры Яндекса. Вот теперь верно. Да, украсть на магистралях такие данные можно и улучшить существующий поисковик — можно. Но для этого нужно сначала построить полноценный поисковик, с обратным индексом, с морфологией, таки заиндексировать весь Рунет, сделать нормальный расчёт ссылочного, нормальный текстовый поиск, факторы придумать, машинное обучение и т.п. И уж потом — приправа в виде подсматривания за Яндексом, на популярной верхушке. Только и исключительно на этих обрывках ничего содержательного не сделать нельзя. Гера Клименко, кстати, пытался — был у него поисковик, основанный на данных Liveinternet о переходах с поиска. Примерно тот же объём информации. Ничего не вышло. Так что сотрудничество или акционерная связь с РТ — дополнительное конкурентное преимущество. Против браузеров и тулбаров у яндексов и гуглов. > Прочитайте учебник уже, Игорь Станиславович, Ну спасибо за участие и добрый совет. Но я учебники в основном пишу, а не читаю. А вам не мешало бы читать ссылочки, которые вы даёте. Полнота — это не то, ещё раз говорю вам. Вы не фтыкаете. Это, впрочем, обычная история — по какой-то причине большинство людей ниасилевают понятие полноты-точности, понятие ложных тревог/пропусков цели и тому подобные теоретико-множественные конструкции. Так же, как понятия необходимого и достаточного, это по сути одно и то же. И дело тут не в образовании, а в нехватке или несформированности каких-то мозговых структур. Я, кстати, много раз это наблюдал в высшей математике с теорией бесконечно малых. Некоторые люди нормально учились, но потом ударялись о пределы и никогда уже эту стену не перелезали. Просто не могли. Женщины чаще, конечно, но и мужчины тоже такие бывали. Вот сейчас наблюдаю в реальном времени то же самое с полнотой и точностью: похоже, это может быть ваш случай. Кстати, Джоэл Спольски пишет о ровно такой же истории про указатели в Си. Некоторые его ученики учились программированию хорошо, ровно до столкновения с указателями. А потом ничто не помогало, просто не укладывалось в голове и всё, вплоть до отчисления.
11 октября 2013 в 21:36 Ответить
Альтер Эго
Амзин отписался. http://lenta.ru/columns/2013/10/11/sputnik/ Что-то я этих либералов не понимаю. Представим себе новость. Государство выделило $20 миллионов долларов на три года, чтобы студенты старших курсов написали поисковик, потренировались, получили профессию. Бурные овации с мест, крики «Бис», «Браво». Так ведь это и произошло. Потренируются, получат знания, навыки, профессию, пойдут работать в компании с лучшим соц. пакетом: Яндексы, Google’ы, Microsoft’ы.
11 октября 2013 в 21:42 Ответить
Альтер Эго
Не, ну Вы посмотрите только. Аргументы у Игоря Станиславовича закончились и он сразу перешёл на личности, про формирование мозга заговорил. Определение в википедии дано и спорить тут не о чем. Точка.
11 октября 2013 в 21:44 Ответить
Альтер Эго
>Государство выделило $20 миллионов долларов на три года, чтобы студенты старших курсов написали поисковик, потренировались, получили профессию Да, чтобы потренировались пилить деньги. 20 миллионов долларов выкинуть в никуда. Вы хоть знаете сколько у нас людей в стране живёт за чертой бедности? Поездите по детским домам, посмотрите на голодающих детей.
11 октября 2013 в 21:45 Ответить
Валентин Домбровский Travelabs
Представим себе новость. Государство выделило $20 миллионов долларов на три года, чтобы студенты старших курсов написали поисковик, потренировались, получили профессию. Бурные овации с мест, крики «Бис», «Браво». Так ведь это и произошло. Потренируются, получат знания, навыки, профессию, пойдут работать в компании с лучшим соц. пакетом: Яндексы, Google’ы, Microsoft’ы. Извините, но Амзин пишет ровно о том же, однако отмечает, что государство как раз таки поступает иначе: И, говорят, люди из «Спутника» уже проводят собеседования с сотрудниками крупных поисковиков. Ей-богу, с такой звериной серьезностью лучше те же деньги отдать школам с математическим уклоном. Тамошние ученики гарантированно принесут государству больше пользы, если займутся поисковыми технологиями в «Яндексе», Google или Mail.ru. Что-то я не видел инфы насчёт студентов старших курсов. Так-то оно, может, и неплохо было, хотя опять же у вышеупомянутых компаний есть свои программы сотрудничества с вузами и, возможно, больше пользы было бы в их поддержке.
11 октября 2013 в 21:47 Ответить
Альтер Эго
Хе-хе. Ну давайте порисуем за вас. Введем обозначеня: R — релевантный, N — нерелевантный. Пусть выдача первого поисковика: R1, R2, N3, R4, N5, R6, N7, N8, R9, N10. Пусть выдача второго поисковика: R1, R3, N3, N4, N5, N6, N7, N8, N9, N10. Полнота второго поисковика — 2/6. Теперь второй поисковик украл релевантные результаты из первого (добил в конец десятки выдачу первого, убрав дубли). Его выдача теперь, скажем: R1, R3, N3, N4, N5, N6, R2, R4, R6, N7. Теперь его полнота: 5/6. Больше, получается. На трояк-то заработал? :)
11 октября 2013 в 21:56 Ответить
Альтер Эго
> И, говорят, люди из «Спутника» уже проводят собеседования с сотрудниками крупных поисковиков. И кто-то уже перешел? Треп какой-то пока. Если, скажем, младших программистов Яндекса будут брать руководителями отделов, это тоже будет понятной и правильной историей. Моя гипотеза, что кто-то в Ростелекоме точит поисковик на малых ресурсах и маленьким коллективом без звезд. Ростелеком все мечтает получить от государства деньги, чтобы окупить и отмасштабировать проект. Яндекс мешает этим планам сливами, а орава бесплатных д..бов выступает в своем репертуаре. Но хоть Ашманов узнал, что такое точность. Теперь еще один учебник напишет.
11 октября 2013 в 22:09 Ответить
Альтер Эго
> каждый месяц задаётся больше 50% уникальных запросов, которые не задавались ранее и не будут заданы потом Скорее каждый день, а не месяц. За неделю/месяц/год часть из них повторяются и % неповторяющихся запросов на длинном промежутке времени < 50. А трафа по ним совсем смешной % получается. И по таким запросам и у Гугло-Яндексов не всё хорошо (и ПФ под шумом). Если уж воровать выдачу, то это имеет смысел по хоть сколько-то частотным запросам. А по неповторяющимся — своё говно показывать (такое же дорвейное, как и у старых/больших ПС).
11 октября 2013 в 22:35 Ответить
Альтер Эго
Я думаю Ашманов сам не разбирает в том, что пишет. Вы заметили, что он не говорит по сути, а только общими словами? А когда заходит разговор о конкретных определениях, то сразу переходит на личность?
11 октября 2013 в 22:48 Ответить
Альтер Эго
> Если бы Яндекс сейчас оставил, скажем, 500 милллионов лучших своих документов, его качество упало бы лишь на проценты. > По-моему, вы бредите. Такое бывает от воспаления самолюбования. > По-моему, вы бредите. Такое бывает от воспаления самолюбования. > Вы бы штоле пошли почитали наш анализаторы http://analyzethis.ru, там и про полноту, и про разнообразие, про количество документов, про точность… Про Яндекс, кстати. Почитал, почитал. Там написано, что мелкий поисковик Yahoo имеет базу в десять раз меньше, а качество хуже лишь на пару пунктов.
11 октября 2013 в 23:22 Ответить
4u4undr
Не, ну Вы посмотрите только. Аргументы у Игоря Станиславовича закончились и он сразу перешёл на личности, про формирование мозга заговорил. Определение в википедии дано и спорить тут не о чем. Точка. Почитал)) посмеялся… Весело, когда воинствующее невежество что-то доказывает специалистам в какой-либо области и при этом… о боже… ссылается на Википедию. Проще было сразу написать у себя на лбу — я идиот)) В свое время своих сотрудников несколько раз тыкнул в это http://ru.wikipedia.org/wiki/:__ пока до них дошло…
11 октября 2013 в 23:27 Ответить
Альтер Эго
4u4undr, вы — идиот? Процент ложных фактов в Wikipedia не хуже, чем в Британике. А неконьюнктурные статьи вылизаны до буквы. Не верите Wikipedia (большей глупости давно не читал), вот вам самый русский, самый официальный документ такого рода: http://romip.ru/romip2006/appendix_a_metrics.pdf
11 октября 2013 в 23:52 Ответить
Игорь Ашманов Сам себе компания
Продолжается фестиваль талантливых и находчивых троешников. Теперь не только пишут, но и рисуют. > Теперь второй поисковик украл релевантные результаты из первого А как первый поисковик узнал, какие результаты второго релевантны?
11 октября 2013 в 23:53 Ответить
Игорь Ашманов Сам себе компания
Но сама бриллиантовая идея, что полнота — это количество релевантных результатов в десятке, отдельно доставляет. Тут не только Википедия, но и карательная психиатрия, скорее всего, бессильна.
11 октября 2013 в 23:56 Ответить
Игорь Ашманов Сам себе компания
> Там написано, что мелкий поисковик Yahoo имеет базу в десять раз меньше, а качество хуже лишь на пару пунктов. Качество — это что такое? Будут пользователи пользоваться поисковиков с очень хорошей релевантностью, но базой меньше в 10 раз?
12 октября 2013 в 00:25 Ответить
Альтер Эго
> А как первый поисковик узнал, какие результаты второго релевантны? Никак. В моем примере он механистически смешал выдачу. > Но сама бриллиантовая идея, что полнота — это количество релевантных результатов в десятке, отдельно доставляет. Тут не только Википедия, но и карательная психиатрия, скорее всего, бессильна. Ну вы почитайте про ROMIP/TRAC. Напишите им, они и не знают. > Качество — это что такое? Асессорские оценки больше всего похожи на качество (из того, что есть на Analyzethis). > Будут пользователи пользоваться поисковиков с очень хорошей релевантностью, но базой меньше в 10 раз? Bing как-то умудряется набирать долю в США, сильно уступая Google в размерах базы. http://analyzethis.ru/?group=completeness&lang=ru&location=en Связь размеров базы и воспринимаемого качества — сложная. Вот Yandex уступает Google по размерам базы раз в 100, возможно. Но более-менее держит паритет в русском сегменте.
12 октября 2013 в 00:38 Ответить
Альтер Эго
> Полнота — это количество релевантных результатов в десятке, отдельно доставляет. Полнота (для web-искалки) — это не количество релевантных результатов в десятке, но доля найденных релевантных от всех известных релевантных. И да, ворованная лингвистика позволяет эту полноту увеличить. PS И да, я — простой аноним, но дела с вами постараюсь никогда не иметь, если такая возможность предоставится.
12 октября 2013 в 00:46 Ответить
Артемий Пулявин
Завёлся какой-то толстый троль, который тонко пытается спорить с Ашмановым. Однако…
12 октября 2013 в 01:00 Ответить
miteigi_nemoto
Как говорили разработчики Sphinx: на 40 серверах держали 10 млрд документов, 15Тб сжатых данных в СУБД, 3Тб поисковый индекс. Нагрузка для 7м запросов ежедневно. Ну пару сотен серваков для паучков, наверное, пустить. Делов $1-2 млн на годик. Сколько там в Рунете полезных страниц без пиратских и сеосайтов и прочей копипасты? Не больше 10 млрд. на мой взгляд. $20 млн потратили это, наверное, только то, что смогли подсчитать сквозь пальцы, без учета карманных поисковичков.
12 октября 2013 в 01:17 Ответить
Альтер Эго
Renodo прав. Необходимо заметить, что на дворе не 1998-ой год. Есть Sphinx, Hadoop, AOT, R, тысячи человек, которые знают, как делать поиск. Трудоемкость создания полноценного поиска снижается. От появления новых игроков уже защищает не запредельная технологическая сложность, а отсутствие открытых данных (клики, бары) и платформы для монетизации. Вот вам история китайского антивируса, который монетизируется через собственный поиск: http://en.wikipedia.org/wiki/Qihoo
12 октября 2013 в 01:43 Ответить
Альтер Эго
Тонко спорить с Ашмановым? Да Маэстро просто тупит и хамит, спор тут даже не начинался. Над gogo в Яндексе тоже потешались. Ровно до дня, когда Костин показал продукт наружу Это такая мейловая легенда? Всё про gogo в яндексе знали примерно всегда и никто не потешался, но и трепета не было. Да, можно за 5+ человеколет сделать нечто напоминающее веб-поиск. Особенно, если знать что делать. За 100+ человеколет он даже будет неплох и его будут сносить на 10-м запросе, а не на 3-м. Люди на государственные деньги пилят ещё один такой. Лучше бы пытались делать то, чего ещё нет. От новых игроков защищает много всего. В том числе и технологическая сложность допрыгнуть до качества, когда прибыль с пользователя выше стоимости его привлечения. На AOT-е с R-ом не получается такое пока что. Есть мнение, что и не получится. У обсуждаемого нового игрока неожиданно низкая стоимость привлечения в виде дубины «поставим спутник всему ржд». Это неожиданный вид борьбы, особенно, учитывая тот факт, что это происходит на налоги, которые платят в том числе и существующие игроки.
12 октября 2013 в 01:59 Ответить
Альтер Эго
> Это такая мейловая легенда? Всё про gogo в яндексе знали примерно всегда и никто не потешался, но и трепета не было. Да, можно за 5+ человеколет сделать нечто напоминающее веб-поиск. Особенно, если знать что делать. За 100+ человеколет он даже будет неплох и его будут сносить на 10-м запросе, а не на 3-м. Люди на государственные деньги пилят ещё один такой. Лучше бы пытались делать то, чего ещё нет Ну вот, опять потешаешься :) Привет, кстати. Как там кучерявый с iPad’ом? :)
12 октября 2013 в 04:37 Ответить
dima5ty гасконец
Renodo прав. Необходимо заметить, что на дворе не 1998-ой год. Есть Sphinx, Hadoop, AOT, R, тысячи человек, которые знают, как делать поиск. Нет, серьёзно, прежде чем писать такую фигню посчитайте что-нибудь в R хотя-бы на гигабайте, разберите хотя бы терайбат на Хадупе, найдите переколдовки по АОТу и найдите хотя бы 100 человек отличающих нормальное распределение от логнормального =)
12 октября 2013 в 04:54 Ответить
itman
Дык, если поисковик будет обрабатывать какие-нибудь жалкие миллион пять запросов в день и индексировать, скажем, пару миллиардов документов, то 1000 серверов это может даже много оказаться.
12 октября 2013 в 05:31 Ответить
Альтер Эго
> Нет, серьёзно, прежде чем писать такую фигню посчитайте что-нибудь в R хотя-бы на гигабайте, разберите хотя бы терайбат на Хадупе, найдите переколдовки по АОТу и найдите хотя бы 100 человек отличающих нормальное распределение от логнормального =) А с чем вы сравниваете R, Hadoop и AOT?
12 октября 2013 в 05:54 Ответить
dima5ty гасконец
> А с чем вы сравниваете R, Hadoop и AOT? А зачем их сравнивать? У них есть технологические ограничения, несовместимые с понятием поиска. R может работать только с данными, влезающими в память, т.е. исследования на небольших выборках — верх возможностей. Hadoop отвечать на запросы не повесишь (но как хранилище — ок), нужен in-memory индекс. AOT знает много про морфологию, но Яндекс знает намного больше. Скажем так, это хорошие сеошные инструменты, но никак не поисковые. Их хватит чтобы разобрать поиск по косточкам, но не хватит чтобы этот поиск воспроизвести.
12 октября 2013 в 06:12 Ответить
Альтер Эго
> Их хватит чтобы разобрать поиск по косточкам Хе-хе. В том то и дело. То, что вам бесплатно достается с R, лучше того, что было у Google, MS и Яндекса где-нибудь в 2010-ом. Hadoop дает вам «из коробки» что-то, чем продвинутые компании обладали в 2010-ом. AOT-овская морфология где-то уровня Яндексовой года так 2007-го. Не так уж и мало. В свое время каждая из подобных технологий порождала прорыв в качестве поиска, теперь это — commodity.
12 октября 2013 в 07:22 Ответить
dima5ty гасконец
> Хе-хе. В том то и дело. То, что вам бесплатно достается с R, лучше того, что было у Google, MS и Яндекса где-нибудь в 2010-ом. Hadoop дает вам «из коробки» что-то, чем продвинутые компании обладали в 2010-ом. AOT-овская морфология где-то уровня Яндексовой года так 2007-го. Не так уж и мало. В свое время каждая из подобных технологий порождала прорыв в качестве поиска, теперь это — commodity. Ну если проигнорировать года и полезность некоторых вещей, то всё как-то так. Сотни тысяч человекочасов лежат в опенсорсе, а у каждого школьника по три суперкомпьютера. Это всё теоретически очень приближает вероятность положительного исхода дела, но не настолько, чтобы считать эту миссию выполнимой без десятков миллионов долларов и несуществующих сотен русскоговорящих инженеров по поиску, лингвистике и прочим частям того, что может называться поисковой системой. Предпоследняя такая попытка выглядела достаточно уныло (Вебальта), последняя (Мейл.ру) уже становится на что-то похожа и таки создаёт иллюзию простоты :)
12 октября 2013 в 08:12 Ответить
Игорь Ашманов Сам себе компания
> Полнота (для web-искалки) — это не количество релевантных результатов в десятке, но доля найденных релевантных от всех известных релевантных. Ах вон оно чо, Михалыч! То есть всё-таки доля всех найденных от всех существующих? Ага. Смотрю, начинает-таки брезжить свет истины в мозгу. Тогда вот это что за подсчёт: Полнота второго поисковика — 2/6. Где же тут всё найденные релевантные от всех существующих релевантных? Подсчёт у вас идёт исключительно по верхней десятке. А это очень похоже на точность, а не на полноту. Похоже, вы в самом деле не фтыкаете. И рассуждение о том, что сейчас есть тысячи людей, понимающих, как делать поиск, требует уточнения. Это тысячи людей, потёршихся в поисковых проектах на косвенных ролях и думающих. что знают, как делать поиск. Таких кандидатов действительно можно увидеть на собеседованиях, и наверняка таких сейчас собеседует Спутник. Но это ему не поможет. Тех, кто на самом деле может сделать новый поисковик — по-прежнему десятки. > И да, ворованная лингвистика позволяет эту полноту увеличить. Вы вообще когда-нибудь задумывались, зачем вообще пользователю и поисковику нужно увеличивать такую полноту? Вот предположим, что по некоему относительно популярному запросу настоящих, релевантных документов в сети имеется 1 миллион. Яндекс, допустим, находит 600 тысяч из них. У него полнота 0,6. А ваша искалка, допустим, нашла 200 тысяч, с полнотой 0,2, то есть в три раза хуже Яндекса по полноте на этом запросе. И что? Пользователю всё равно, 600К или 200К там найдено. Он их не может увидеть. Ему в любом случае не покажут больше нескольких сотен страниц выдачи. Он не смотрит на совершенно левое число в углу «Найдено 200 000 страниц». Он просмотрит с вероятностью 0,9 первые десять результатов и с вероятностью 0,14 — вторые десять. И всё. То есть с точки зрения удержания пользователя решают два обстоятельства: а) точность в первой десятке, б) чтобы в оставшиеся 800К случайно не провалился самый релевантный документ по запросу. Для популярного запроса б) — конечно, невозможно. А так называемая полнота, понимаемая в классическом смысле, как доля всех найденных от всех существующих в корпусе, интересна только на очень редких запросах, для которых существует число релевантных результатов, сравнимое с размером первой страницы выдачи. Вот именно эту, косвенную, полноту меряют наши анализаторы. И она говорит о размере индекса очень косвенно. Например, если урлы воровать у других поисковиков, перехватывая запросы пользователей на магистрали, то перехвачены будут популярные запросы. А редкие просыплются сквозь пальцы. То есть эта измеряемая полнота будет крайне низкой, а довольно хороший %% запросов будет покрыт.
12 октября 2013 в 08:25 Ответить
Игорь Ашманов Сам себе компания
> AOT-овская морфология где-то уровня Яндексовой года так 2007-го. АОТ — это бутафория, не годная ни для чего серьёзного. Ну примерно, как aspell или ispell, который вы видите на своём смартфончеге или в браузере. > В свое время каждая из подобных технологий порождала прорыв в качестве поиска Вы живёте химерами. Важное принимаете за неважное, и наоборот. Морфология никогда не порождала никаких прорывов. Морфология при неаккуратном употреблении ухудшает качество поиска, а при аккуратном позволяет не ухудшить и кричать об этом в рекламе. Апорт имел лучшую на рынке морфологию с 1998 года, и Яндекс её так и не превзошёл. У Рамблера с начала 2000 года морфология была лучше, чем у Яндекса, и Яндекс её тоже не превзошёл. И что? Чем это помогло им или помешало Яндексу? Это не помешало Яндексу шумно пиариться, как «поисковику с учётом русской морфологии», за что я обычно поддевал Сегаловича, поскольку с 2000 все русские поисковики были такие, а кроме того, сама эта фраза — неграмотная. А у Гугла русской машинной морфологии не было где-то до 2007 года, и это не мешало ему иметь качество выше, чем у Яндекса. Для чего, кроме воспринимаемого удобства и пиара, в действительности нужна поддержка словоизменения — это для подсказки, подсчёта слов в рекламной системе, да и то косвенно. А все трюки с подсказкой, с подстановкой сейчас делаются в целом не за счёт морфологии, а за счёт учёта сессий и стаститики запросов.
12 октября 2013 в 08:31 Ответить
anonymous coward
Будут пользователи пользоваться поисковиком с очень хорошей релевантностью, но базой меньше в 10 раз? Судя по тому, как Яндекс и Гугл намеренно портят и обедняют выдачу для редких запросов — да, будут, и еще добавки попросят. Не уверен, что качество поиска вообще хоть на что-либо влияет в 2013-м году. R может работать только с данными, влезающими в память, т.е. исследования на небольших выборках — верх возможностей. Есть мнение, что большие выборки там и не нужны, от них только вред. AOT знает много про морфологию, но Яндекс знает намного больше. Вся русская морфология была известна и исчерпывающе описана еще в девятнадцатом веке, и с тех пор ничего не изменилось.
12 октября 2013 в 09:00 Ответить
Игорь Ашманов Сам себе компания
> Вся русская морфология была известна и исчерпывающе описана еще в девятнадцатом веке, и с тех пор ничего не изменилось. Ещё один безумец, спящий наяву и говорящий в коме самолюбия. Про «Грамматический словарь русского языка» Андрея Анатольевича Зализняка слышали? Ну почитали бы. И какое отношение это имеет к промышленным лингвистическим системам?
12 октября 2013 в 09:01 Ответить
Альтер Эго
>Вся русская морфология была известна и исчерпывающе описана еще в девятнадцатом веке, и с тех пор ничего не изменилось. Ого, а вся эта арифметика была известна еще в средние века, и с тех пор ничего не изменилось. Ну, компьютеры только появились.
12 октября 2013 в 09:03 Ответить
Альтер Эго
> Морфология никогда не порождала никаких прорывов. Морфология при неаккуратном употреблении ухудшает качество поиска, а при аккуратном позволяет не ухудшить и кричать об этом в рекламе. Это смелое утверждение. Думаю, что вы его строите на основании того факта, что вы смогли лишь не ухудшить качество Рамблера в 2000-ом. Про результаты остальных попыток мы вряд ли узнаем. NDA. > Вот предположим, что по некоему относительно популярному запросу настоящих, релевантных документов в сети имеется 1 миллион. Яндекс, допустим, находит 600 тысяч из них. Таких запросов (даже по доле) немного. Верхняя планка — 30% по доле. Во всех остальных — релевантных документов обозримо мало. Вы понимаете под полнотой чуть ли не размер базы в документах. Это, кхм, непривычная для отрасли терминология.
12 октября 2013 в 09:27 Ответить
Альтер Эго
Шо-та почитал я Ашманова, и вдруг понял. Ряд-то из обратных логарифмов — расходится. NDCG — на помойку, он вообще не определен. http://en.wikipedia.org/wiki/NDCG Пойду просветленным писать статью.
12 октября 2013 в 09:36 Ответить
Игорь Ашманов Сам себе компания
> Это смелое утверждение. Думаю, что вы его строите на основании того факта, что вы смогли лишь не ухудшить качество Рамблера в 2000-ом. Ну да, ну да. Опять бредите о невиданном и неслыханном вами, в дурмане самости. Качество Рамблера в 2000-2001 годах мы улучшили кардинально, на порядки. Потому что по тогдашним нашим анализаторам в конце 1999, когда мы пришли, было что-то вроде: Апорт 98% Яндекс 94% Рамблер 60% Когда мы весной-летом 2000 наставили костылей к существующему Рамблеру (лучшую на рынке морфологию, кстати, мы вкрутили в Рамблер за месяц, в январе 2000), то стало что-то примерно: Апорт 98% Яндекс 93% Рамблер 80% А когда мы в конце 2000 запустили новый поисковик, стало: Апорт 98,5% Яндекс 95% Рамблер 93%. Но морфология там была не при чём, что признавали и ребята из Апорта (Кева), и Яндекса (Илья). Морфология с релевантностью, в общем, перпендикулярна. Она про удобство ввода запросов, а не про точность. Тогда, кстати, единственный, у кого было ссылочное ранжирование, был Апорт. Апорт вообще был самым инновационным поисковиком.
12 октября 2013 в 09:50 Ответить
dima5ty гасконец
> Есть мнение, что большие выборки там и не нужны, от них только вред. It depends. Миллион хороших документов лучше миллиарда плохих для каких-то задач. В общем же случае бóльшая выборка даёт меньшую смещённость. Очистка данных традиционно самая неприятная часть во всём этом процессе, тщательно скрываемая мировым правительством. Есть, конечно, всякие bagging и прочая святотень, но разумнее всё-таки использовать более подходящие инструменты, на крайняк писать самому, ибо сложность никакая. > Вся русская морфология была известна и исчерпывающе описана еще в девятнадцатом веке, и с тех пор ничего не изменилось. брателава в пальте доставляет парашут ахаха xD xD
12 октября 2013 в 09:58 Ответить
Альтер Эго
> Ну да, ну да. Опять бредите о невиданном и неслыханном вами, в дурмане самости. Речь шла про применение морфологии, если что. > Апорт 98% А не идет ли речь только про навигационный поиск, судя по числам, близким к единице? Если про них, то все ясно.
12 октября 2013 в 10:42 Ответить
Альтер Эго
Лингвисты из Яндекса должны сделать баннер на стену, я считаю. «Морфология с релевантностью, в общем, перпендикулярна. Она про удобство ввода запросов» И. Ашманов Очень крутая, на самом деле, дискуссия, очень хорошо объясняющая, почему поисковик Сегаловича выстрелил, а Игорю Станиславовичу приходится заниматься SEO на старости лет.
12 октября 2013 в 10:58 Ответить
dima5ty гасконец
> приходится заниматься SEO на старости лет. Серьёзно, прекратите наступать старикану на больные мозоли. Он же может расстроится и придётся читать всяких гуманитариев.
12 октября 2013 в 11:06 Ответить
Игорь Ашманов Сам себе компания
Вы уверены, что я занимаюсь SEO? Точно-точно уверены? И вот так у вас всё. История о том, что якобы «поддержка морфологии» помогла Яндексу «выстрелить» — это довольно старый и забавный миф, заботливо выстроенный Леной Колмановской — на фоне более хорошей морфологии у Рамблера и Апорта. А причиной того, что Яндекс выстрелил, была как раз сама Лена Колмановская с её гениальным пиаром (включавшим создание таких мифов), ну и конечно, Сегалович с его азартом и упорством и Волож с его коммерческой хваткой. Ну и 6 миллионов долларов от Богуславского в разгар зимы доткомов. Но вам это рассказывать, вероятно, бесполезно, не в коня корм. P.S. У меня, кстати, не было поисковика вроде Рамблера или Яндекса, который бы мог выстрелить, вообще-то. Точнее, был в 1997-98 годах, назывался «Следопыт», но мы его забросили. Вот это возможно, была в самом деле глупость, но все крепки задним умом. Как говорит один мой знакомый, «шоб я был такой умный, как моя жена потом».
12 октября 2013 в 11:11 Ответить
Игорь Ашманов Сам себе компания
> Речь шла про применение морфологии, если что. Да? И что вы можете содержательного сказать «про применение морфологии, если что»? И каким же образом «морфология» может повышать точность поиска?
12 октября 2013 в 11:19 Ответить
Альтер Эго
Ой, извините. Не SEO, а руководством организацией, оказывающая услуги it-консалтинга в области интернет-маркетинга. Вот все у вас так. Не корежит по утрам, от того, что за колбасу в стан бывших врагов-оптимизаторов продались? Это все от неумеренного и неуемного желания потреблять, Игорь Станиславович, маэстро поисковых систем.
12 октября 2013 в 11:23 Ответить
Альтер Эго
> Да? И что вы можете содержательного сказать «про применение морфологии, если что»? Я могу как бы не только сказать, но реализовать, измерить и запустить. Чем и займусь. Адьё.
12 октября 2013 в 11:33 Ответить
Альтер Эго
Не запускайте морфологию, а то потом лечиться долго. Привет.
12 октября 2013 в 11:35 Ответить
Альтер Эго
> с точки зрения удержания пользователя решают два обстоятельства А Яндекс не стесняется использовать и [url=http://roem.ru/upload/storage/2013/09/18545209965236c68e4d4db8.39607440.png]более фундаментальные свойства пользователей[/url]. А в гос-пользователях можно задействовать (по редким запросам) любовь к путену / благоговение пред гэбнёй. А вы всё про какую-то там точность, полноту и пр. ит-ересь… и это когда уже давно устарела подмена ранжированием поиска правильного ответа (да, пользователю давно, изначально был нужен не мильён ответов, а несколько правильных ответов).
12 октября 2013 в 11:51 Ответить
Альтер Эго
а как вы картинку на роем залили?
12 октября 2013 в 12:46 Ответить
anonymous coward
Про «Грамматический словарь русского языка» Андрея Анатольевича Зализняка слышали? Ну почитали бы. Я как раз про него и говорю. Про девятнадцатый век, это, конечно, художественное преувеличение, словарь Зализняка это всего лишь 60-ые годы двадцатого. Прочитав всего Зализняка вдумчиво накодить поддержку русской морфологии сможет любой усидчивый кодер. Далеко не рокет-сайенс, не матан, и даже не машинное обучение. Рутинная работа, никакого «исследования» и прорывной математики тут, конечно, не требуется.
12 октября 2013 в 12:59 Ответить
anonymous coward
Ого, а вся эта арифметика была известна еще в средние века, и с тех пор ничего не изменилось. Ну, компьютеры только появились. Это, кстати, неправда. В средние века арифметика как раз-таки и не была еще известна. Арабские цифры в Европе получили распространение начиная с 15-го века, а это уже далеко не «средние века». Деление чисел на целые, дробные и иррациональные — это уже 18-й век, а формальный теории арифметики вообще появились только к концу 19-го века.
12 октября 2013 в 13:30 Ответить
Альтер Эго
>Арабские цифры в Европе получили распространение начиная с 15-го века А русская морфология в каком веке в Европе появилась?
12 октября 2013 в 14:19 Ответить
Игорь Ашманов Сам себе компания
> В средние века арифметика как раз-таки и не была еще известна. Альтерэги жгут. То есть Кёльнский собор строили люди, которые не знали арифметики. И в Амстердаме торговали, не зная арифметики. Ну и крестовые походы снабжали оружием и продовольствием по наитию. Банки тамплиеров и векселя с дорожными чеками выписывали как бог на душу положит, что попало писали римскими цифрами. Арифметики-то не знали. Как говорил один мой знакомый кунфуист «да чо там эти древние греки, у них даже телевизора не было».
12 октября 2013 в 14:22 Ответить
Игорь Ашманов Сам себе компания
> Я как раз про него и говорю. Про девятнадцатый век, это, конечно, художественное преувеличени Художественное враньё и художественное отползание скорее, я бы сказал. > словарь Зализняка это всего лишь 60-ые годы двадцатого. Уверены? И вот так у вас всё. Посмотрите дату первого издания.
12 октября 2013 в 14:28 Ответить
Игорь Ашманов Сам себе компания
> Я могу как бы не только сказать, но реализовать, измерить и запустить. Жаль, что это как бы. Перестройка и лихие девяностые воспитали Поколение Как Бы. Вы кагбэ знаете про поиск и машинную морфологию Ну кагбэ займитесь уже. О, сколько вас открытий чудных ждёт на этом пути. > Не SEO, а руководством организацией, оказывающая услуги it-консалтинга в области интернет-маркетинга. Друг Аркадий, не говори красиво. Всё равно не получается. АиП занимается интернет-маркетингом, это верно. И всякими технологиями. Но я не занимаюсь руководством АиП. И вот так у вас всё.
12 октября 2013 в 15:42 Ответить
eak
> Но я не занимаюсь руководством АиП. Игорь Станиславович, а на сайте АиП пишут, что вы — управляющий партнер: http://shot.qip.ru/00c9xc-3oHGotZo8/
12 октября 2013 в 15:44 Ответить
Альтер Эго
> Альтерэги жгут. Это Ашмановы жгут, высказывая сомнения в неизбежном успехе госпоиска. Какие нах технологии! На каких технологиях выбрали Путина? Ещё не поздно покаяться.
12 октября 2013 в 16:24 Ответить
volk
«Друг Аркадий, не говори красиво» — конечно, из школьной программы. Но поколение какбы может подумать, что сам Волож в этой дискуссии шифруется под видом одного из альтерег.
12 октября 2013 в 16:32 Ответить
Игорь Ашманов Сам себе компания
> Игорь Станиславович, а на сайте АиП пишут, что вы — управляющий партнер: Контора пишет! А ещё я там генеральный директор. Только интернет-маркетингом и прочим консалтингом управляет исполнительный директор, а я занимаюсь совсем другими штуками. Ну вот вам тут мозги вправляю, в частности.
12 октября 2013 в 19:42 Ответить
itman
Вот вы будете смеяться, но по части морфологии я с Ашмановым согласен. Очень тяжело улучшить качество поиска с помощью одной лишь морфологии. В том смысле, что, если использовать грамматические формы в качестве синонимов слова запроса, пусть даже и с правильными весами. Дело в том, что в одних запросах это улучшает полноту, в других ухудшает точность. И в среднем получается примерно также, как и без морфлогии.
12 октября 2013 в 19:47 Ответить
Иван Ильин
Как краевед позволю себе провести языковой погром «госпоисковика» Спутник. Во всех республиках «Российской Федерации» кроме Карелии, установлены свои дополнительные государственные языки. В карельском используется латиница. Она не существует как способ записи на федеральном уровне. Хотя карельский язык, сам по себе — есть. В глазах государства его «нет». А все остальные языки, в глазах государства — точно есть и прописаны в официальные документы, специально предназначенные для этой цели. Ещё существуют так называемые «языки с официальным статусом» (не полностью пересекающиеся с «государственными»). Это тоже формализованная юридическая категория, живая на территориях компактного проживания. Википедия учит, что использование властями русского не должно толковаться как отрицание использование государственного неруского. Нерусские применяются: в деятельности органов власти; в названиях органов власти; в судопроизводстве (конституционном, уголовном, гражданском и административном), в дорожных указателях, на государственном языке должны выходить кодексы, законы и другие подзаконные акты РФ; при проведении выборов и референдумов, в международных договорах и соглашениях РФ; во внутренних официальных документах граждан РФ; в иных определенных федеральными законами сферах Поэтому — государственный поисковик-погромовик, предназначенный для использования в региональных официальных органах — не может обойтись без бурятского, чеченского и абазинского. Если нерусских языков нет — применять поисковик Ростелекома можно как поисковик Ростелекома. Как продукт коммерческой компании пригодный для использования в русских регионах, но непригодный для использования на компах в ведомствах Татарстана, Якутии и Дагестана (а в этой республике вообще надо 13 (!) языков поддерживать, если мы говорим о государственном поисковике). На фоне многоязыковых проблем (некоторые языки совсем небольшие, но не сделать их нельзя де юре) — какие-то там «проблемы» мало денег, будет распил, никто не умеет делать поисковики кроме Я — просто меркнут. Поисковик будет, если будет вообще, чисто московской историей. Это закон.
12 октября 2013 в 20:54 Ответить
Игорь Ашманов Сам себе компания
Вот слышно речь не мальчика, но мужа. Наши языковые проблемы вообще за нас никто не решит. Ни бог, ни царь и ни герой. Ни гугль с Бингом. А придётся.
12 октября 2013 в 21:02 Ответить
Альтер Эго
Иван, а как Вы себе представляет поисковик, который непригоден для использования на компах в ведомствах Татарстана, Якутии и Дагестана? Что программисты должны специально сделать, чтобы лишить возможности поиска на других языках? Вы же сами процитировали, что все языки, кроме карельского, используют кириллицу. Т.е. автоматически становятся доступными. Проблемы могут быть с _морфологией_, на вот прямо выше целая дискуссия по этому поводу. и резюме морфология для качественного поиска не обязательна. Какие еще проблемы с использованием поисковика в республиках? Локализация интерфейса? Это неосуществимая задача при бюджете в 20 миллионов?
13 октября 2013 в 00:50 Ответить
Иван Ильин
Поисковик делает Москва (?). По слухам он базируется на каком-то экс-коммерческом поисковом проекте? Типа КМ.ру. То, что для коммерческого проекта естественно — для государственного будет неприемлемо. Любой менеджер скажет, что поисковик работающий с 90% контента рунета (то есть с документами на русском, а не других государственных языках) — это полноценный продукт. А любой региональный чиновник скажет, что по местному закону языки между собой равны, и без местного языка — поисковик не подходит. Закон! Или эту идею «неподходящего поисковика» выскажет региональный шовинист-навальнист. Мол — москали дают нам татарам неправильный мёд! Нетатарский! Я сильно сомневаюсь, что в Спутник заложен хоть в каком-то виде якутский язык. И все остальные. Значит он не умеет отличить документы на якутском от документов на тувинском. Зато о русском языке, наверняка, знает. Я предполагаю, что паук Спутника сегодня просто отбрасывает нерусские документы при индексации. С какой стати «захламлять» ими «русскоязычный проект»? Если не делать проверку языка при индексации — придётся выкачать весь интернет на всех языках мира. Не думаю, что это входит в планы Ростелекома. Значит на «язык» они, вероятно, документы перед включением в индекс проверяют. На русский язык. Мне так кажется. Поэтому «правила землеотвода на якутском» — в Спутнике можно будет найти, только если где-то существует русский документ о землеотводе со ссылкой на свой якутский перевод. По этой ссылке и найти. Не по включению словосочетания «правила землеотвода на якутском» в искомый документ. Их там нет, это ведь документ на якутском, а не на русском. А по ссылке с этих русских слов где-то в русском документе. Если они вообще там есть. Но даже если такой «навигационный» русскоязычный документ с одной единственной ссылкой на перевод и есть — он будет практически приравнен к нулю при разборе запроса. Вес ссылки — «нулевой». А что при этом нуле включается в SERP — можно видеть на примере современного нам Яндекса и Гугла. Да, они знают кириллицу. Но ни один из них не выводит «правила землеотвода» на якутском языке в ответ на запрос «правила землеотвода на якутском языке» В SERP лишь много тысяч самых разных и совсем не тех документов. В итоге — по закону поисковик нельзя будет считать полноценным государственным инструментом в Якутии прямо с первых же попыток его потестировать. Интерфейс локализуют за 1 рабочую смену. Но не более того. Вот такая проблема. Или ещё — я предполагаю, что в глазах государства не приветствуются подвешенные состояния. Неопределённости разного рода. Для коммерческого поисковика допустимо в ответ на запрос «правила землеотвода на якутском» — вывести тысячи не тех, ненужных документов. А государственный инструмент в этом месте должен сообразить — существует ли переведённый документ? И не вываливать тысячи ненужных ссылок, а прежде всего сообщить: «Правил землеотвода на якутском нет», они есть только на русском. И дать ссылку на правила землеотвода в Якутии (а не в Бурятии!) изложенные на русском. И лишь потом вывалить много тысяч ненужных документов со включением слов «правила», «землеотвода» и т.д. Если Спутник так не сделает — он для чиновника ничем не лучше привычного Гугло-Яндекса, что тоже так не делают. Это тоже проблема регионального внедрения. Поисковик-то в закладки положили — но он сырой, не умеет быть государственным и клерки его предсказуемо игнорируют.
13 октября 2013 в 01:26 Ответить
Альтер Эго
>Я сильно сомневаюсь, что в Спутник заложен хоть в каком-то виде якутский язык. и дальше бла-бла-бла, которое базируется на >Если Спутник так не сделает — он для чиновника ничем не лучше привычного Гугло-Яндекса, что тоже так не делают. если я правильно понял. берём сайт на якутском. http://doydu.sakhaopenworld.org/ гугл: сайт в индексе есть , поиск есть яндекс: сайт в индекс есть, поиск есть вопросы: 1) что именно не делают яндекс и гугл? не работают с морфологией якутского языка? обязательное ли это условие для работы поиска? 2) >Я предполагаю, что паук Спутника сегодня просто отбрасывает нерусские документы при индексации. по какой причине он должен отбрасывать нерусские документы? Если Вы считаете, что для экономии ресурсов, то что мешает включить дополнительные языки в фильтр? Какие ресурсы на это понадобятся, которые не умещаются в бюджет?
13 октября 2013 в 01:32 Ответить
Альтер Эго
блин, вот кто не переваривает якутский язык, дак это роем и его инновационный редактор >Я сильно сомневаюсь, что в Спутник заложен хоть в каком-то виде якутский язык. и дальше бла-бла-бла, базирующееся на >Если Спутник так не сделает — он для чиновника ничем не лучше привычного Гугло-Яндекса, что тоже так не делают. если я правильно понимаю вот берём сайт на якутском http://doydu.sakhaopenworld.org/ гугл: в индексе есть https://www.google.ru/search?q=site:http://doydu.sakhaopenworld.org&ie=utf-8&oe=utf-8 в поиске виден https://www.google.ru/search?q=+&ie=utf-8&oe=utf-8 яндекс: в индексе есть http://yandex.ru/yandsearch?text=sitehttpdoydu.sakhaopenworld.org в поиске виден http://yandex.ru/yandsearch?text= вопросы: 1) что именно не делают гугл и яндекс? не работают с морфологией якутского языка? обязательно ли это для работы поиска? 2) >Я сильно сомневаюсь, что в Спутник заложен хоть в каком-то виде якутский язык. по какой причине? экономия ресурсов? что мешает добавить в список фильтра все государственные языки РФ? что за ресурсы необходимы для этого шага, которые не укладываются в бюджет?
13 октября 2013 в 01:33 Ответить
Альтер Эго
тьфу, во втором вопросе речь шла об этой фразе » Я предполагаю, что паук Спутника сегодня просто отбрасывает нерусские документы при индексации.»
13 октября 2013 в 02:16 Ответить
Алексей Петровский Price.ru / Бегун
Осталось только у Игоря Станиславовича Ашманова выяснить — нахрена России (россиянам, а не тимченкам) нужен собственный поисковик? Зачем и кому нужен региональный кондовый поисковик, который слеп и глух к остальному миру? Вот — зачем?! Минутная работа: Яндекс — по прикидкам, пусть 15 млн уников в сутки. Гугл — по совсем грубым прикидкам, 250 млн уников в сутки. 3.3% от них — дорогие нам россияне. 8.25 млн уников в сутки. Гугл — 55% от Яндекса. По России. Ок. Ок?! Если бы Яндекс отправился в Валгаллу (можем мы такое гипотетически допустить? можем) и всё досталось бы Гуглу — то доля дорогих россиян в «поисковом пространстве» составляла бы (8.5+15)/(250+8.5) = 23.5 / 258.5 = целых 9%. Круто. Мы наконец-то сравнялись бы с Индией (у них 8.8% в поисковом трафике Гугла). Эта модель — идущая от идеи потребителя, удовлетворения его жадностей и похотей. Предположим, Ростелекому (и другим операторам) будет вменено (законодательно) одно лишь требование: перехватывать трафик Гугла (55% от Яндекса, right?). Сноуден какой-нибудь пробежит близко, Ашманов вызволит ещё одного крадуна карточек за свой счёт — и вот, нате: «В целях защиты от современных угроз… по настоянию ЦБС ФСБ и ФСТЭК… вменить в обязанность всем служащим, получающих зарплату из госбюджета, использование ресурса sputnik.ru в качестве основного поисковика. Контроль за исполнением назначить ЛБИ…, с предоставлением отчётности в сторону Лютикова В.С. (ФСТЭК) и Кузьмина А.С. (ЦБС ФСБ)» И — привет. Провайдеры закондательно идут по обкатанной технологии (запреты на визиты торрентов — кусочек паззла), меняют пакеты у Гугла и Бинга на уровне магистралей — а Спутник выдаёт Теперь понимаете, почему выбрано такое загадочное имя? Спутник — это сателлит у основного астрономического тела (Гугла). 55% габаритов которого от текущей доли Яндекса — это прямая и непосредственная угроза. Поэтому солюшен намбер ван: перехват запросов и выдачи у Гуглу и рерайт на адресную строку Спутника. На уровне физической среды. Закрываться Гуглу от этого — нечем. Кроме как HTTPS. (Сюрприз, да?) Но на магистральном уровне, думаю, какой-нибудь MitM-механизм вполне возможен. Спутник — он же браузер, он же магистральный сниффер с обратной связью: промежуточный механизм предъявляет сертификат гуглу, сливает промежуточный трафик под анализ, а пользователю подсовывается сертификат Спутника, взамен Гуглового. Почему бы и нет? Баумгертнер Владислав Артурович может рассказать о своём персональном опыте при переговорами на уровне «астрономических тел». Денежки в таком случае будут потрачены вовсе не на датацентр, написание умного софта, наём специалистов. Они будут потрачены на апгрейд магистрального железа, выкручиванию рук Гуглу, система мониторинга чиновников. Поэтому Алексей Басов, мощный энтерпренёр — находится на своём месте. На месте «смотрящего за рынком». В самом буквальном смысле этого слова. И мы вернёмся к плановой, проектной истории СССР. Как бы Аркадий Фомич Морейнис не баловался бы со своими идеями стартапов. Ашмановы и православные хоругвеносцы — идут. Потом, на закусь — перекатить на отработанный механизм уже и сам Яндекс. Благо «платиново-рубидиевая» акция у государства уже есть. Волошин полирует её каждый день собственноручно. Ну и что? Потом поиск Яндекса будет слит «добровольно-принудительно» со Спутником/Гуглом в любой из удобных поз. А там, глядишь, к следущему президентскому сроку ВВП на день рождения подарят не смерть Политковской, а смерть модели «потребитель всегда прав» — на примере введения Великого Русского Файрволла.
13 октября 2013 в 02:49 Ответить
Иван Ильин
Яндекс и Гугл делают всё «так». Просто с них спрос — другой. Вы показываете логику работы и возможности работы коммерческого поисковика. И его знания того сего. Можно ввести экзотические слова — и получить нерусские документы в выдаче. А я утверждаю, что для государственной системы, по законам о государственных языках в государственном документообороте — и могут и родятся другие правила оценки. Хорошо-плохо, найдено «то» или «не то»? Поисковик в целом — правильный или ненеправильный? В государственном масштабе восприятия технологического артефакта. Дополнительные правила — не имеют никакого смысла для вменения коммерческим поисковикам. Бизнесу ими можно безвозбранно пренебрегать. А для госпоиска — они закон. Например запросы «правила землеотвода на якутском» и аналогичный запрос на самом якутском языке — должны давать одинаковый ответ (или сообщать, что искомый контент не переводился на якутский). Просто потому законодательство гарантирует в регионах государственный доступ и на русском и на нерусском. Я должен вводя обычные русские слова иметь доступ и к русским и нерусским документам. С чувством и правильной их расстановкой в SERP. И наоборот. А для этого надо понимать — «что спросили?» Просто иметь в индексе Cонуннар Тылдьыт — недостаточно и никак не решает проблему равного доступа на том или на сём языке. С точки зрения коммерческого поисковика — проблема вообще не стоит выеденного яйца. Вышеуказанный запрос, о чём-то на якутском, но с вводом запроса на русском, будет задан 1 раз в год, и специально писать что-то под его разбор — не имеет ни малейшего экономического смысла. Но логика законодательства — не только экономическая, она ещё и о равенстве в реализации прав. Опять же — чисто формальный шмонец выдачи. Насколько для государственного поисковика допустимо выдавать сомнительный или даже неверный контент? На страницах коммерческого поисковика дискламер «за содержание страниц мы ответственности не несём» — мне понятен. На страницах государственного поисковика, получить в ответ на «кожа опухоль на руке» — «приходите к бабке алефтине, она лечит опухоль заговорами и колдовством», «рак кожи — лечение лимоном» и всё остальное из этой серии — как-то странно. Я так мыслю, что даже не купив ни одного сервера и не написав не строчки кода, в проекте «госпоисковик» — можно сразу уработать несколько миллионов чисто на предварительную формализацию его реакций на пользовательские запросы и на описание допустимого и недопустимого поведения госпоисковика. Далеко не факт, что полученный в итоге талмуд (устаревающий с каждым днём) можно будет полностью перевести в рабочий код и юридически корректный SERP. PS А начнёшь чистить индекс от бабки алефтины и лечения печени заговорёнными печеньками — пойдёт вой: «цензура!»
13 октября 2013 в 03:14 Ответить
Алексей Петровский Price.ru / Бегун
Иван, что за детский сад? Кого это всё интересует? Поглядите у дедушки Лукацкого статейку — на пальцах объясняющую, почему государственным сайтам на Руси жить плохо: http://lukatsky.blogspot.ru/2013/09/blog-post_24.html И это ведь только начало.
13 октября 2013 в 03:21 Ответить
Иван Ильин
Алексей — на сайте есть функция имени Кукуца. С её помощью можно скрывать от себя комментарии тех или иных неприятных детских людей и краеведов. Функция находится в выпадающем списке функций по «ховеру» на никнейме, называется «Игнорировать».
13 октября 2013 в 03:31 Ответить
Альтер Эго
>Например запросы «правила землеотвода на якутском» и аналогичный запрос на самом якутском языке — должны давать одинаковый ответ (или сообщать, что искомый контент не переводился на якутский) Где Вы это прочитали? Если для запроса _якутском_ проиндексированы правила землеотвода, то они будут в выдаче. С этим нет никаких технических проблем, как мы видим. Если не считать морфологию. Если существует федеральный закон, обязывающий иметь версию этих правил землеотвода на всех языках народов РФ, то не составит труда проиндексировать данные документы. Но по какой причине поисковик должен переводить _всё_ ? Выше было процитировано: Обязательность использования государственного языка Российской Федерации не должна толковаться как отрицание или умаление права на пользование государственными языками республик, находящихся в составе Российской Федерации, и языками народов Российской Федерации Индексируя и выдавая доступные документы на всех языках народов РФ поисковик не отрицает и не умаляет права на их использование. Где список того, что должно быть доступно на всех языках? Российская газета, например, должна быть доступна на всех языках или нет? Официальный орган Правительства РФ, официальный публикатор документов.
13 октября 2013 в 04:10 Ответить
Иван Ильин
Списки есть в субъектах. Думаю у каждого будет свой список. Конкретно в Якутии вот что пишут: http://sakha.gov.ru/node/41515 Статья 12. В деятельности государственных органов, предприятий, учреждений, организаций Республики Саха (Якутия) языком заседаний и совещаний являются саха и русский языки. Лицам, не владеющим тем или иным языком, обеспечивается перевод. В деятельности местных государственных органов, предприятий, учреждений, организаций используются саха, русский и языки местных народностей Севера. Лицам, не владеющим государственными языками, обеспечивается перевод. Статья 13. Законы и другие акты республиканских органов государственной власти и управления Республики Саха (Якутия) принимаются и публикуются в официальных изданиях республики на саха и русском языках. Акты местных органов государственной власти и управления принимаются и публикуются на саха, русском и местных официальных языках. Опубликованные на саха и русском языках тексты законов и других актов республиканских органов государственной власти и управления Республики Саха (Якутия), равно как и актов местных органов государственной власти и управления на территории Республики Саха (Якутия), имеют официальный характер и обладают одинаковой юридической силой. Статья 16. Граждане Республики Саха (Якутия) вправе обращаться в государственные органы, предприятия, учреждения и организации с предложениями, заявлениями и жалобами на родном или на любом другом языке Российской Федерации, которым они владеют. Да, действительно, в Якутии наверное не нужно будет понимать русский запрос и выдавать ответ на саха! Ура! Ответы на предложения, заявления и жалобы граждан, написанные на государственных и местных языках, даются на языке обращения, а на других языках ответ дается на одном из государственных языков.
13 октября 2013 в 06:56 Ответить
Игорь Ашманов Сам себе компания
Ильин пишет всё совершенно правильно, а иные альтерги не фтыкают по обыкновению. Государственный поисковик — это не конкурент Яндексу или тем более того, Гуглу. И не должен быть. Он им перпендикулярен. А должен он быть максимально чистым, не содержать ничего из списков Роскомнадзора, категорий Роскомнадзора, порнухи, экстремизма, сект, бабок алефтин, потомственных ведьм, СМС-мошенников и того подобного (и даже мата, представьте себе!), а должен зато делать те неочевидные, но безусловно нужные штуки, о которых пишет Ильин. Госпоисковик — это такой поиск по умолчанию, который можно поставить куда угодно, с гарантией, что там нет никакой дряни. А кто уж потом перейдёт куда-то ещё, чтобы найти порно или купить «скорость» — это другое дело. При этом Гугл, Мыло и Яндекс находятся в состоянии дилеммы заключённого (или в равновесии по Нэшу, как тут писал Лавренко), когда они не могут выбросить дрянь, потому что боятся, что второй этого не сделает и подберёт немножко аудитории. И остаются в грязном состоянии, лишь бы не уступить врагу. И не могут вкладываться в редкие запросы и редкие функции, типа поддержки 120 языков народов СССР. А новый поисковик имеет аудиторию 0 . Или можно сказать, что вовсе её не имеет и не будет иметь в привычном смысле — потому что для платформы по умолчанию это понятие может вообще не иметь смысла. И ни с кем не конкурирует за рекламные деньги и аудиторию. И именно поэтому может себе позволить со старта быть совершенно чистым. И вкладываться в редкие функции, типа поддержки языков малых народов, поиска госуслуг, привязки к государственным иднтификаторам и данным пользователей, картам соцобеспечения, обеспечения приёма жалоб населения, подключения городских справочных служб и т.п. Одной из основных функций госпоисковика может быть обеспечение достоверности информации в известных областях (для чего можно обязать госучреждения обеспечить ответственную поставку своих данных). Госпоисковик может также не иметь и рекламы, в принципе. Что его очень выгодно оттенит. То есть есть, чем дифференцироваться и что предложить пользователю, чего не сможет сделать коммерческая поисковая машина. И такой поисковик должно быть абсолютно спокойно поставить поиском по умолчанию дома для детей, в детском саду, в школе и т.п. И на уровне государства вменить установку сборщикам ПК, ставить на смартфоны, в школы, университеты, госучреждения, аэропорты, остановки, метро и т.п. Я думаю, Басов это всё понимает.
13 октября 2013 в 07:19 Ответить
Альтер Эго
Мне почему-то показалось, что Ильин пишет совсем другое. Про редкие запросы и функции, но с другой стороны. Что место тут проклятое и поисковик сделать не получится, ибо там по закону должно быть всякое, чего никто за 20 миллионов не реализует. Вот типа редких языков и чистоты выдачи. А моя мысль такова, что нет этих обязанностей по закону, на мой взгляд. Если реализуют, то хорошо, но это не является необходимым условием для создания и запуска поисковика.
13 октября 2013 в 07:44 Ответить
Игорь Ашманов Сам себе компания
20 миллионов долларов — это число, которое журналист написал в статье. Оно ничего не означает. Сделать можно всё, даже человека в космос отправить или поставить камеры в каждый избирательный участок. Проблема не в исполнении, а в понимании, что делать.
13 октября 2013 в 07:54 Ответить
Альтер Эго
>Проблема не в исполнении, а в понимании, что делать. это с одной стороны, а с другой, что из больших проектов в ИТ, кроме установки камер на участках, государство удачно реализовало за последние годы? Все остальные проекты работают хорошо, но не очень. Система блокировки вредного контента работает, но с кучей обходных путей и кучей побочных эффектов, типа периодического блокирования крупных ресурсов по ip. Система межведомственного электронного взаимодействия уже сколько лет не может запуститься. Госуслуги работают, но при этом на сайте присутствует большое число услуг ведомств, прекративших своё существование, спросом пользуется малая часть из тысяч услуг. Универсальная электронная карта запускается и отменяется. Ну и все как-то так.
13 октября 2013 в 10:12 Ответить
Валерий ТА HR-Portal
коротко говоря, через ж
13 октября 2013 в 11:10 Ответить
Сергей Кириченко
А общероссийские паспорта в Якутии тоже выдают на якутском языке?
13 октября 2013 в 11:26 Ответить
Сергей Кириченко
Ответы на предложения, заявления и жалобы граждан, написанные на государственных и местных языках, даются на языке обращения, а на других языках ответ дается на одном из государственных языков. вот и спрашивай по якутски. А спросил по русски — получай на русском
13 октября 2013 в 12:45 Ответить
Иван Иванов
Госпоисковик действительно нужен. Хотя бы для следующих задач (по сути калька с задач внутрикорпоративного поисковика «большой» корпорации): — поиск персоналий-должностей — уточнить, имя-отчество, должность, контакты; — поиск (в смысле ранжирование первыми) документов по госуправлению и т.п.; — прочим видам профессионального поиска. Могли бы эту информацию находить Гугл-Яндекс? Конечно могли бы. Но не делают. Гугл-Яндекс ориентированы (и для них правильно!) на нужды своих рекламодателей и потребителей рекламы. Поэтому, если пытаться искать какого-нибудь замминистра (не говоря уж о заместителе ФГУПа) по фамилии и инициалам, или по фамилии и имени — его, скорее всего, не будет на первых 10 страницах выдачи — а будет куча пользователей вконтакте. Есть еще вопрос безопасности. Анализ самих запросов пользователей и их переходов может позволять неплохо ориентироваться в хотелках госчиновников и специалистов госкомпаний на этапе подготовки документов. Это деньги и очень большие. Другое дело, что когда все это сложат в одно место — оттуда и воровать это будет проще. Но это уже другая история.
13 октября 2013 в 14:25 Ответить
Альтер Эго
В такой ситуации совсем не удивительной является новость о создании в России государственного поисковика с предполагаемым названием «Спутник»: Удивительно другое: почему поисковые системы – такие влиятельные и выгодные проекты – не рождаются десятками ежегодно. Технически ничего особо сложного там нет. Я знаю, я заглядывал внутрь. пишут нам из группы компаний infowatch
13 октября 2013 в 16:39 Ответить
Иван Ильин
Обязанности по закону есть. Вытекают из 18ой статьи Конституции РФ. Из 2ой, из 24ой пункт 2, отчасти 38ой пункта 1. Думаю и из других. Правовые основы госпоиска ещё до подготовки первого ТЗ требуют изучения. Я к чему? Я к тому, что неправильно рассматривать госпоисковик эдакой вариацией на тему модифицированного Google и сразу начинать толкаться по поводу — «он навсегда отстал от гугло-яндекса!»». Или — «есть открытые решения за 2 копейки» для реализации поиска. «Таких решений нет!» Морфология — (не) нужна! Деньги — украдут, денег мало, слишком много.
13 октября 2013 в 17:21 Ответить
Игорь Ашманов Сам себе компания
Верно. Это должно быть совершенно другой задачей, перпендикулярной. А догнать Яндекс на рынке вообще уже нельзя или крайне дорого, сравнимо с его покупкой. Поэтому и сравнивать тут будет глупо. А что Коля Федотов пишет нам из ЮВА, что технически там ничего сложного нет, типа, «он заглядывал вовнутрь», так это всякий скажет, кто заглядывал под капот автомобиля, например. А ты попробуй-ка построить современный автозавод с конкурентной продукцией. К тому же поисковики появляются, конечно, не десятками в год, но довольно часто. За прошедшие 12 лет я видел попыток создать поисковик, ну, наверно, больше десятка, то есть минимум раз в год. Некоторые проваливались на довольно ранней стадии, некоторые доходили до индексации всего Рунета, некоторые даже выкатывались на публику. В общем, этот путь усеян костями. Часть из них вы знаете (Нигма, Вебальта, Облава, Найти Просто, …), часть — нет, они остались невидимыми неудачами.Наш «народный поисковик» Флексум тоже можно к ним отнести, хотя это не совсем поисковик, а хостинг поисковиков; он стоит, работает, имеет что-то вроде 15 000 пользовательских поисковиков, но общем и целом не взлетел. Я уж не говорю про запуск вертикальных поисковиков, которых ещё в разы больше. В 2-3 случаях нас звали провести аудит и сказать, есть ли в остановленном/замороженном/невыпущенном проекте что-то ценное, можно ли его реанимировать, превратить в конкурента Яндексу. Самое, конечно, грустное в том, что практически во всех известных мне случаях: а) никаких изобретений, новых технологий и прорывов в этих проектах не наблюдалось. Просто по книжке: паук, индексатор, поиск, пейджранк, морфология и всё такое. То есть шансов как-то технологически вырваться вперёд не было изначально; б) маркетинговое позиционирование (даже если только в голове инвесторов и разработчиков) было совершенно дурацкое: «ещё один поиск не хуже Яндекса». А рынку не нужен ещё один Яндекс, этот же уже есть. в) не было никакого плана развития, как, собственно, нагнать туда аудиторию (ну разве что кроме Вебальты, где план был, но совсем уж одиозный). В этом смысле у госпоиска есть все шансы избежать проклятия этих а), б) и в), если всё делать правильно: делать новые функции, не конкурировать с коммерческими поисковиками и делать его платформой по умолчанию.
13 октября 2013 в 18:29 Ответить
Альтер Эго
никаких изобретений, новых технологий и прорывов в этих проектах не наблюдалось А они тут вообще возможны? А как вот например человек думает, понимает, различает? Не знаете? C ранжирующими системами проще в том плане, что сам пользователь начинает их / про них домысливать (как зритель отдаётся кину), верить, что они типа умные, ищут.
13 октября 2013 в 18:32 Ответить
Виктор Лавренко coccoc.com
Игорь, а что у wada.vn с проблемами а)-в)? Как решаете, если не секрет?
13 октября 2013 в 18:56 Ответить
Алексей Петровский Price.ru / Бегун
У wada.vn нет проблем и быть не может. При населении в 89 млн человек у wada.vn количество среднесуточных уникальных посетителей за октябрь 2013 — 13 500 человек. При этом доля собственно вьетнамского трафика 74%, а американского — 16%. При этом лидирующие сайты при привлечению трафика услаждают русский слух: govome.com freapp.com laban.vn tinhte.vn (простите, волнуюсь) tuvaro.com pinshan.com Чувствую у проекта необычайный потенциал роста. При том, что в поисковом трафике Вьетнама числятся такие неиллюзорные игроки как (top-15): Google.com.vn Google.com Yahoo.com Delta-Search.com Ask.com Snapdo.com Bing.com Searchnu.com Google.com.kh Hixx.info Search-Results.com Baidu.com Searchfunmoods.com Mysearchresults.com V9.com Да здравствует Профсоюз Граждан Вьетнама! Hoan ho!
13 октября 2013 в 19:34 Ответить
Игорь Ашманов Сам себе компания
>Игорь, а что у wada.vn с проблемами а)-в)? Как решаете, если не секрет? Виктор, не секрет. Заноси пару миллионов долларов, становись акционером, всё узнаешь. Это, собственно, и предлагалось Фролкину тогда.
13 октября 2013 в 20:06 Ответить
Виктор Лавренко coccoc.com
Игорь, довольно странно — вы вроде уже давно запустились, и как-то эта стратегия должна быть уже видна не только инвесторам после инвестиций — уж по крайней мере маркетинг мессадж и каналы дистрибуции. я уж не говорю о том, что вообще-то так не бывает — обычно стратегия рассказывается до заноса денег, а не после… ну если только это не Сегвей — единственная известная мне история, когда произошло наоборот — держали все в секрете, обещали решение транспортной проблемы, а оказалось, что это самокат…
13 октября 2013 в 20:10 Ответить
Игорь Ашманов Сам себе компания
Ну тем, кто действительно заносит и репутацию имеет — тем да, до заноса, а конкурентам, которые как бы могут занести — тем опосля.
13 октября 2013 в 20:12 Ответить
Игорь Ашманов Сам себе компания
Ну, а если стратегия должна быть видна снаружи — что ж ты тогда спрашиваешь? Ты вообще что называешь этим замечательным словом? Вот то, что вы переключились с поиск а на браузер — это стратегия или просто так вышло?
13 октября 2013 в 20:20 Ответить
Виктор Лавренко coccoc.com
ну вот мне стратегия wada.vn не видна вообще — не вижу ни прорывных технологий, ни внятного маркетингового позиционирования, ни каналов продвижения — всего того, что ты написал, что должно быть у успешного поисковика. но может быть я плохо смотрю как-то, и, например, просто недостаточно хорошо знаю вьетнамский, поэтому не понимаю сути твоей рекламной кампании, к примеру. на счет браузера — да, конечно — это стратегия, выбранная почти с самого начала проекта. мне ее несколько лет назад Миша Ушаков, занимающийся тулбарами, подсказал, когда браузеры были еще не модны — большое спасибо ему за это. у нас, кстати, сегодня очередной праздник — доля рынка 7%! :)
13 октября 2013 в 21:55 Ответить
Альтер Эго
Вы оба задрали уже с этим Вьетнамом.
13 октября 2013 в 22:11 Ответить
Альтер Эго
Вас, извините, муж дома драть будет. А здесь разговор про поиск идёт, обсуждают 2 человека, занимающиеся разработкой реальный поисковых машин.
14 октября 2013 в 07:12 Ответить
Игорь Ашманов Сам себе компания
Я про Вьетнам сам ни слова не сказал. Это дерзкий Лавренко всё норовит ко мне привязаться. Ну, поздравим его с такой концентрацией на проекте.
14 октября 2013 в 07:21 Ответить
Игорь Ашманов Сам себе компания
> А как вот например человек думает, понимает, различает? Не знаете? Не, не знаю. Думаю, и никто не знает. Прочёл я в своё время несколько книг разных докторов и кандидатов психологии и философии типа «Понимание» и «Смысл». Я тогда ходил на работу в ВЦ АН СССР на Вавилова-40 от метро Академическая каждый день мимо Академкниги, почти каждый раз покупал новую книжку. Ну и выяснил, что теории нет. Ну оно и понятно, изучать инструмент с помощью самого инструмента довольно сложно, его хрен изогнёшь так, чтоб он сам на себя посмотрел. Это скорее дело религии и персонального самопознания, как завещал великий Платон. Но в утешение можно сказать, что далеко не все и люди думают, понимают и различают. P.S. Советую, кстати, найти и почитать книгу Ротенберга и Аршавского «Поисковая активность и адаптация». Прочищает чакры. Она довольно близка к нашей теме — про поиск и вообще восприятие информации в Интернете, хотя была издана в 1984.
14 октября 2013 в 09:22 Ответить
Альтер Эго
А что такое чакры? (и есть ли они вообще? И надо ли их прочищать книжками? Может есть другие способы?) А если инструмент даже понимает, что сам себя изучать не может (хотя этого не подтверждают представители религиозного бизнеса), то не благоразумнее ли было бы отказаться и от ожидания появления новых технологий того же поиска? Лучше уж честно ограничиться сервисами для людей, которые не думают, не понимают… ну и зомбировать их рекламой. По следам аненербе не тянуло? Или, думаете, это только для маньяков? (но посмотрев на ваше описание обряда целования макфола… грустно становится. Ну какие-то совково-православные образы)
14 октября 2013 в 09:40 Ответить
Альтер Эго
> Вас, извините, муж дома драть будет. > А здесь разговор про поиск идёт, обсуждают 2 человека, > занимающиеся разработкой реальный поисковых машин. Вы дурак? Что тут можно было узнать про поиск, кроме широко раскрытой внутреннего мира двух персонажей?
14 октября 2013 в 09:44 Ответить
itman
Бездельник, прочистка чакров по уровню мракобесия соперничает с очисткой организма от шлаков. В любом случае, я бы никому не советовал очищать чакры такой старой книжкой. Как правило, такую древность можно читать только из исторического интереса. Я, каюсь, сам люблю такое периодически пролистать. Но только с целью поохать в духе: ах были люди в то время, все главные идеи придумали до нас. Но, как известно, идеи это хорош, а реализация — еще лучше. А современные реализации этих чакр несколько отличаются от того, что думали в 80х.
14 октября 2013 в 10:04 Ответить
Альтер Эго
>В любом случае, я бы никому не советовал очищать чакры такой старой книжкой. Как правило, такую древность можно читать только из исторического интереса. Серьезно? А что, за последние 30 лет психология совершила гигантский рывок и все старые идеи оказались за бортом? Или люди за 30 лет стали совершенно другими? Что произошло?
14 октября 2013 в 10:05 Ответить
Альтер Эго
> прочистка чакров по уровню мракобесия соперничает с очисткой организма от шлаков Уборка мусора — дело грязное. Какие выводы?: Пусть мусор остаётся (в чакрах / понималке)? Не тронь говно…? Не буди лихо? Но вот почему-то дворников ещё никто не отменил.
14 октября 2013 в 10:16 Ответить
itman
> Серьезно? А что, за последние 30 лет психология совершила гигантский рывок и все старые идеи оказались за бортом? Или люди за 30 лет стали совершенно другими? Что произошло? Нет, не остались. Просто раньше там было все больше на уровне примеров, концепий, общих размышлений, а теперь стали сплошь статистические методы. И это коренным образом меняет дело.
14 октября 2013 в 10:20 Ответить
anonymous coward
А что такое чакры? (и есть ли они вообще? И надо ли их прочищать книжками? Может есть другие способы?) С санскрита слово «чакра» переводится, дословно, как «колесо», «кольцо» или «диск». Т.е., дырка, говоря современным русским языком. P.S. Anus по латыни — это тоже, дословно, «кольцо».
14 октября 2013 в 10:27 Ответить
itman
Анонимус, ужас какой. Я чакрами чувствовал, что тут дело неладно, но вот сформулировать так точно не мог.
14 октября 2013 в 11:08 Ответить
anonymous coward
Альтерэги жгут. То есть Кёльнский собор строили люди, которые не знали арифметики. Кёльнский собор (его своды и частично башни) это уже 15-й век, далеко не средние века. И в Амстердаме торговали, не зная арифметики. Это тоже не средние века. Амстердам вообще стал городом только в начале 14-го столетия. На протяжении почти всех средних веков никакого Амстердама вообще не было. Ну и крестовые походы снабжали оружием и продовольствием по наитию. Банки тамплиеров и векселя с дорожными чеками выписывали как бог на душу положит, что попало писали римскими цифрами. Вы вообще представляете что такое «арифметика римскими цифрами»? В те самые средние века арифметику изучали только в университетах, и делали это несколько лет. (И вовсе не потому, что они были тупее нас нынешних.) Как снабжали оружием и выписывали векселя? Очень просто, используя счеты и считая на пальцах. Первые мануалы, где впервые описаны четыре привычные нам арифметические операции, появились в середине 14-го столетия, это уже самый конец средних веков. (Кстати, насчет тамплиеров не уверен, крестоносцы контактировали с арабами, а у арабов с арифметикой тогда все было гораздо лучше.)
14 октября 2013 в 11:59 Ответить
itman
Anonymous coward, да ладно, что вы там такое рассказываете. Древние египтяне пользовались численными методами, а элементы матанализа индусы использовали за несколько веков до Лейбница.
14 октября 2013 в 12:10 Ответить
Алексей Тутубалин LibRaw LLC
Просто раньше там было все больше на уровне примеров, концепий, общих размышлений, а теперь стали сплошь статистические методы. И это коренным образом меняет дело. Опыт цветовой науки последних лет показывает, что статистические методы могут сильно упростить реальную картину, спрятав эффекты, которые важны на каждом отдельном наблюдателе, но усредняются на группе оных.
14 октября 2013 в 12:11 Ответить
anonymous coward
Древние египтяне пользовались численными методами, а элементы матанализа индусы использовали за несколько веков до Лейбница. Не уверен, что это не троллинг и не шутка. Тем не менее, отвечу серьезно: а) Речь шла про средние века и арифметику. Причем тут Египет и индусы? Например, папуасы уже десять тысяч лет назад вовсю ели одомашненные бананы. Какое отношение это имеет к диете в средние века? б) Для «элементов матанализа» арифметика не нужна.
14 октября 2013 в 12:28 Ответить
Альтер Эго
>Речь шла про средние века и арифметику. Причем тут Египет и индусы? Например, папуасы уже десять тысяч лет назад вовсю ели одомашненные бананы. Какое отношение это имеет к диете в средние века? а как вы помещаете зализняка в 19-й век? какое отношение 19-й век имеет к реализации русской морфологии в поисковиках?
14 октября 2013 в 12:46 Ответить
anonymous coward
а как вы помещаете зализняка в 19-й век? Я его, тащемта, туда не помещал. какое отношение 19-й век имеет к реализации русской морфологии в поисковиках? Такое, что русская морфология — это очень и очень хорошо изученный объект (думаю, она даже лучше изучена, чем та же арифметика), поэтому никаких концептуальных сложностей или наукоемких технологий там нет. Нужны только усердие и воля к прочтению скучных мануалов по русской грамматике. Как программистская задача это даже проще, чем написание какого-нибудь банального IMAP-сервера.
14 октября 2013 в 13:37 Ответить
megapinion
Банки тамплиеров и векселя с дорожными чеками выписывали как бог на душу положит, что попало писали римскими цифрами — тамплиеры — очхороший пример, кстати. Они как раз фантастически обогатились именно за счёт того, что только они одни «арифметику» и знали.
14 октября 2013 в 14:45 Ответить
Альтер Эго
Банкиры обогащаются не за счёт знания арифметики. Не упомянуто ещё одного необходимого звена. > С санскрита слово «чакра» переводится, дословно, как «колесо», «кольцо» или «диск». Да какая разница как оно переводится. Вы вот ашмановскому [url=http://roem.ru/2013/10/11/addednews82408/#com184486]несгибаемому инструменту[/url] прямо ответьте на вопрос: Что такое чакры? Ну вот вы смотрите и видите солнце, тучи, травку, мир. Определения этих слов не интересуют. Объясните лучше процесс восприятия сего. И что/как воспринимается чакрами?
14 октября 2013 в 19:32 Ответить
Игорь Ашманов Сам себе компания
Зря удалили Оле-Лукойе. Отличный приер того, чтоо и некоторые люди тоже не понимают, не отделяют и т.п. Главное ведь для интернет-хомячка что? Наехать на оппонента, уличив его в невежстве (проплаченности ангажированности, недостающее вписать) и затем шарахнуть цытаткой, которую сам либо вообще не прочёл, либо не понял.Вот такой, например: «»Понимание» — процесс сопоставления свойств объекта понимания, записанных в одной структуре данных с аналогичным объектом, записанным в другой структуре данных. Соответственно, количество понятого зависит от количества » Как видим, здесь иллюзия объяснения, при этом — классический порочный круг — определение неопределяемых понятий одного через другое. То есть теории никакой нет. Но сам процесс нагугливания и копипейщенья даёт хомячку иллюзию обасалютнейшего знания и выигрыша в интернет-препирательствах. И грызун даже не фтыкает, что это убогое определение понимания полностью выпускает понимание нового, оно невозможно внутри этого определения. Всё-таки не прочёл, видимо, бедняга, щёки помешали глазами водить. Любезнейший грызун. Законы Киргоффа или теорию пределов учат, несмотря на то, что они придуманы и открыты далеко не 30 лет назад. Я уже приводил выше цыттаку из кунфуиста: «Да что там древние греки, у них даже телевизора не было». Это вот про ваш способ «понимания». Даже не будут приводить вторую про «не читал, но…» В общем, глупый жирный хомячок. Я настоятельно рекомендую к прочтению эту книжку, она что-то вроде законов Киргоффа для психологии, луч пронзительного света на общем фоне болтовни, грязных выдумок и мракобесия, принятых в этой лженауке.
14 октября 2013 в 22:42 Ответить
Юрий Синодов Roem.ru
Это Tar729
15 октября 2013 в 08:17 Ответить
Альтер Эго
здесь иллюзия объяснения, при этом — классический порочный круг — определение неопределяемых понятий одного через другое А примерно тем же самым страдает много кто/что. И это вообще способ прогресса. И кто-то из считающих себя валидным… вдруг поминает чакры и религию. Но никакого реального определения дать не может, нечем это сделать. Уже нечем.
15 октября 2013 в 08:40 Ответить
itman
Аноним, не гневите пророка, ну нету никих удовлетворительных теорий семантики (то бишь теорий, которых можно было закодировать и сделать семантический поисковик). И, рискну предположить, что при нашей жизни мы их тоже не увидим. Да и даже для той же грамматики есть мульон альтернативных подходов и непонятно толком чем один хуже другого.
15 октября 2013 в 10:20 Ответить
anonymous coward
Да и даже для той же грамматики есть мульон альтернативных подходов и непонятно толком чем один хуже другого. Это вы дух Хомского сюда в тред призываете? Годно, годно, такого троллинга мы тут еще не видели.
15 октября 2013 в 11:50 Ответить
Альтер Эго
> Это вы дух Хомского сюда в тред призываете? Даже если обойтись без Хомского. Возьмите академические грамматики русского языка — грамматика в них описана по-разному, а исчерпывающе — нигде.
15 октября 2013 в 13:29 Ответить
anonymous coward
Возьмите академические грамматики русского языка — грамматика в них описана по-разному, а исчерпывающе — нигде. Человеческий язык — это орудие труда, а не божественное откровение. Какой смысл описывать орудие труда одинаково, да еще и «исчерпывающе»? Тут не поиск истины, лишь бы работало.
15 октября 2013 в 19:46 Ответить
Альтер Эго
Лишь бы работает. А человечье мышление — тоже «орудие труда»? Живым ему быть не надобно? > ну нету никих удовлетворительных теорий семантики (то бишь теорий, которых можно было закодировать и сделать семантический поисковик). И, рискну предположить, что при нашей жизни мы их тоже не увидим А у футболистов есть теория, по которой они играют? Не спрашивали их? Речь не о теориях. А про ум-такой-какой-есть — почему-то соображающий. И не зарекайтесь.
16 октября 2013 в 09:32 Ответить
Альтер Эго
По теме: 1) Зная весь трафик, можно получить систему работающую на единицы процентов хуже конкурентов, используя на порядок меньшие мощности/стоимость. Это медицинский факт, с которым спорить не стоит. 2) Скорее всего трафик они не знают, так как для этого нужно построить эффективный сбор логов и их обработку, что за 20млн сделать затруднительно, ибо инфраструктура и доставка. Они будут надежный rcp от провайдеров на таких объемах делать год :). 3) «Очистить интернет», как предлагает Ашманов, стоит еще дороже, так как для этого на этапе индексирования надо делать рендеринг страницы на тему порно-баннеров и прочей ерунды, что прилетает из жабаскриптов и прочих флешей. Это очень дорогая технология. Значительно проще сделать такое из государственного браузера, или ОС. Так что цель явно не такая. 4) К цифрам в 98.35412983762345% приводимым без всяких обоснований веры нету и основанным на них утверждениям про морфологию верить надо с опаской. BTW, если есть идеи как измерять качество морфологии, было бы классно их озвучить. А то «морфология это не про качество поиска» больше говорит о том, что морфологию ставить на пользу качеству не научились в тех организациях, где работал автор. То, что Илья с кем-то не захотел спорить без цифр, на уровне кто громче крикнет, делает ему честь. 5) IMHO в наш век бурного развития мобильных технологий, делать новый поиск на десктопе — это из мультфильма про черепаху, что одевалась не по сезону. Оффтоп:Интересная какая редакционная политика. Народ, видимо, совсем в адреса альтерэг не глядит. Андрей, если я все правильно понимаю, приводит числа и результаты реальных экспериментов (на самом деле очень ценную инфу слил) на тему что можно выкинуть и как это повлияет на качество, но в лучшие комментарии попадает истеричный ответ Ашманова в стиле: «читай про полноту в моем учебнике».
16 октября 2013 в 10:41 Ответить
Игорь Ашманов Сам себе компания
> То, что Илья с кем-то не захотел спорить без цифр, на уровне кто громче крикнет, делает ему честь. 1. Илья как раз много разговаривал и спорил на эти темы открыто, все 20 лет, что мы с ним знакомы. Просто вы этих споров не видели, в тусовке не были. Мы с ним обсуждали прикладную лингвистику задолго до появления Яндекса, жили в одной комнате на конференциях и т.п. И он прекрасно понимал весьма умеренную роль встройки обработки словоизменения в поиск для повышения качества, что это скорее для удобства пользователя, чем для повышения релевантности. Просто они эту (не вполне свою, из ИППИ) морфологию встраивали ещё в свой диск с Библией и продолжили с поисковиком. 2. Это именно Яндекс как компания выбрал метод «кто громче крикнет» про морфологию, согласно решению Лены Колмановской именно так строить маркетинговую отстройку. Ещё раз напомню, что Яндекс рекламировал себя как поисковик «с учётом русской морфологии» на фоне того, что у основных конкурентов морфология тоже была, и была сделана лучше. С точки зрения пиара и маркетинга это было совершенно правильное решение — как мы видим, никто из конкурентов в результате не стал вставать на цыпочки и пищать «я тоже, я же тоже, у меня же тоже есть…». В частности, потому, что у них в 2000-2001 не было денег на наружку и ТВ, а у Яндекса были. 3. Сравнение морфологий русского языка дело довольно простое. В первую очередь важна полнота словаря и продуктивность морфологической модели, покрытие всех возможных языковых явлений. Наилучшие морфологии разрабатывались для проверки правописания, потому что там нужны точность и полнота самой морфологии и они видны невооружённым глазом при проверке текста (а в поиске это вуалируется точностью и полнотой самого поиска). Тестирование русских морфологий делал, в частности, Микрософт в 1994, где номерами 1 и 2 оказались ОРФО и Пропись от Коваленко. Впрочем, все профессионалы и так примерно знали табель о рангах. В середине и конце 1990-х лучшая русская морфология была у меня, то есть у Информатика, а потом и у МедиаЛингвы, её и встроили в Рамблер; следующей за ней шла морфология Прописи от Коваленкко (Кевы), который тоже где-то в 1997 пришёл к нам в Медиалингву, из Агамы — она же и работала в Апорте. Была ещё морфология проверщика правописания Литеры (Володи Селегея) — она переехала в Абби и развивается там уже 20 лет. Были ещё как бы морфологии и проверщики правописания типа aspell, ispell, AOT но про них ничего хорошего не скажешь. Они обычно не промышленные, сделаны энтузиастами, на коленке. Как обычно, в тусовке энтузиастов нудными и неблагодарными задачами пополнения словаря или чистки парадигм никто заниматься не хочет. Короче говоря, к 2000 году у Яндекса была морфология русского языка наихудшая из трёх, у Рамблера и Апорта были лучше. Но на качество поиска это серьёзного влияния не оказывало, потому что тогда главной повесткой было вовсе не словоизменение, а борьба со спамом и ссылочное ранжирование. А вот использовать «учёт русской морфлогии» как маркетинговый лозунг было удобно. Что Яндекс и делал. Сейчас морфология ОРФО по-прежнему наиболее точная и полная, потому что её как-то развивали последние 20 лет и это вообще единственный серьёзный и живой проект проверки правописания для русского языка. Она ещё и партнёр ИРЯ им. Виноградова, с обменом данными в обе стороны. Однако задачи поддержки морфологии для поиска уже давно разошлись с задачами проверки правописания, там всё стало другое. Там о точности морфоразбора, правилах, грамотности, правильности парадигмы лексемы в принципе речь не идёт, другие критетрии, нужна многоместная подсказка по логам запросов, там появились квазисинонимы и т.п. Впрочем, для Яндекс.Спеллера яндексоиды таки купили словарь РФО несколько лет назад. Так что сейчас этот словарь в Ворде и Яндексе, понятное дело в Крибруме, ну и кое-где ещё. Коваленко продаёт свою морфологию (которая много почерпнула от нашей), она работает в Мете на Украине, кое-где ещё.
16 октября 2013 в 13:27 Ответить
Альтер Эго
Игорь, при всем уважении, предлагаю оставить аргументы в стиле «пил из одной миски» и «спал за одним столом» в стороне. Мне известно единственное исследование влияния морфологии на качество поиска по русскому материалу: http://www.maxgubin.com/articles2006/rcdl2006.pdf Там победа с небольшим преимуществом у АОТ. Если вы знаете какие-то более полные исследования этого вопроса, пожалуйста дайте ссылку. Аргументы типа «у нас была офигенная закрытая морфология, которая всех гасит» точно не подойдут. Также отмечу, что в Яндексе долгое время уважающий себя разработчик должен был: уронить кластер, сделать формулу и написать морфологию (точную формулировку не помню уже:)), так что понятие «морфология Яндекса» не слишком точное, так как непонятно какой исторический период вы адресуете.
16 октября 2013 в 14:04 Ответить
Игорь Ашманов Сам себе компания
Вы с чем-то спорите, только неясно, с чем. И точно не со мною. Я вам всего лишь сказал, что морфология практически не влияет на качество поиска — а вы зачем-то вспоминаете «преимущество у АОТ» в каком-то странном тесте ребятами из Кодекса. А зачем? Ну, чуваки взяли беспородный и к тому же специализированный поиск и по очереди к нему приоседняли какие-то беспородные морфологии. Сделали вывод, что на их поиске (неизвестно, чем выдающемся) вот эти морфологии ведут себя так-то. Это афигенно познавательно. О качестве исследования говорит тот факт, что они Кевину Стемку (!) сравнивают с Айспелом и АОТом. Типа давайте сравним Андроид с Айфоном, а газонокосилку с трактором. Что касается «у вас была закрытая морфология» — она не была, а есть, и она — открытая по сути. Потому что это ширпотребовский продукт. Возьмите ОРФО и тестируйте на текстах. Всё сами увидите. Но ОРФО — это просто готовый продукт под задачу, а вообще у нас тоже в компании морфологий как грязи. Всё-таки 25 лет этим занимаемся. И каждый заходящий на кухню разрабтчик имеет свою морфологию. Их у нас больше двадцати. Поэтому я вам и говорю, что а) хвастаться морфологией глупо, это сейчас ширпотреб, б) на качество поиска она не влияет. Впрочем, читая ваш текст, я легко догадываюсь по отдельным маркерам пристрастности, что вы в той или иной степени — из АОТа, а также из Яндекса, что-то вроде Сокирко-штрих. Извините уж, не испытываю уважения к вашему продукту, хотя само по себе наличие открытых проектов в прикладной лингвистике — благо. Что касается того, сколько времени я знаю Сегаловича: вы просто не из этой тусовки. Вы не занимались этими прикольными штуками, когда всех игроков можно было по пальцам пересчитать и на одной конференции увидеть (Сегалович, Коваленко, Селегей, Трусов, Борковский, …). И когда ещё почти не было компаний и коммерции. Поэтому вы не знаете реального веса и количества сделанного, да оно вам и не надо. Ну и не завидуйте, это уже история. вам она должна быть неинтересна.
16 октября 2013 в 15:28 Ответить
Алексей Тутубалин LibRaw LLC
Игорь, ну там сравниваются три стеммера (с непонятными словарями исключений) и одна словарная морфология (AOT). И делается вывод, что словарная — лучше. Ну, да, наверное, не фокус. Не вижу смысла обсуждать это «исследование влияния морфологии на качество поиска», и так известно что стеммер будет сильно шуметь (от качества списка исключений зависит), а словарная — меньше.
16 октября 2013 в 17:18 Ответить
solar
Исследование приводилось не как источник информации (там обсуждаемых морфологий просто нету), а как пример того, что хочется получить в аргументации. Я лучше не знаю, может быть Игорь знает, и обоснованно говорит про то, что у них самая крутая морфология. Если это утверждение снято (я про цифры в 98%, etc.), то предмет спора пропадает, и нам действительно не о чем спорить. Пикировку про историческую значимость продолжать не хочется: все мы пылинки на колесе истории :).
16 октября 2013 в 19:45 Ответить
itman
Какое оскорбление для барина, что «хорошую» морфологию сравнили с плохой и выяснилось, что для поиска особой радости нет, ай-ай-ай… Гораздо интереснее, что на вебовской коллекции преимущество морфологии заметно гораздо меньше. А ведь это только достаточная простая функция релевантности, даже без anchor text, кликов, логов и пользовательского поведения.
16 октября 2013 в 20:45 Ответить
Игорь Ашманов Сам себе компания
> ну там сравниваются три стеммера (с непонятными словарями исключений) и одна словарная морфология (AOT). И делается вывод, что словарная — лучше. Ну да, и вот так у них всё. Пациенты даже не понимают, что они читают или на что ссылаются (можно предположить, что и не читали вообще-то). Нет вообще смысла обсуждать бессловарные морфологии, а тем более сравнивать их со словарными, а тем более пытаться различить их влияние на поиск. Только очень неопытный или глупый человек будет применять бессловарную морфологию для индексации в поисковой машине. Или по крайней бедности, не знаю. > может быть Игорь знает, и обоснованно говорит про то, что у них самая крутая морфология Я не вижу смысла доказывать, что у нас самая крутая морфология (для целей проверки правописания, то есть по точности и покрытию языка, соответствию правилам). Я это и так знаю, а ваше мнение мне лично неинтересно и нерелевантно — вы не разбираетесь в предмете. Морфология ОРФО разрабатывается с 1987 года (26 лет), входит в любой Микрософт Офис в нашей стране, куплена Яндексом и т.п. Никто в нашей стране или за рубежом не вложил столько сотен человеколет в словари и морфмодель, сколько вложено в ОРФО. Но всё это к делу никак не относится. Вы никак не можете вкурить в то, что я говорю. Я же говорю прямо противоположное: неважно, какая морфология в поиске. Она ничего не решает сейчас в поисковых делах. И не решала тогда. Нельзя сделать более крутую поисковую машину с помощью «более крутой морфологии». Сейчас особенно нельзя.
17 октября 2013 в 01:21 Ответить
solar
Игорь, извините, но это вы «не вкуриваете» в поисковых технологиях последнего времени, судя по вашим высказываниям и попыткам свести дискуссию в русло «все в трико, а я Д’Артаньян». Вам несколько человек, которые занимаются проблемой 24/7 пишут: морфология важна, клики и потыреный ранкинг — решают, базу можно сократить не слишком слив в качестве. Поймите наконец, на той стороне провода тоже не школоло сидит и, в отличии от вас, владеет результатами экспериментов на реальных данных, которые вы в прямом эфире опровергаете сомнительными умозаключениями. Ситуация далека от «хомячки и пациенты vs. Ашманов», правда. Ваши достижения в области биздева по продаже технологии говорят скорее о том, что вы талантливый продажник, что несомненно круто, но к обсуждаемой проблематике не имеет отношения.
17 октября 2013 в 03:43 Ответить
Den Raskovalov
solar, +1 :)
17 октября 2013 в 09:14 Ответить
Игорь Ашманов Сам себе компания
Ну пишут и пишут. Люди вообще тут пишут. Как говорила начальница отдела писем в газете Социалистический Донбасс, «пишуть же и пишуть трудяшшые, шоб у них руки повидсыхалы!». Вы что ли прямо вот вообще прям поисковиком 24*7 занимаетесь? О, круто. А спите когда? Или вы во сне тоже развиваете отечественную науку информейшн ретривала? Если вы имели в виду, как обычно, косноязычно, что вы афигенный специалист и по долгу службы занимаетесь развитием поиска в своей конторе (например, в Яндексе или в Бинге), то да, чувак, это ещё более круто, но тоже ведь не уникально. Вот у меня в разных стартапах прямо сейчас, например, делают поисковик Wada по Вьетнету, поисковик по блогам и социальным сетям Крибрум, анализатор качества поисковиков Analyzethis, поисковик по мобильному контенту и внутренностям приложений, семантический веб-фильтр Ремпаро для русского, английского, арабского, вьетнамского, автоматический синтаксис русского, английского и арабского языков, грамматический и стилистический корректор для русского языка, выделение в тексте объектов и событий, анализ тональности и интенций высказываний в соцсетях и т.п., и т.д. Всё тоже такое современное-современное. И данных там и экспериментов — шляпой жуй. То есть, если бы я в самом деле хотел как-то с вами мериться весом, знаниями и авторитетностью, я бы тоже мог сказать «да я, да у меня, да я 24*7, да там современные поисковые технологии, ля-ля-ля…». Так что вам нужно переходить на следующую стадию меряния: доказывать, что вы не просто 24*7 не спите (или спите) на поисковом посту, а что ваш пост сам по себе — гораздо круче. Что вы тяжеловес. Для чего нужно не только громче крикнуть «Яндекс!!!!» или «Бинг!!!», но и собственно пост свой обозначить. Типа, да я там не сбоку в углу семнадцатый фактор подкручиваю ключом на 19, а я там главный ваще. Архитектор, лингвист и релевантщик в одном лице. Начальник поиска, начальник релевантности или как там. Давайте, расчехляйтесь, самолюбие же вы не на помойке нашли! Если оно, конечно, того стоит. А пока что вы высказались очень неубедительно: морфология важна. А я говорю — нет. И что? Вы говорите «клики и потыренный ранкинг решают», а я говорю, что они полезны, но не раньше, чем будет сделан свой паук, индексатор и поисковик. И что? Вы против чего согласны-то? Что вы тоже авторитетный такой, типа? Ну ладно, ОК. Я авансом соглашусь.
17 октября 2013 в 10:33 Ответить
G00DMAN
Я не занимаюсь поиском 24/7, но могу высказать мнение от российской поисковой науки. Какая морфология была в поисках начала века, когда появился лозунг про выдающуюся русскую морфологию в Яндексе? Вроде у всех были только леммизаторы, ну и всё. Леммизатор важен, как минимум при поиске в документах на русском языке. Его наличие резко улучшает качество. В этом смысле морфология для поиска важна, даже более того — она необходима. Другое дело, на сколько важно её качество. Если использовать какой-нибудь простенький стеммер или чюда-морфологию, то разница в качестве будет только на некоторой части запросов, в среднем она будет не большой. В начале века это было совсем не важно и тут Ашманов прав — лозунг Яндекса был исключительно рекламным. Что касается того, чья морфология была лучше, так это определяется только тестами на правильных и верифицированных данных. Пока тестов нет — сравнивать нет смысла. У Ашманова есть замечательный Орфо, который лучше всех продаётся. Однако это не говорит о том, что он лучше. Ашмановские технологии вообще не плохо продаются, хотя их качество не известно, они никогда не участвовали в профессиональных соревнованиях, ни на РОМИПе, ни на Диалоге.
17 октября 2013 в 11:12 Ответить
anonymous coward
базу можно сократить не слишком слив в качестве. Ясен пень, вы же не качество поиска продаете, а трафик рекламодателям. В принципе, сейчас, в 2013-м году, можно и вообще перестать индексировать интернет, это уже не нужно никому давно. Для 90% запросов (навигационных) сразу выдавать ссылки на соцсети, википедию и рутрекер, а оставшиеся места в СЕРПе добивать для красоты ссылками из YML-фидов и и партнерских дорвеев. (Кстати, дарю идею бесплатно. Все равно Гугл через пять лет ровно к этому и придет, можете уже сейчас начинать оптимизировать. Опережать конкурентов, так сказать.)
17 октября 2013 в 13:54 Ответить
HockeyFan
> их качество не известно, они никогда не участвовали в профессиональных соревнованиях, ни на РОМИПе, ни на Диалоге А смысл участвовать в соревнованиях, если технологии и так продаются? Только время тратить. В соревнованиях обычно участвуют те, кто находится в процессе разработки технологии и на рынок с ней еще не вышли.
17 октября 2013 в 14:27 Ответить
itman
Сколько лиц у нашей науки!
17 октября 2013 в 16:47 Ответить
Игорь Ашманов Сам себе компания
Тар-729 — не совсем науки и не совсем лицо. Это скорее какая-то подмышка Рунета. Помоешь её, намажешь дезодорантом, другой раз побреешь даже, но помогает ненадолго.
17 октября 2013 в 17:05 Ответить
Игорь Ашманов Сам себе компания
> они никогда не участвовали в профессиональных соревнованиях, ни на РОМИПе, ни на Диалоге И верно, а смысл в чём? Если в Ромипе есть дорожка, то можно быть уверенным, что тема уже старая, а участвуют в ней в основном аутсайдеры. Там пару раз мелькали Яндекс и Мыло, но по разным неделовым сообраениям (Яндекс как спонсор и организатор, Мыло как младший брат). Если есть несколько участников, если есть сложившиеся правила — то это значит, что сам рынок вышел уже в стадию коммодити, ширпотреба. Скажем, выделение объектов и событий, определение тональности надо было делать три года назад, сейчас-то чего мериться? Или вот какой смысл тратить время и силы, чтобы соревноваться с Галактикой-Зум? Что это даст, чему научит? Это научит тому только, что из-за гандикапа у слабых участников правила будут как можно более урезанными, зажатыми, чтоб никто сильно не обгонял, не срезал, не использовал «нечестного» преимущества более сильной технологии. В точности, как с яхтенным спортом, где соревнуются самые медленные, самые ограниченные, урезанные из парусных судов на земле, чтоб всё было честно. Ну и самое главное, что сама постановка и сам конкурс — гарантированно совершенно неинтересны, далеки от острия технологий. Если у тебя есть крутая новая фишка, тебе нужно её на рынок выводить, а не ходить за Браславским, чтоб он на следующий год, если получится, сделал дорожку, нашёл ещё участников и её на Ромипе потестировал. И напротив, если сама тема интересная, очень новая, то не может быть дорожки на Ромипе. Я тут был на обсуждении в одной государственной венчурной организации, как бы раздающей гранты на прорывные проекты в области семантического поиска или скорее изучающей пока вопрос. Было там человек 30, отовсюду, все более или менее известны. По-моему, не было только из Яндекса никого, а впрочем, не знаю. Точнее, я был на хвосте обсуждения, опоздал из-за конференсного звонка с нашим вьетнамским проектом. Там завязался разговор о том, что вот вы лучше дайте грант на создание дорожки в Ромипе или каких-то ещё тестов, потому что тесты, корпуса и прочее — это самое главное для развития отрасли. Но проблема в том, что если уже имеется хотя бы три участника таких тестов, то это уже не прорывная тема, а избитая. Это как если бы при появлении Гугла потребовали, чтоб он участвовал в дорожке по тестированию поисковиков с Альтавистой, Инктоми и Хотботом, а иначе не поверим в технологию. Ну и при этом, конечно, запретили бы использовать ссылочное ранжирование, чтобы всё было честно.
17 октября 2013 в 17:53 Ответить
kaa_the_snake
Да, Игорь, в парусном спорте вы тоже, я смотрю, круто разбираетесь. Как и во всем остальном, очевидно.
17 октября 2013 в 18:07 Ответить
Александр Сафронов
Игорь Ашманов: Или вот какой смысл тратить время и силы, чтобы соревноваться с Галактикой-Зум? Что это даст, чему научит? Мне кажется, вы не совсем верно представляете себе цель семинара. Собственно, отцы-основатели РОМИПа по этому поводу уже исчерпывающе высказывались, будто специально для этого случая: — РОМИП это НЕ соревнование, а в основном инструмент для разработчиков и исследователей, чтобы узнать что-то новое про свою систему из результатов оценки и комментариев других, кто работает в этой же области. (Игорь Некрестьянов) — РОМИП — это не соревнование («пузомерка») бизнесов — здесь ИССЛЕДУЮТСЯ разные методы/алгоримы, а не сравниваются коммерческие продукты. (Б.В. Добров) Впрочем, сейчас спорить о функции Ромипа большого смысла нет — по очевидным причинам.
17 октября 2013 в 18:24 Ответить
dima5ty гасконец
> Или вот какой смысл тратить время и силы, чтобы соревноваться с Галактикой-Зум? Что это даст, чему научит? Ну, например, когда соревнуются ёкодзуны — это прикольно, потому что все из них точно круты. А когда мелкота — приходится себя заставлять заглядывать в отчёты РОМИПа. Наличие одинаковых правил для участников разного мастерства — это нормально, так в любом спорте. И это круто, потому потому что альтернатива — мнение заоверфитченного старикана, который гордится своей мерилкой крутоты ёкодзун, но видевший их только в ресторанах, плюс многие лета не замечающий пороки малых выборок на графиках. И судя по спискам использованных материалов — смыслы там были.
17 октября 2013 в 19:33 Ответить
itman
На самом деле понятно почему тот же Ашманов не хочет соревноваться. Про качество поиска много чего известно и проиграть всякой школоте можно на раз. А так можно кричать о собственной крутизне. Ну это, конечно, отжиг на тему того, что РОМИПоподобные соревнования бесполезны. С учетом того, что именно так придумали всякие там BM25 и аналоги. И придумали их отнюдь не Ашмановы. Зато они теперь ими пользуются и утверждают, что это было бесполезно.
17 октября 2013 в 19:34 Ответить
G00DMAN
>Скажем, выделение объектов и событий, определение тональности надо было делать три года назад, сейчас-то чего мериться? Мериться или нет — это каждый для себя решает. Задача индустрии — впихивать свои продукты, если они впихиваются без конкурсов, то зачем в них участвовать? Я не о том писал, вы оценили чужие морфологии, тогда как публичных тестов не было и методики не известны. До этого так же оценивали свою определялку тональностей, типа лучше её нету. И тоже без тестов. Эти оценки при наличии в тредике достаточного количества других спецов выглядят слегка нелепо, мы же не на базаре. Если оценивать по баблу, то и Яндекс мог бы сказать — у нас лучшая морфология, потому что мы доросли с ней до IPO и стоим теперь много ярдов. Апорт сдох, морфология — говно. Орфо стоит гораздо меньше Яндекса, ну и морфология там так себе.
17 октября 2013 в 20:00 Ответить
Игорь Ашманов Сам себе компания
>Если оценивать по баблу, то и Яндекс мог бы сказать — у нас лучшая морфология, потому что мы доросли с ней до IPO и стоим теперь много ярдов. Апорт сдох, морфология — говно. Орфо стоит гораздо меньше Яндекса, ну и морфология там так себе. Нет, конечно. Вы произвольно устанавливаете связь между успехом поисковика и морфологией. А её нет. Яндекс мог бы сказать — у нас самый лучший поиск, а Апорт сдох и поиск у него дрянь. И это правильно. Потому что продуктом здесь и следовательно аргументом функции бабла является не морфология, а поиск. А от морфологии какую функцию ни бери, бабла не получится.
17 октября 2013 в 20:21 Ответить
G00DMAN
>Вы произвольно устанавливаете связь между успехом поисковика и морфологией. Точно так же вы устанавливаете связь между успехом ваших продуктов и их качеством, в сравнении с конкурентами. Она может быть, а может и нет, серьёзных тестов никто не видел.
17 октября 2013 в 20:25 Ответить
solar
Ну вот, теперь РОМИП не по нраву. Для справки Рамблер тоже его спонсировал, и кажись участвовал, если мне память не изменяет. В итоге: Яндекс, Rambler и Mail не считают зазорным спонсировать и участвовать в РОМИП, а вот для АиП — это слишком мелко. Ок. Более того, для справки опять же, ни одного спонсорского взноса от АиП я тоже как-то не наблюдаю, да и Ашманова не видел ни на одной сессии, хотя большинство что-то сделавших за последнее время ребят там были. Тот же Сегалович, Костин, Гулин, Расковалов, Добров, etc. Соответственно и предложений как-то нету от Ашманова, как по формату проведения, так и по дорожкам. Так что критика странная, опять все намеки на героя Дюма. Прийдите и выскажите открыто что хотите, и, возможно, все так и будет. Критиковать довольно просто, а вот что-то сделать — значительно тяжелее. На счет должностей, уважаемый Игорь Станиславович действительно считает, что Волож разбирается круче всех в технических вопросах поиска в России? Или может Путин? Или все же это посчитаем шуткой. У меня вот кот мышей ловит, мне по вашей логике в специалисты по мышам записаться?
17 октября 2013 в 20:44 Ответить
Игорь Ашманов Сам себе компания
По-моему, вы бредите. 1. Я не критиковал Ромип ни словом. У меня к Ромипу претензий никаких нет, он живёт своей жизнью, а я своей. Я объяснил только, почему мы в нём не участвуем. Те, кто участвуют, находят какой-то интерес. Научность там, тестирование якобы, помериться, почувствовать себя в верней лиге, не знаю. У нас такого нет, нам нужно продукты на рынок выводить. И я не вижу, зачем нам его надо спонсировать — пусть спонсируют те, у кого такой интерес есть. «Соответственно и предложений как-то нету от Ашманова, как по формату проведения, так и по дорожкам. » Нет, конечно, никаких предложений. Потому что нам не нужны дорожки в Ромипе. Да и пока у вас такие там персонажи мелькают, как КМ-онлайн, Галактика-Зум, вообще говорить не о чем. О каких «должностях» вы вообще говорите, неясно. При чём здесь Волож — тоже. Вы бредите и разговариваете сами с собой. > точно так же вы устанавливаете связь между успехом ваших продуктов и их качеством, в сравнении с конкурентами. Покажите, где я это сделал хоть раз? Это вы клоните к «успеху», как критерию качества технологии. Я же говорю о простейших свойствах машинной морфологии, исключительно о ней: ОРФО разрабатывается с 1987 года, 26 лет, с преимущественным упором на точность, полноту словаря, на покрытие свода правил русского языка (не под поиск, не под что-то ещё). Она проверяет десятки миллионов документов в день, в неё идёт поток пользовательских слов, сообщений об ошибках, поступают новые слова и правила от ИРЯ. Там постоянно пополняется словарь, уточняются классы словоизменения. Это единственный проект такого размера, масштаба, возраста для русского языка, в него вложено, условно говоря 500 человеколет. Мне совершенно очевидно, что это лучший машинный словарь русского языка, остальные и близко не валяются. Грамматических и стилистических корректоров вообще никто не делает (правда, недавно появился один как бы «конкурент», смешной). Я регулярно чисто из интереса тестирую спеллеры в браузерах, в iOS, спеллер Яндекса и т.п. У меня такое мнение. Хотите оспорить — сделайте нормальный тест программ проверки правописания. Но не вижу, зачем спорить: к поиску это не имеет ни малейшего отношения. Более того, ОРФО не является коммерческим успехом. Это глубоко убыточный проект.
17 октября 2013 в 21:02 Ответить
solar
Автор забывает что пишет. Действительно топик существенно разросся, напомню: ИА: «Если в Ромипе есть дорожка, то можно быть уверенным, что тема уже старая, а участвуют в ней в основном аутсайдеры.» ИА: «Типа, да я там не сбоку в углу семнадцатый фактор подкручиваю ключом на 19, а я там главный ваще. Архитектор, лингвист и релевантщик в одном лице. Начальник поиска, начальник релевантности или как там. Давайте, расчехляйтесь, самолюбие же вы не на помойке нашли!» ИА: «Я не вижу смысла доказывать, что у нас самая крутая морфология (для целей проверки правописания, то есть по точности и покрытию языка, соответствию правилам). Я это и так знаю, а ваше мнение мне лично неинтересно и нерелевантно — вы не разбираетесь в предмете. Морфология ОРФО разрабатывается с 1987 года (26 лет), входит в любой Микрософт Офис в нашей стране, куплена Яндексом и т.п. Никто в нашей стране или за рубежом не вложил столько сотен человеколет в словари и морфмодель, сколько вложено в ОРФО.»
17 октября 2013 в 21:28 Ответить
Александр Сафронов
G00DMAN: могу высказать мнение от российской поисковой науки. Надеюсь, это была самоирония)
17 октября 2013 в 21:48 Ответить
Альтер Эго
Давайте лучше не о вымирающих исследователях, а о чём-то подобном государственном. Какие возможны реальные задачи, поставленые перед создателями? А многое, что здесь про это фантазировалось — похоже на успокоение ит-шников (в чём даже нет необходимости) и будущие лозунги пиарщиков про то, чего не будет.
17 октября 2013 в 21:48 Ответить
G00DMAN
Игорь Ашманов, я про Орфо спорить не хочу, мне Орфо нравится. Докопался я до двух моментов: во-первых, вы отранжировали морфологии в поисках начала века, и это ранжирование ниоткуда не следует. Даже если у вас была самая лучшая морфология, то мало ли, как вы там её прикрутили к Рамблеру? Может быть криво, или вообще не правильно. Ну и публичных тестов не было. А, во-вторых, вы заявили, что морфология для поиска не важна, что очевидно не верно. Для тек, кто не в теме можно так пояснить: если убрать из Крибрума морфологию, то для поиска новых постов в бложеках по слову [ашманов] он не найдет вариантов с [ашманова] и [ашмановым]. Т.е. какая-то морфология должна в поиске быть. Другое дело — на сколько её качество влияет на поиск. Тут я согласен — не сильно влияет.
17 октября 2013 в 21:50 Ответить
G00DMAN
>Надеюсь, это была самоирония) С чего бы?
18 октября 2013 в 07:19 Ответить
Игорь Ашманов Сам себе компания
> ИА: «Типа, да я там не сбоку в углу семнадцатый фактор подкручиваю ключом на 19, а я там главный ваще. Архитектор, лингвист и релевантщик в одном лице. Начальник поиска, начальник релевантности или как там. Давайте, расчехляйтесь, самолюбие же вы не на помойке нашли!» Ну да, эти альтерэги себя не на помойке нашли, для них важно ощущать себя большими и важными, у них самолюбие. Они же вон чо. Они же вон эвона куда. Для них важно покозырять причастностью к Яндексу, должностями и т.п. Я им и предлагаю это сделать. Как однажды к Александру Македонскому привели человека, который демонстрировал немалое искусство (рассчитывая на награду за него): он с удивительной точностью метал просяные зёрна сквозь игольное ушко. Александр посмотрел, посмотрел и велел наградить — дать ему меру проса. То есть хочется вам щёки надувать — вон берите пылесос, так сподручнее. Я, кстати, от тех, кто сейчас якобы «24*7″ в поиске», у кого «данные и эксперименты» в Яндексе, 4 года назад своими ушами слышал, что это они всё-всё делают в Яндексе, что Сегалович давно спёкся, что от него одни фантазии и разговоры, а реальный поиск в Яндексе реально делают они, реальные пацаны. И я смотрел на них с некоторой жалостью: потому что у людей нет обратной связи с миром, и они не понимают реальной ценности многих вещей. А всё от самости. Ну и что — слушать их экспертнейшее мнение про важность морфологии в поиске? Увольте. Спорить по существу — ну, а зачем, пусть раздувают щёки на здоровье. Я эти морфологии делал своими собственными руками несколько лет, кое-что про них понимаю. И много руководил встройкой в поиск, разработкой других факторов. Я профессиональный разработчик именно вот этого. Моё профессиональное мнение и про то, какая там гамбурская табель о рангах, и какова роль словоизменения в поиске — не изменитстя оттого, что тут некий чувак с большим самолюбием и маленькой обратной связью из Яндекса будет обсуждать даже не существо вопроса, а кто ваще круче, кто отстал, а кто на острие.
18 октября 2013 в 07:24 Ответить
Игорь Ашманов Сам себе компания
> Т.е. какая-то морфология должна в поиске быть. Другое дело — на сколько её качество влияет на поиск. Ну, а я-то что написал выше? Вы перечитайте. Вы просто повторили мои слова. Морфология — нужна. Для удобства поиска слов во всех формах. Эту удобную фишку можно использовать так же, как показ верхних разделов сайта прямо в сниппете, как карту рядом со сниппетом при некоторых запросах, как подсказку при нечаянном вводе запроса в латинице. Удобно, сокращает время, приятно. Но на релевантность влияет минимально. Влияет на успех поисковика у пользователей. Да, при поиске горячих тем в блогах, например, обязательно нужно сводить разные словоформы к материнской лексеме, без этого не получится. Для выделения объектов во всех их формах — тоже. Но это опять не про релевантность, про другое. Полноту, например. И шум.
18 октября 2013 в 07:39 Ответить
Игорь Ашманов Сам себе компания
> Какие возможны реальные задачи, поставленые перед создателями? Это не вполне корректный вопрос. Мы не можем здесь знать, какие задачи поставлены перед создателями со стороны государственного заказчика. Но можем обсудить, какие задачи могли бы быть у государственного поисковика. Я своё мнение выше уже высказывал: 1. Это должен быть чистый поисковик, без порнухи, побуждения к суициду, наркотиков, экстремизма, прочего. Без мата, оскорблений, грязи. Подчиняющийся вообще идеологической политике государства (да-да! начинайте заламывать руки). По сути, аналог того, что делает государственное Бибиси в Англии. 2. Этот поисковик должен поддерживать максимальное число языков народов РФ, позволять искать на них. 3. Этот поисковик должен быть наилучшим видом доступа к госуслугам. Иметь тесную связь с РОИ, голосованиями и прочим. 4. Соответственно, поисковик должен иметь средства идентификации гражданина, служить его интернет-паспортом. 5. Этот поисковик должен иметь государственные справочники предприятий, адресов, людей и т.п., за достоверность которых отвечает государство. Он должен иметь лучшие карты, поставляемые от государства, сопряжение их с кадастром недвижимости и справочниками предприятий. И так далее, и тому подобное. То есть это должен быть портал в государство. А ставиться он должен по умолчанию везде, где есть опасение насчёт контента или аудитории (детсады, школы, университеты, госучреждения…). В этой парадигме он в принципе не будет конкурентом Яндекса и Гугла.
18 октября 2013 в 08:36 Ответить
i-tr
Поправка: BBC не государственный, а общественный.
18 октября 2013 в 08:39 Ответить
Альтер Эго
«Какие задачи могли бы быть» — это напоминает мечты полувековой давности. Но вы тут дали гос пиарщикам достаточно формулировок на тему как пиариться в мозгу айтишников . И Колмановскую, как эффективного менеджера, не забыли. «Поддерживать максимальное число языков народов РФ», если РФ ещё лет 15 протянет. Современные поисковики ищут на любом языке (без синонимов), т.е. почти любой набор символов, включая несуществующие слова (и языки, если кому так удобнее высказаться).
18 октября 2013 в 11:42 Ответить
anonymous coward
Современные поисковики ищут на любом языке (без синонимов) Попробуйте что-нибудь на C++ поискать, лол. (Кстати, вы забыли добавить: «ищут на любом языке одинаково плохо». Попробуйте, например, поискать «трехсекционную настольную лампу» в любом поисковом движке. Там будет такой треш, что даже человек из 1998-го года бы офигел. Можете также поискать «настольную лампу три секции», «настольную лампу две секции», «настольную лампу двухсекционную» и прочие производные, если счтаете, что это запрос у меня такой плохой.)
18 октября 2013 в 14:32 Ответить
Игорь Ашманов Сам себе компания
> Поправка: BBC не государственный, а общественный. Я знал, что такая придирка появится обязательно. Викизнание, чо. Бибиси живёт на госденьги, в том числе на налог, собираемый за владение телевизором. Он такой же общественный, как Друзья Сирии — друзья Сирии. Обычное англосаксонское приклеивание невинных названий на грязные вещи. BBC проводит исключительно государственную политику, то есть это лживый и наглый инструмент британской пропаганды. Достаточно посмотреть их «исторические» фильмы, например, про Вторую мировую. Или посмотреть пургу про Ливию-Сирию. Но с точки зрения Англии и её граждан тут, вероятно, всё нормально — есть общественный консенсус, им ровно того и надо от «общественного» телевидения.
18 октября 2013 в 17:08 Ответить
Arthur "Boo"
По поводу BBC. Заметил, что BBC для внутреннего (т.е. на Острове) потребления изготавливает гораздо более спокойные и неистеричные новости, чем тот World Service что наружу идет.