«Яндекс» пока не будет делать браузер

Развитие событий: "Яндекс" сделал новый браузер (1 октября 2012)

На пресс-конференции "Яндекса" и Mozilla Foundation, проходившией 27-го марта в московском Swisshotell, генеральный директор "Яндекса" Аркадий Волож сказал, что пока "Яндекс" не будет делать своего браузера.

В частности, мотивировал он это тем, что нужно будет как минимум нанять человека, который сможет написать обработчик java-script, а пока такого человека у "Яндекса" нет, браузер написать невозможно.

Mitchell Baker, chairman Mozilla Foundation, сказала, что очень трудно прогнозировать дальнейшее развитие рынка браузеров, так как в мировом масштабе только Firefox смог преодолеть планку в 20 процентов.

Помимо этого Митчелл отметила, что сотрудничество с "Яндексом", именно в России, для Mozilla Foundation оказалось более выгодным, чем сотрудничество с Google, хотя и не раскрыла насколько именно. Но, по словам Аркадия Воложа, гендиректора "Яндекса", "У "Яндекса" урожайность выше чем у Google", за счет более высоких оборотов по онлайн-рекламе.

Лучшие комментарии

  • Контекст комментария

    Илья Сегалович Яндекс

    Вы нам объяснили, что такое браузер. Спасибо, отличная лекция. Теперь, внимание, вопрос: а что по-вашему делает парсер поискового робота по сравнению с парсером браузера? Оставим в стороне рендеринг, оставим в стороне безопасность и выполнение апплетов (java, flash) и сравним только парсинг. Вдумайтесь, нужно ли поисковику уметь парсить суп тегов, отличать тег от текста точно так, как его отличает браузер, нужно ли уметь строить DOM максимально корректно, нужно ли добиваться совместимости со всеми браузерами? В прошлом году на конференции из серии РИТ (до их развода кажется еще) был доклад про парсинг html, доклад от Яндекса. Вы на него случайно не попали? Там как раз подробно освещались вопросы грязного html, совместимости и т. д. и т. п. Вам бы понравилось, вы явно знаете много умных слов. И еще вопрос: вот есть webkit, есть и другие open-source пакеты. Чтобы сделать open-source кастомную сборку браузеру надо в первую очередь очень сильно этого хотеть, не правда ли? Но это как-то не слишком привлекательно выглядит со стороны. Но! Если есть несколько свежих идей по безопасности, есть команда, готовая ускорить движок javascript, есть идеи в интерфейсе — то мотивация становится гораздо сильнее, правда? И по поводу слов Аркадия, я вообще плохо понимаю почему мысль о том, что главное мотивацией к выпуску мог бы быть свой «быстрый» движок js, так вас возбудила, что вы столь упорно видите в ней технологическую беграмотность? Имхо, совершенно точная и правильная мысль — не было бы своего быстрого движка и браузер выпускать не захотелось бы. Остальное-то и так, как у всех, по большому счету.

  • Контекст комментария

    Илья Сегалович Яндекс

    В парсинге html еще есть полная задница с корректным выделением атрибутов и с правилом «двукратного парсирования тега». Если кто сейчас вышесказанное понял, того приглашаю к нам на работу с чувством глубокого уважения.

Добавить 187 комментариев

  • Ответить

    оказалось, проблема лишь в том, что в яндексе нет человека, который может написать обработчик =) Как будет, сразу браузер напишет.

  • Ответить

    мне кажется, Волож вряд ли говорил о более высоких оборотах «Яндекса» по онлайне-рекламе в сравнении с Гуглом)

  • Ответить
    Альтер Эго

    2pixel Это как раз подколка в сторону Гугла была. Они наняли разработчика JS-движка V8, а остальное из Вебкита готовое взяли. В общем, и Яндекс как только обзаведется своим JS-движком, тут же его к Вебкиту прикрутит. Так-то.

  • Ответить
    Альтер Эго

    Напишут браузер, ОС. А потом Москву переименуют в новые васюки и проведут межпланетный шахматный турнир.

  • Ответить

    Кэп, гугл купил компанию разработавшую V8 афайр. e.g. у того же фаерфокса в 3.1. тоже будет не свой движок, а основанный на Tamarin который опенсорснула Adobe, так что помоему ничего зазорного :) ЗЫ. до состояния браузер == ОС, осталось совсем недолго :)

  • Ответить
    Альтер Эго

    -Василий Ивановым, а вы армиями в мировом масштабе коммандовать можете? -Нет, не могу, Петька, языков не знаю Похоже Волож понятия не имеет, что такое браузер и что в себя включает разработка браузера помимо разработки «жава скрипта»

  • Ответить
    Альтер Эго

    В частности, мотивировал он это тем, что нужно будет как минимум нанять человека, который сможет написать обработчик java-script, а пока такого человека у «Яндекса» нет, браузер написать невозможно Насколько я помню, это шутка была. Тетенька из Мозиллы, Митчелл Бейкер, рассказывала, что у них один из основателей -создатель JavaScript. И Волож пошутил, что пока у них не будет своего создателя Яваскрипта, им в браузерах делать нечего. Ну или хотя бы надо нанять создателя С++ Realcomp, так это Леха Андреев придумал идею, что Яндексу нужен браузер. И стал на прессухе внедрять ее Воложу. Еще Леха задал вопрос, будет ли американский файрфокс популяризировать американский Яндекс. Волож пообещал план по захвату мира показать в следующей презентации. В общем, футуристика это все. А еще журналисты активно спрашивали про отношения Мозиллы с Гуглем, про то, не сделает ли Хром их врагами. Оказалось, что отношения Мозиллы и Гугля вообще выше мелких денежно-рыночных разборок, они вместе делают рынок лучше и будут любить друг друга вечно. Вообще, все вопросы о деньгах и бизнесе разбивались о рассказы Бейкер о том, что Мозилла не ради денег существует, и что они их там и не считают особо, так что она не в курсе. Юра, а кто там был от Хабра? http://habrahabr.ru/blogs/habrainterview/55604/

  • Ответить

    Я думаю, что выражу общее мнение тех, кто имеет отношение к веб-разработкам: лишние браузеры нам на хрен не упали. С пятью бы разобраться. Так что желаю г-ну Воложу и дальше пребывать в счастливом неведении о том, как делаются браузеры.

  • Ответить
    Альтер Эго

    >Похоже Волож понятия не имеет, что такое браузер хахаха >а с чего вы взяли, что Волож в неведении? Потому-что, Люда, всегда приятнее думать, что кто-то знает меньше тебя.

  • Ответить
    max Тайное Мировое Правительство

    столько разговоров о FantomOS, дело за Национальным Браузером, в принципе, логично, а там глядишь и автопром поднимем

  • Ответить
    Альтер Эго

    Господам альтернативно одаренным геям в плохом смысле этого слова, которые с третьего раза не могут въехать в немудрящую шутку Воложа, задам еще один непосильный вопрос: Ну, а что еще, по-вашему, мог ответить Волож на вопрос, не будут ли они делать свой браузер на совместной конференции с Мозиллой, по договору с которой они раздают Файрфокс с Яндекса? Сколько у него было вариантов ответа, как думаете?

  • Ответить
    max Тайное Мировое Правительство

    пошутил не пошутил, какая разница, Национальный браузер стране нужен, хотя бы чтоб обеспечить работой всех уволенных программистов, а то черти что творится на рынке труда

  • Ответить
    Альтер Эго

    Ну зря вы сетеологию подковыриваете, она иногда дельное несет. ОС внутри браузера-как два пальца асфальт, скоро покажу))).

  • Ответить
    Альтер Эго

    да какая вообще разница, кто, где, с кем и внутри чего? У Яндекса такая эстетика коммуникации — не говорить ничего о том, чего еще нет. У них это формулируется как «мы свои планы не комментируем». Браузера нету? Нету. Так Аркадий Юрич ничего конкретного и не скажет, и пытаться расшифровывать его слова — дело пустое. Можно вместо этого порассуждать на тему — а зачем? Проще же с имеющимися договориться. ОС внутри браузера? Бог с вами, я такого даже в расширенном сознании не сформулирую. Знаю только браузеры внутри ОС — IE тесно связан с Windows, Apple — с Сафари, а у FF любовь с Google, который в жизни иного западного интернетчика занимает не меньше места, чем операционка. тот же Лёха Андреев, кстати, привёл два пути возникновения российского браузера — первый связан с Яндексом, а второй — это браузер как нацпроект, финансируемый государством во главе с заядлым блоггером Медведевым.

  • Ответить
    max Тайное Мировое Правительство

    ну если уж продолжать фантазировать на эту тему, писать свой браузер чистой воды безумие. но, с другой стороны, браузер — плохая среда для веб-приложений потому что HTML, http, сатанинский javascript и т. д., а потребность в оных есть. вот если бы изобрести такой велосипед чтобы он, к примеру, поддерживал XUL и какой-нибудь приличный скриптовый язык, тогда может и случилась бы мировая революция о которой говорили большевики. то есть хотите вы, например, сетевой «фотошоп» или вордпад — нате

  • Ответить
    max Тайное Мировое Правительство

    вполне приличное сокращение заменилось звездочками расшифрую ****** - это язык описания интерфейсов, используется в Mozilla

  • Ответить
    Альтер Эго

    вот если бы изобрести такой велосипед чтобы он, к примеру, поддерживал ****** Велосипед должен поддерживать прежде всего задницу, а ***** на велосипеде всегда страдает, тут ничего не поделаешь. Я боюсь, что если изобрести такой велосипед, чтобы поддерживал ******, при падении или какой аварии он будет ***** отрывать. Лучше не надо этого.

  • Ответить
    Альтер Эго

    второй — это браузер как нацпроект, финансируемый государством во главе с заядлым блоггером Медведевым Я думаю open source сообщество поддерживаемое собственным энтузиазмом справится с этой задачей гораздо лучше, чем Медведев, Путин и любой «нацпроект»

  • Ответить
    Альтер Эго

    а с чего вы взяли, что Волож в неведении? Вы его, наверное, с Ильей Сегаловичем спутали. Вот тот действительно разбирается в технологиях и знает, чем веб браузер от веб дизайнера отличается.

  • Ответить
    Альтер Эго

    ну, вообще, «в неведении» и «действительно разбирается» — это полюса, между которыми много вариантов. Но мне кажется, эта тема недостойна такого вдумчивого обсуждения.

  • Ответить

    В глуюоких умственных мучениях пытаюсь понять, что же еще нужно для разработки браузера. Просветите меня, невежу. Может быть html-парсер с скоростью 2ms на документ?

  • Ответить
    Альтер Эго

    Илья Валентинович! Ну что ж вы с Воложем прикидываетесь шлангами? Ведь ясно, что у вас уже 20−30 человек работают над собственным браузером. Понятно, что на прессухе Мозиллы сказать об этом было бы несколько невежливо. Но здесь-то, среди своих, коллег по цеху!

  • Ответить
    Альтер Эго

    Илья Вы же понимаете, что «парсить» непросто. В большинстве случаев документ не парсится по html грамматике и просто не соотвутствует правилам — рванные таги итд при этом браузер по-прежнему должен создать разумную модель документа по которой его можно «отрендерить» «Рендерить» также непросто. Сам html непростой и есть куча расширений, которые мало совместимы друг с другом. Рендерить надо красиво, даже если документ покоцанный с точки зрения грамматики (пред параграф). Рендерить надо быстро даже если документ не полностью закачан или не полностью закачаны его «части» вроде рисунков, частей скрипта, джава апплетов, итд итп, Ни один из фреймворков для построения браузеров ничего из этого полноценно делать не умеет и даже если будете вы делать свой браузер не с нуля, придутся переписывать рендерную часть Закачивать надо быстро. В современном документе много подчастей — рисунки, джава апплеты, флэш, подфреймы, надо уметь организовать thread для каждой из них, не слишком мало, и не слишком много Просмотр интернет документа должен быть безопасным для пользователя. Боаузер не должен быть большой дыркой в безопасности. Как вы знаете эта задача крайне сложная Документы больше не являются просто кусками текста. В браузере исполняется «флэш» «джава», много других исполняемых в процессе браузера или отдельно кусков кода. Надо уметь это организовать эффективно и чтобы не падало Илья. Волож же простой управлянец, ему такую фразу простить можно, а Вы же технолог!

  • Ответить

    Вы нам объяснили, что такое браузер. Спасибо, отличная лекция. Теперь, внимание, вопрос: а что по-вашему делает парсер поискового робота по сравнению с парсером браузера? Оставим в стороне рендеринг, оставим в стороне безопасность и выполнение апплетов (java, flash) и сравним только парсинг. Вдумайтесь, нужно ли поисковику уметь парсить суп тегов, отличать тег от текста точно так, как его отличает браузер, нужно ли уметь строить DOM максимально корректно, нужно ли добиваться совместимости со всеми браузерами? В прошлом году на конференции из серии РИТ (до их развода кажется еще) был доклад про парсинг html, доклад от Яндекса. Вы на него случайно не попали? Там как раз подробно освещались вопросы грязного html, совместимости и т. д. и т. п. Вам бы понравилось, вы явно знаете много умных слов. И еще вопрос: вот есть webkit, есть и другие open-source пакеты. Чтобы сделать open-source кастомную сборку браузеру надо в первую очередь очень сильно этого хотеть, не правда ли? Но это как-то не слишком привлекательно выглядит со стороны. Но! Если есть несколько свежих идей по безопасности, есть команда, готовая ускорить движок javascript, есть идеи в интерфейсе — то мотивация становится гораздо сильнее, правда? И по поводу слов Аркадия, я вообще плохо понимаю почему мысль о том, что главное мотивацией к выпуску мог бы быть свой «быстрый» движок js, так вас возбудила, что вы столь упорно видите в ней технологическую беграмотность? Имхо, совершенно точная и правильная мысль — не было бы своего быстрого движка и браузер выпускать не захотелось бы. Остальное-то и так, как у всех, по большому счету.

  • Ответить

    В парсинге html еще есть полная задница с корректным выделением атрибутов и с правилом «двукратного парсирования тега». Если кто сейчас вышесказанное понял, того приглашаю к нам на работу с чувством глубокого уважения.

  • Ответить
    Альтер Эго

    Илья никто же не говорит, что в Яндексе нет человека, который умеет парсить html и отличать таги от содержательного текста Подозреваю, что в Яндексе умеют делать гораздо более содержательную разборку html например, разобрать, что содержательная семантическая «таблица» в одном html может кодироваться как table tr, в другом html как ul li html, а в третьем nbsp br, и все эти правила распознавания таблиц можно вывести когда из одного документа, а когда только пролистав много документов с данного сайта и только в определенных случаях можно сделать вывод, например, что первый столбец таблицы имеет такое то «значение». Безусловно в Яндексе умеют «парсить» html на самых разных уровнях, Но как сказано выше браузер это дюжина разных задач, из которых, яндекс скорее всего может решить 2−3 (одна из которых «парсер», задачи, которые вы перечислили не самые трудные) Безопасность — между прочим крайне важная и трудная задача, стоящая заметно выше парсинга. Несколько дней назад ломали браузеры, почти все были сломаны в течение одного дня (не сломали гугловский Хром, Опера не участвовала) -Если есть несколько свежих идей по безопасности, есть команда, готовая ускорить движок javascript, есть идеи в -интерфейсе — то мотивация становится гораздо сильнее, правда? Есть много интересных мотиваций. Посмотрите, например, сколько появляется мобильных браузеров! Все те же проблемы описанные выше нужно сделатьс ограничениями памяти процессора и экрана (как представлять документ)? Хорошего мобильного браузера нет. Вот мотивация. Безопасность. Кау уже писали выше, только Хром оказался устойчив к однодневному хаку. ОПера не проходила тот конкурс, но у нее сильная модель безопасности. Сделать действительно безопасный браузер — очень большая мотивация Быстрый браузер. Сравните ультрабыстрые Сафари 4 и Хром с Эксплорером или ФФ. Можно сделать лучше и быстрее? Очень большая мотивация

  • Ответить
    Игорь Ашманов Сам себе компания

    По-моему, вы запутались в принципиально разных типах мотивации. Никакой такой мотивации у Гугла, Микрософта или Яндекса не может быть. Это коммерческие компании, целью которых является извлечение прибыли для акционеров. Браузер нужен для того, чтобы доминировать на рынке поиска и интернет-порталов, как место для размещения сервисов портала и способ приклеивания пользователей. А мотивации типа «сделать быстрее, безопаснее, красивее» — это а) для своих разработчиков, им так интереснее, когда стоит задача сделать круче, чем у всех, и б) для пользователей, чтобы заставить их сменить браузер. Для Яндекса же мотивация сделать свой браузер — ровно та же, что и для раздачи ФФ со своего портала: зацепить как можно больше пользователей сервисами Яндекса. Вопрос только в том, дорого ли это и есть ли возможность сделать конкурентный браузер, который поставит значительный процент пользователей. У Гугла мотивация точно такая же — зацепить больше пользователей своими сервисами. Только у них ещё, по-моему, есть иррациональный элемент — а именно, сакральная борьба с МС на десктопе, что и послужит к краху всей стратегии. Гуглеры всё время напыживаются, чтобы изобразить себя разработчиками отчуждаемого ПО, каковыми они пока ни разу не являются. Микрософт этому учился десятки лет. Ну и пока, как видим, Хром с его быстротой и прочими ништяками — не выигрывает. Мне кажется, шанс у них всё-таки есть, он заключается в уходе Гейтса от дел. Но это шанс небольшой.

  • Ответить
    Альтер Эго

    Ашманову Я не думаю, что Гугл или другие разработчики новых браузеров ставят себе целью зацепить пользователей на уровне принудительного распостранения тулбара с дистрибутивом браузера «Пользователи браузера» среда очень инерциальная; фф нужно было много лет, чтобы стать как-то более менее заметным на арене с точки зрения числа пользователей. А вывести новый браузер сейчас гораздо труднее, чем во времена вывода ФФ Лучший браузер может помочь пользователю гугла, микрософт. яху очень простым способом. Удобство пользования интернетом — повышенная безопасность, быстрота загрузки страниц конвертируется в больше время проведенное в интернете, в большое число транзакций. Хотите чтобы покупали больше автомобилей — стройте лучшие дороги. Конечно, это долговременная инвестиция и не расчитана на получние прибыли в следующем квартали или в следующем году

  • Ответить
    Игорь Ашманов Сам себе компания

    Расскажите, кто из Мерседеса, Тойоты и ли БМВ построил много дорог в России? А ведь Россия — очень большой рынок. Ну ладно, какие дороги построил Мерседес в Германии? Если задача интернет-порталов — строить лучшие дороги, то проще и дешевле помочь Опере, ФФ или Микрософту сделать лучший браузер, не так ли? А что ж они тогда делают свой браузер? И почему тулбар Гугла из ФФ приходится выскребать заточенной ложкой? Нет, уж извините, я в собственном браузере вижу именно коммерческий интерес, а не инвестицию в будущее. Другое дело, что гордость гулеров не позволяет им замахиваться на меньшее, чем собственная ОС (в формате нового браузера, допустим) и победа над Микрософтом. Вот это уже не рациональные соображения, а иррациональные. В любом случае поверить просто в желание сделать мир лучше, а браузеры быстрее — трудно.

  • Ответить
    Альтер Эго

    > И почему тулбар Гугла из ФФ приходится выскребать заточенной ложкой? Вы о чем? У меня стоит ФФ без всякого гугл тулбара Инсталлировано отсюда http://www.mozilla.com/en-US/firefox/firefox.html Никакого гугла там и в помине нет. А Вы откуда ФФ инсталировали? В принципе кто и почему не столь важно. Выход браузера от Гугл явно отразился на том, что джаваскрипт в новом ФФ стал ГОРАЗДО быстрее и новый Сафари стал гораздо быстрее и тоньше и вообще выглядит привлекательно как Хром. Хром подстегнул другие браузеры. Они также будут подстегивать Хром и друг друга. Что хорошо потребителям. Если Яндекс (Рамблер, Мэйл, Ашманов) выпустят свой браузер это будет только хорошо, больше конкуренция — лучше потребителю.

  • Ответить
    Альтер Эго

    Кстати вот прямо статейка только что по ссылке от Алекса Москалюка http://www.ft.com/cms/s/2/03775904−177c-11de-8c9d-0000779fd2ac.html Из совершенно финансовой газеты про человека из датской деревни который разработал Google Chrome Companies don’t really make money out of web browsers — the Explorers, Safaris and Firefoxes of the internet. So why is a new one so important to Google? Why invest time and effort in a free product that generates no income for the company behind it? The answer is not in the browser itself, but in the things it can access: namely, web-based software programs. These are a source of revenue for Google. The company has high hopes for Google Docs, for example, an online suite of programs that replicates many of the desktop programs in Microsoft’s Office — Word, Excel and PowerPoint — the tools of the modern business. But to deliver better versions of those programs and others over the internet, you need better ­browsers, ones that can handle the code that will be thrown at them. Many of us already use web-based programs: e-mail accounts such as Hotmail, Yahoo mail or Googlemail, for example. But they are relatively simple: their complexity pales in comparison with the programs stored on the average computer desktop. The sophistication of web applications is increasing much faster than the corresponding power of the browsers. It’s like having lots of high-performance sports cars using rutted, bumpy roads. And yet no car manufacturer has ever invested in road building. That sort of move would, after all, benefit competitors equally, not to mention being massively expensive. Software development doesn’t cost as much but the competitor problem remains. But Google says it doesn’t mind: without an improvement in browser performance, the company argues, we all suffer. The ability to access complex programs through the web is known as «cloud computing», and Google isn’t the only one arguing that it’s the way ahead. Even Microsoft, the company synonymous with applications and operating systems located on the desktop, has talked about moving into «the cloud». Steve Ballmer, Microsoft’s chief executive, has promised an «operating system that runs in the internet» — something he has dubbed «Windows Cloud». But for cloud computing truly to take off, web browsers need to be better. …

  • Ответить

    Ашманову: Какой коммерческий интерес в собственном браузере? Интересует с точки зрения эффективности вложения денег в его разработку. В качестве примера можно рассмотреть тулбар яндекса (яндекс-бар). Сколько времени потребовалось на его создание? ИМХО, 1 день работы программиста и 1 день работы дизайнера + создание концепции проекта (тут затрудняюсь оценить), скорее всего все вместе потребовало не более недели. Т.е. затраты в разработку минимальны. Продвижение. Вопрос: что дешевле продвигать тулбра для огнелиса или свой браузер? А эффективность? Сколько новых пользователей он привлек в уже имеющиеся и хорошо работающие схемы монетизации? Пока есть варианты таких способов вложения средств, создания собственного браузера не будет. to iseg: >Имхо, совершенно точная и правильная мысль — не было бы своего быстрого движка и браузер выпускать не захотелось бы. Остальное-то и так, как у всех, по большому счету. Думаю, что точнее сказать — не было бы потребности в качественных программистах, которые могут это сделать, то и браузер выпускать не захотелось бы. Есть много перспективных направлений, в которых подобные кадры нужны как воздух. Работа над браузером это хороший способ с минимальными затратами воспитать такие кадры в духе компании. про *****: У ie есть activeX чем не ******? Mozilla (не огнелис, а платформа) дает отличный симбиоз xul, javascript (свой javascript, более функциональный, чем обычный) и xpcom. Это еще более ***** чем activeX.

  • Ответить

    >>скорее всего все вместе потребовало не более недели яндекс-бар — это маленький агент, общающийся с кучей разных яндекс-сервисов — почта, погода, пробка, новости и так далее. оценка в неделю — даже не оптимистичная, а просто сумасшедшая. другое дело, что по сравнению с броузером эта задача конечно на порядки менее затратна, чем выпуск собственного броузера.

  • Ответить
    Игорь Ашманов Сам себе компания

    В качестве примера можно рассмотреть тулбар яндекса (яндекс-бар). Сколько времени потребовалось на его создание? ИМХО, 1 день работы программиста и 1 день работы дизайнера + создание концепции проекта (тут затрудняюсь оценить), скорее всего все вместе потребовало не более недели. У вас либо острый программистский психоз с манией величия (да я такое за день напишу), либо вы не совсем в теме, не очень представляете себе, что такое отчуждаемое ПО для сотен тысяч пользователей. Моя личная консервативная оценка, что тулбаром в Яндексе занимается постоянно от 2−3 человека и меньше никак нельзя, а для выпуска первой версии тулбара потребовалось 3−4 человеко-месяца. Да, это совершенно не те затраты, которые нужны для выпуска своего браузера, тут спору нет. Работа над браузером это хороший способ с минимальными затратами воспитать такие кадры в духе компании. Минимальными? Моя консервативная оценка, что ваши минимальные затраты на браузер — это примерно 10−15−20 человек в течение пяти лет — до первой стабильной и реально популярной версии. Потом 50 человек, 100, 200 и так далее. Проверочный вопрос на засыпку: как Вы думаете, г-н Сумрак, сколько программистов в Лаборатории Касперского, сколько там вообще персонала и какая выручка в 2008 году? Это для проверки понимания уровня проблем, поскольку свой браузер по разнообразию данных и проблем с совместимостью требует ресурсов нисколько не меньше, а скорее больше, чем антивирус.

  • Ответить

    а с гуглом надо именно смотреть на яваскрипт. фактически яваскрипт превратил мозиллу в платформу. гугл конечно хочет в первую очередь быстрый инструмент для работы со своими приложениями, но что мешает ему захотеть такую же платформу как у мозиллы, пройдя путь от игрушки для гиков до десктоп-платформы на основе броузера?

  • Ответить

    > яндекс-бар — это маленький агент, общающийся с кучей разных яндекс-сервисов — почта, погода, пробка, новости и так далее. оценка в неделю — даже не оптимистичная, а просто сумасшедшая. другое дело, что по сравнению с браузером эта задача конечно на порядки менее затратна, чем выпуск собственного броузера. Я не говорю про сервисы — они вроде к моменту создания тулбара были (их не сделать ни за неделю, ни за месяц, ни за год). Я про сам тулбар, ну насчет недели я конечно загнул, но все равно время разработки минимальное. > Минимальными? Моя консервативная оценка, что ваши минимальные затраты на браузер — это примерно 10−15−20 человек в течение пяти лет — до первой стабильной и реально популярной версии. Потом 50 человек, 100, 200 и так далее. А я не говорю, что браузер должен быть популярным, или вообще быть востребованным продуктом. Его можно просто разрабатывать для небольшой аудитории, просто иметь как проект. Думаю, что в первый год команда достинет 50 чел. Потом — в зависимости от целей проекта. Если это просто «кузница кадров» то можно так и оставить. Он не станет востребованным, он не будет хорошо продвигаться, но он будет буфером в который можно брать программистов/маркетологов и из которого можно будет их забирать. В принципе у любой крупно компании есть проекты, которые прибыли не приносят, но создают занятость и через которые осуществляется набор новых кадров. >Проверочный вопрос на засыпку: как Вы думаете, г-н Сумрак, сколько программистов в Лаборатории Касперского, сколько там вообще персонала и какая выручка в 2008 году? Это для проверки понимания уровня проблем, поскольку свой браузер по разнообразию данных и проблем с совместимостью требует ресурсов нисколько не меньше, а скорее больше, чем антивирус. Думаю там одних топ-менеджеров не менее 15 человек, персонала соотв до 1000. Это только в Москве. Сколько офисов по всему миру — не знаю, не меньше 20 точно, кол-во сотрудников в них оценить не могу, ибо нужны хотя бы региональные данные по продажам. Выручка скорее всего за 2008 год превысила 100 $ млн.

  • Ответить

    to fisher: >а с гуглом надо именно смотреть на яваскрипт. фактически яваскрипт превратил мозиллу в платформу. гугл конечно хочет в первую очередь быстрый инструмент для работы со своими приложениями, но что мешает ему захотеть такую же платформу как у мозиллы, пройдя путь от игрушки для гиков до десктоп-платформы на основе броузера? Не надо переоценивать яваскрипт. Он важен, но не основополагающ. Вот схема в общих чертах платформы мозиллы: http://mb.eschew.org/1 Вообщем-то одного взгяда на эту схему достаточно, чтобы понять насколько далеко гугл сейчас от _собственного_ браузера-платформы, ну и представить сложность создания _полноценного_ браузера (хотя можно создавать и не полноценный, можно создавать на базе платформы мозиллы и честно объявлять его своим браузером).

  • Ответить
    max Тайное Мировое Правительство

    soomrack: про 1 день работы программиста и 1 день работы дизайнера это, конечно, отжиг а, что пишем на Delphi, накидать компонент на форму и тулбар готов, даже не день, а 5 минут работы) про X U L (надеюсь так не заменится на звездочки): чтобы какая-то платформа стала стандартом, должно выполняться одно необходимое (но не достаточное) условие — простота разработки, ни, прости господи, ActiveX, ни Java или .Net, ни XUL+javascript этому условию (в силу раных причин) не соответствуют

  • Ответить

    «XUL+javascript» — имхо, достаточно просто, и что очень важно, имеет привычный синтаксис для вебмастеров. Если к этому было бы что-то типа дельфи, то было бы вообще супер.

  • Ответить
    Альтер Эго

    soomrack: Я про сам тулбар, ну насчет недели я конечно загнул, но все равно время разработки минимальное. -- А что такое сам тулбар? Без сервисов тулбара просто не бывает. Ашманов правильно говорит, вы совершенно не понимаете, о чём говорите.

  • Ответить
    Альтер Эго

    позвольте прогноз Пока цена нефти меньге 100 долларов за баррель Яндекс амбициозными проектами вроде браузера заниматься не будет, а по-прежнему будет заниматься небольшими проектами вроде поиска по блогам или тулбара расчитанными на быструю прибыль (в виде привлечения пользователей к главному поисковику)

  • Ответить
    Альтер Эго

    Игорь браузер браузером, операционка операционкой, а как вы считаете, не настало ли время российского редактора? Со времен Веселовского ведь ничего интересного не было, А ведь редактору сейчас не надо конкурировать с большим Вордом, а достаточно быть небольшим, но удобным веб редактором, чтобы стать популярным (гугловский вы можете часто увидеть в интернет кафе Киева) Есть ли рынок для российского интернет редактора? Чем он модет быть для русскоязычных пользователе лучше гугловского?

  • Ответить
    Игорь Ашманов Сам себе компания

    Мне кажется, российский редактор текстов будет в ближайшие год-два выпущен. Чем он будет лучше гугловского, не знаю, потому что гугловским не пользовался. Что вообще может быть в нем хорошего — например, цена. Не несколько сотен долларов, как за МС Офис, а десяток-другой. Ну и функции другие, не чрезмерные. Это разговор длинный и сложный, что вообще нужно от редактора. Лично меня устроило бы как минимум, чтобы там был хороший и современный проверщик правописания. Потому что все альтернативные проверщики — что на Маке, что в ФФ, что в OpenOffice — просто паршивые. А теперь вот неграмотные менеджеры центрального Микрософта испортили и ОРФО в ставе Ворда, борясь за политическую корректность. У меня в текстах количество новых якобы «оскорбительных» слов, которых по велению Микрософта нет в словаре, пока не убывает. Всё время обнаруживаю новые нехватки.

  • Ответить
    Альтер Эго

    А кто в России может сделать хороший, полнофункциональный, с хорошей грамматикой и поддержкой для многих платформ русский редактор?

  • Ответить
    Альтер Эго

    А зачем Яндексу делать браузер? Они б еще свою ОС начали б делать. Кстати, смех смехом, но я думаю операционка для мобильников в России вполне могла бы найти свое место.

  • Ответить
    Игорь Ашманов Сам себе компания

    Да есть такие бойцы. Даже несколько команд могут. Вопрос воли и логистики — принятие решения, запуск проекта, деньги, сбор команды и т. п.

  • Ответить

    «операционка для мобильников в России вполне могла бы найти свое место.» Как интересно. Вы в курсе, сколько получает Windows Mobile или Symbian с одного устройства за ОС? В курсе, что эти royalty per unit снижаются и доходят до бесплатного, не без влияния андроида? И какое же место у «российской» будет в такой ситуации падающих до нуля royalty per unit :) Еще вопрос, что Вы понимаете под «своя операционка». В гугл андроиде куча кода лицензировано от MontaVista (входит в альянс, наряду с другими подобными), так что в каком-то смысле это не «гугловская» операционка. Вы знакомы с историей той же Symbian, например, и чем там все закончилось? Почитайте http://www.symbian.com/about/fast.asp Россияне так любят сверхприбыли, а там их нет. А есть долгая кропотливая работа, сотрудничество с производителями (или даже поглощение) и все это в нужное, в свое время. Так что увы и ах. Но в каком-то смысле я с Вами соглашусь: при любимой песне «стозабаррель» в России многим громким vaporware место найдется.

  • Ответить
    Альтер Эго

    2 runet_reader: Россияне так любят сверхприбыли Это вы в умной газете прочитали или из головы выдумали? А то я тоже немного представления об американцах имею: точно знаю, что американцы все тупые, а американки вдобавок жирные и страшные.

  • Ответить
    Альтер Эго

    Ну и еще они выдумали сверхприбыли, спам и финансовые пирамиды. А, забыл: атомные бомбардировки мирного населения еще.

  • Ответить

    Игорь, а офис для домашнего пользования и так стоит 50 баксов. И корректор там неплохой. А чтобы сделать корректор еще лучше, нужно кучу времени и денег вложить (в том числе для улучшения проверки стилистики). Но никто не будет этим заниматься, потому что продать корректор, который только чуть-чуть лучше Вордового? В крайнем случае, можно заменить корректор OpenOffice, исходники-то открыты. По поводу он-лайн редакторов: их во всем мире уже несколько штук наклепали, поговаривают, что Гугл для своего офиса выбрал даже отнюдь не лучший на тот момент вариант. Так зачем этому счастью еще и российский редактор?

  • Ответить

    Теперь, внимание, вопрос: а что по-вашему делает парсер поискового робота по сравнению с парсером браузера? Оставим в стороне рендеринг, оставим в стороне безопасность и выполнение апплетов (java, flash) и сравним только парсинг. Вдумайтесь, нужно ли поисковику уметь парсить суп тегов, отличать тег от текста точно так, как его отличает браузер, нужно ли уметь строить DOM максимально корректно, нужно ли добиваться совместимости со всеми браузерами? Юра, я, конечно, догадываюсь, почему ты ответ Ильи помечаешь, как личный комментарий, но даже такому лоху по части браузерастроения понятно, что между разбором HTML для поисковой машины и разбором для рендеринга страницы — огромная пропасть. Тем, кто принимает слова Ильи за чистую монету, рекомендую вспомнить им же самим рассказанную историю, как он думал, что диффуры — это ОООО!!! а поисковые алгоритмы — это ууу :-(и как при этом первая версия написанного им лемматизатора работала со скоростью порядка одного слова в секунду.

  • Ответить

    1. я тоже не понял почему все мои комменты «лучшие». разве только как представитель «обвинямых в невежестве» я попадаю в «лучшие» автоматом 2. насчет «поисковые алгоритмы — это ууу :-(» — речь все-таки про 1990-й год, и про то что я тогда ничего про поиск даже и не читал. правда, имхо, тогда особо и читать было нечего («солтон и tf*idf» — пожалуй было менее интересно, чем «интегральные уравнения второго рода» :-))

  • Ответить
    Альтер Эго

    То есть ты сейчас про браузеры читал гораздо больше, чем тогда про поиск? :-) Что-то мне подсказывает, что все-таки не читал. Правда, имхо, тогда особо и читать было нечего. А я вот почитываю иногда статейки за период 60−90. Нахожу для себя много чего интересного.

  • Ответить
    Альтер Эго

    я понимаю — чиновники, но неужели здесь столько детей, которые верят, что национальность важна и необходима в продукте?

  • Ответить
    Игорь Ашманов Сам себе компания

    А что — она не важна? А зачем тогда Микрософт продаёт локальные версии Виндов и Офиса? То есть локальные версии всё-таки нужны, согласны? Или вы имели в виду, что не важна принадлежность, то есть кому интеллектуальная собственность принадлежит? В принципе неважно, просто это указывает направление, куда улетают деньги за лицензии. А так-то национальность неважна и для энергетической системы, нефтяных скважин и газовой трубы, для космической отрасли и ЖКХ. Главное, чтоб всё работало — а кто владеет, неважно. Так, по-вашему?

  • Ответить
    Альтер Эго

    Я имею ввиду выпячивание национальности как пиар-ход. Про локализацию и владельцев не говорю.

  • Ответить

    to Ashmanov: А чем вам ОО не устраивает? Если только проверкой правоописания, так это не ОО, а, например, тот же ispell. И какой смысл в коммерческой региональной версии? ЗЫ: Это не провокация оценок, я действительно не понимаю.

  • Ответить
    Игорь Ашманов Сам себе компания

    Меня проверщик ispell не устраивает тем, что там паршивый словарь, нет проверки грамматики и стиля, как в ОРФО. И не устраивает он меня что в ОО, что в других местах. Но я создатель ОРФО, поэтому у меня профессиональные запросы. А сам ОО пока имеет перемежающиеся проблемы совместимости с вордовскими документами и Икселем. Я думаю, что с точки зрения тех, кто продвигает идею нациолнальной ОС и национального офисного пакета, есть несколько следующих аргументов: а) цена. Гораздо лучше был бы национальный открытый пакте на основе Линуха и ОО, для организаций и госучреждений либо бесплатный, либо с поддержкой за небольшие деньги — 100−200 рублей в год на рабочее место. Платить сотни долларов за рабочее место — просто глупо и нерациолнально. Особенно, когда этих мест — десятки тысяч в одной организации. б) место принадлежности интеллектуальной собственности. Плохо, когда приходят марсиане, втюхивают тебе гамбургер и офисный пакет, а все бабки улетают на Марс. Да, они создадут немножко рабочих мест, но даже налогов толком не заплатят — потому что у них обязательно будет представительство, не ведущее коммерческой деятельности, а не полноценный местный офис. в) технологическая зависимость. Что там на Марсе решат про наш местный проверщик правописания или шаблоны официальных офисныхдокументов, то и будет. Напимре, удалить из словаря слова «негр», «голубой» и «пожрать», а также тысячи других просторечных слов. Рекомендую также для медитирования историю про «молдавский диалект русского языка». Микрософт затребовал быстрого создания спеллинг-чекера под этот несуществующий диалект русского языка. Потому что им нужно продавать MC Офис правительственным учреждениям Молдовы, а у них своя гордость. Разработчики ОРФО поупирались и согласились — завели значение переменной «Язык» — Русский (Молдова). Сильно не парились. Теперь в Офисе — два спеллинг-чекера. Но если не полениться и сравнить каталоги, вы увидите, что они бинарно совпадают. Дураками выглядят все — и правительство Молдовы, и Микрософт, и разработчики. Но никуда не денешься, так работает бизнес транснациональных корпораций и местечковый национализм. г) Конечно, безопасность. Вообще-то страна наша является вероятным противником США, это записано в их военной доктрине. И вся страна при этом работает на софте вероятного противника. Причём не того, кого мы бы сами считали таковым, а того, который сам нас считает противником. Конечно, национальную ОС и национальный офисный пакет будут делать, скорее всего, на основе ОО и Линуха. Это и быстрее и дешевле.

  • Ответить

    > Меня проверщик ispell не устраивает тем, что там паршивый словарь, нет проверки грамматики и стиля, как в ОРФО. Ну хоть что-то сделали, и то хорошо. Позорно, что государство выбрасывает миллиарды на попил в виде нанотехнологий и прочего, и не может элементарно пустить куда более скромные средства для создания свободных словарей русского языка. О большем (разметки грамматические, словари омонимов, синонимов) уже и не приходится спрашивать. Хотя на нефтедоллары можно было сделать даже словари перевода не верхнеюпитерианский. Просто чтобы люди пользовались. Позорно, что такая богатая страна, такой богатый язык, и такие жадные мелочные люди — каждый свой словарик ведёт, и соседу не показывает… Обмельчали люди.

  • Ответить
    Игорь Ашманов Сам себе компания

    Обмельчать могут только реки. Или люди измельчали, или вы давно не ходили в Интернет. Вот есть, например, http://www.ruscorpora.ru. Довольно известное место. Много размеченных текстов и прочего. Вот тут есть словари и машинная морфология в открытом доступе: http://www.aot.ru.

  • Ответить

    OO использует словари MySpell и hunspell, для русского языка используется словарь Лебедева (http://scon155.phys.msu.su/~swan/orthography.html), переведенный в формат MySpell. Каких-либо правок, кроме перевода формата, не производится. Г-н Ашманов, вы можете указать конретный пример, чем паршивен этот словарь? Проблема редактирования словарей вообще не должна волновать — формат открыт и известен, как добавить свои словари (а также правила переноса и тезаурусы) тоже расписано…

  • Ответить

    Игорь, мое видение этой ситуации следующее: 1. Проверщик ispell имеет хороший фундамент: высокую универсальность и встраиваемость в большое количество open-source пакетов. Но для проверки русской грамматики, пунктуации и стиля он не подходит. Он не является продуктом, скорее программным полуфабрикатом. В первую очередь потому, что его не рассматривают как способ выгодного вложения денег (почему бизнесу он неинтересен — понятно, но государству?). Для превращения в продукт нужна, как минимум команда, по моим оценкам, не менее 10 человек, плюс большое число исполнителей. Мне кажется, что этот проект должен быть сделан в любом случае, вне зависимости от наличия других систем проверки, но ввиду объемов необходимого финансирования и отсутствия перспектив прямых прибылей, ему место в составе некоторой программы правительства РФ. 2. Совместимости с документами, подготовленными в MS Word, не может быть в принципе. Это и ввиду политики MS по изменению стандартов от версии в версии, и ввиду того что .doc не ISO. 3. Цена. «Гораздо лучше был бы национальный открытый пакет на основе Линуха и ОО» — целиком и полностью придерживаюсь такого же мнения. Правда тут есть одна тонкость: без внятной политики продаж (распространение, поддержка…) это делать преждевременно. Существуют институты подготовки бухгалтеров, менеждеров, юристов…, но нет института подготовки офисных-системных администраторов, отсюда и зоопарк, и велосипедостроительство в каждом не ИТ-офисе. Хорошим первым шагом было бы формирование группы, занимающейся созданием российского института поддержки open-source продуктов. Это, в частности, продвигает решение проблемы интеллектуальной собственности. 4. «в» — региональные продажи, MS поставленных целей достигло, так что дураками они не выглядят, а сложившийся казус можно назвать «тонкостями коммерчески эффективного регионального продвижения». 5. Тема «г» слишком тонкая и, скорее, это общемировая проблема. Каждая страна пытается решить ее по своему. 6. «Конечно, национальную ОС и национальный офисный пакет будут делать, скорее всего, на основе ОО и Линуха. Это и быстрее и дешевле.» — чтобы что-то делать, нужно четко до мелочей понимать, что мы хотим сделать. Мне, например, непонятно, что такого будет в Национальной ОС? И не произойдет ли с ней история описанная в одноименном рассказе Н.В.Гоголя? Ну, а просто чтобы было — тут можно сделать опять же программный полуфабрикат, сравнительно небольшими средствами, на базе gentoo (даже студенты на базе нее делают свои ОС).

  • Ответить
    Игорь Ашманов Сам себе компания

    Максим, уж тем он паршив, что Вы, поклонник словаря Лебедева, пишете не «паршив», а «паршивен» и даже не замечаете ошибки. Ну это так, просто забавно. Максим, я имел пару раз опыт дискуссии с вами о машинных морфологиях. Вы практически совсем не разбираетесь в вопросе, но с упорством, достойным лучшего применения, продолжаете спорить, поучать меня и Сегаловича. Ведёте себя, как городской сумасшедший. Не вижу смысла объяснять, чем паршивен ispell. Это дрянной словарь, сделанный непрофессионально и грубо. Он может годиться для использования в поисковых машинах, где большой точности не требуется. Для проверки правописания нужна на порядок большая проработанность словаря и морфологической модели. Ispell дотуда не дорос. Правописание на его основе изобилует ложными тревогами, пропусками ошибок, идиотскими заменами и т. п. Сравнение машинных словарей — тема сложная и длинная, а поскольку мне уже по опыту известно, что здесь этот спор ничем не кончится (вам можно кол на голове тесать, вы не внемлете), то обсуждать не буду. Рассуждение «а если не нравится ispell, поправьте ему словарь» — такое же нелепое. Не нужен мне этот наколеночный Ispell и не нужно мне его пополнять. Полно других словарей, которые сделаны профессионалами, и уже заранее гораздо лучше. Это словарь ОРФО, словарь Прописи (Коваленко), словари Яндекса и Абби, и так далее.

  • Ответить

    Игорь, ну как бы сравните с тем что есть для английского, пройдитесь по их интернетам. Это примерно как русская и английская википедии — одна тупо в 10 раз меньше, и по качеству на порядок хуже. И что уж про АОТ говорить — безусловно, Сокирко — солнце русской лингвистики. Благодаря этому человеку люди имеют хоть что-то, а вот благодаря вам не знаю что сообщество получило, вы человек проприетарных нравов. Увидеть что ispell работает хреново особого ума не надо. Беда в том, что лучше ничего нету. Словари проприетарные просто так или вообще не дадут, или судиться начнут в случае если задампят.

  • Ответить

    Игорь, вы просто настоящий Баронет Пузыря — вам бы только повыступать «экспертом». Нагородили тут огород, перешли на личность собеседника… Ну чего вы к просторечному «паршивен» пристебались, тут вроде на блого-форуме далеко не литературный русский используется, может это защитная реакция от того, что вы немножко фигню сморозили, и по существу вам сказать нечего? Даже если сравнение словарей такой трудоемкий процесс, но если бы вы его хоть раз проводили сами, вам бы ничего не стоило привести один пример, который у вас спросили, затратив куда меньше слов, которыми вы тут разродились. Но похоже вы просто что-то где-то слышали про «паршивость» словаря Ледева и сейчас просто не в состоянии подкрепить свое «экспертное» мнение такой простой вещью как пример… Если все-таки надумаете отвечать, пожалуйста, учитывайте, что словарь Лебедева создавался для проверки правописания, а не для использования в поисковых машинах (это его побочное использование, и он не создавлся для этого), поэтому не надо приводить примеры из этой области, только при проверке правописания.

  • Ответить

    to Maxime: Пример с «паршивен» искусственен, но отражает суть. Даже с точки зрения общенационального ликбеза, сервис, встраиваемый в Национальный редактор, должен уметь не только проверять орфографию, пунктуацию, но выявлять речевые ошибки: «С помощью друга» или «При помощи друга», и многое другое. Этого сейчас нет на должном уровне ни у кого. И сделать это без постоянного сотрудничества с соотв. специалистами невозможно. Пока большинство «спеллчекеров» это аналогия «переведено и озвучено проф. программистами».

  • Ответить

    Обожаю треды, где сходятся в неравной битве не на жизнь, а насмерть Игорь и Максим. Это просто праздник какой-то!

  • Ответить

    Максим, словарь Лебедева паршивен тем, что описывает словоизменение. Собственно, это проблема самой модели ispell. Как следствие, ошибку согласований слов просто не получится исправил. Как второе следствие, улучшать Лебедевский словарь с целью получения лучшего качества — тоже нет смысла. Нужна нормальная морфология, с частями речи. Кроме того, словарь Лебедева неполон, да и слова вроде «яхтный» у меня вызывают недоумение.

  • Ответить
    Игорь Ашманов Сам себе компания

    а вот благодаря вам не знаю что сообщество получило, вы человек проприетарных нравов. А что это за сообщество такое? Вы сначала назовитесь, а потом уже поговорим про то, что там я вам должен или не должен. В имеете в виду разработчкиов лингвистического програмнного обеспечения? Ну вот Сокирко вам чего-то выставил, Яндекс. Я-то вам чего сдался? Да и Сокирко с Яндексом вам ничего не должны. Вообще эта позиция «а что ты сделал для хип-хопа?!!» мне кажется странной. Общество от меня чего-то там получило, вот орфографию проверяет уже лет пятнадцать. Переводит МультиЛексом и т. п. Но я от общества получил не меньше, честно говоря. Насчёт проприетарных взглядов — это вам в ряды борцов с Микрософтом, потому что ОРФО продана МС в 1994 году, и у меня прав на неё нет.

  • Ответить

    Вообще, мир несовершенен. Грустно осознавать, что свободного парсера html тоже нет, чтобы быстрый был как понос. Нету практически ничего нормального, большинство вещей приходится писать с нуля. И сидят люди в разных офисах, и изобретают одни и те же велосипеды.

  • Ответить

    Ispell как бы странно это не звучало для проверки ОРФОГРАФИИ (не синтаксиса с пунктуацией) подходит лучше, чем для поисковой машины :-) По поводу того, что люди не могу обмельчать. Это, видимо, не совсем так, потому как согласно Ушакову: ОБМЕЛЬЧА’ТЬ, а`ю, а`ешь, сов. 1. То же, что измельчать1 (разг.). Со смертью Ворцеля демократическая партия польской эмиграции в Лондоне обмельчала. Грнц. 2. То же, что обмелеть (обл.).

  • Ответить

    lexa, ispell изначально был построен для проверки одиночных слов, требовать от словаря Лебедева (частного случая словаря для ispell) проверки согласования слов все равно, как от Запорожца — участия в Ф-1. И это не делает этот словарь «просто паршивым», Яндекс только в марте этого года расширил словарь Яндекс.Server с 97 до 210 тыс. основ, у словаря Лебедева версии 2006 года (пусть с натяжкой) около 137 тыс. основ…

  • Ответить
    Игорь Ашманов Сам себе компания

    Игорь, вы просто настоящий Баронет Пузыря — вам бы только повыступать «экспертом». Ну действительно, какой же я эксперт. Я всего семь лет развивал ОРФО, а прикладной лингвистикой всего 22 года занимаюсь. Ну, извините, что позволил себе высказывать мнение. Продолжайте, вы-то как раз эксперт по проверке правописания, Максим. Нагородили тут огород, перешли на личность собеседника… Да видите ли, Максим, у вас кроме своеобразной «личности собеседника», ничего больше нет, с моей точки зрения — ни знаний, ни достижений в этой области. Больше-то не к чему пристебаться. Вот если б сюда пришёл Коваленко, или Сегалович, или Сокирко из Яндекса, или Селегей из Абби, или ещё кто-то из деятелей этой предметной области, из тех, кто делает — я бы с ними поговорил по существу. Впрочем, это мы и так делаем на профессиональных конференциях, в личной почте или по телефону. Ну чего вы к просторечному «паршивен» пристебались… Это не просторечное. Нет такого просторечного написания. Это грубая ошибка. Да дело не в этом. Пишите, как хотите. Вы надуваетесь как лягушка в пруду, рассуждаете про качество проверки правописания, а сами просто руским языка говорить плохой. Это не аргумент в споре, но смешно. Даже если сравнение словарей такой трудоемкий процесс, но если бы вы его хоть раз проводили сами, вам бы ничего не стоило привести один пример, который у вас спросили… Максим, неужели вы думаете, что я сделал штуку, котоаря проверяет правописание на 30−40 миллионах компьютеров и никогда словари не сравнивал? Что у вас с головным моском? Я просто не хочу играть в вашу простейшую и скучную психологическую игру, когда вы меня как бы экзаменуете. Зачем мне вам мячи подавать? Я же видел, как вы это пытаетесь делать — на любой пример от меня или Сегаловича вы кричите, не разбираясь, «не годится!!!» и требуете следующего, как будто вы преподаватель университета. Вы пока носом не вышли экзаменовать. Надувайте щёки дальше, я смысла с вами дискутировать не вижу.

  • Ответить

    Игорь, настоящие эксперты не козыряют своими регалиями, не пытаются доказать, кто тут хрен с горы и не ругаются как сапожник, и тем более не выискивают ошибки в тексте, если их об этом не просят, они просто отвечают на вопрос, максимально просто и доходчиво, зачастую подкрепляя его ссылками на свои работы или работы своих коллег, и даже не брезгуют послать эти работы по электронной почте. Увы, Игорь, вы на эксперта никак не тянете, … опять доказали, что вы тот хрен с горы, закомый с самим Сегаловичем и прочими страшными гуру морфологии, — но пример так и не привели…

  • Ответить

    lexa, pianist сказал «свободного парсера html тоже нет, чтобы быстрый был как понос» и я с ним соглашусь. Потому что сам недавно занимался этой темой. Самый быстрый оказался libxml, который выдавал порядка 5Мб/сек. Для моих задач, например, этого мало. Моя собственная разработка (оптимизированная под задачу) выдаёт порядка 90Мб/сек. Отвечая на незаданный вопрос: как появится немного свободного времени, обязательно его подточу напильником и выложу в свободный доступ.

  • Ответить

    Maxime, волею судеб на почту мне валятся обновления в комментариях из этой ветки. И, признаюсь, я нахожусь в культурном шоке. Вас бы забанить. Если что, я по этому делу эксперт, могу проконсультировать.

  • Ответить

    Maxime, мне кажется, вы неправы в том, что пытаетесь оценить «экспертность» опонента по темпераменту. Ни что не мешает человеку быть как экспертом, так и редкостным хамом одновременно. P. S. Игорь, я вас не считаю хамом :)

  • Ответить

    Не, если использовать XML для сериализации/десериализации, то и 90 мегабайт в секунду захочется. А если не использовать, то потребности в этой колбасе меньше. Касаемо HTML-парсера: то, что под этим понимается — у всех разное. Да и задачи — разные, в какой-то можно просто теги спилить (ну, может еще alt/title вытащить) и уже будет хорошо, а в другой — нужно честно парсить stylesheets со всеми @import, а без этого плохо (а стайлшит вам еще сгенерируют динамически и каждый раз разный). Общего подхода тут не может быть.

  • Ответить
    Игорь Ашманов Сам себе компания

    Игорь, настоящие эксперты не козыряют своими регалиями, не пытаются доказать, кто тут хрен с горы и не ругаются как сапожник, и тем более не выискивают ошибки в тексте, если их об этом не просят, они просто отвечают на вопрос, максимально просто и доходчиво, зачастую подкрепляя его ссылками на свои работы или работы своих коллег, и даже не брезгуют послать эти работы по электронной почте. Да не буду я вам доказывать, что я настоящий эксперт. Ну зачем бы я стал это делать? А судьи кто — вы, что ли? Не смешите. Я просто вам поясняю, что не буду я вам объяснять доходчиво, посылать работы и так далее. Потому что вам не это нужно, и вы этого не заслуживаете. Вам не нужен ответ, вам нужен спор и выпячивание себя. Вы — типичный городской сумасшедший, представитель альтернативной науки, этакий фоменковец, вам нужен скандал, приставать ко всем, чувствовать свою значимость. Ну и отстаньте уже. Гуру морфологии — это вообще бессмысленное выражение. Морфология давно уже не фокус. Сегалович, Коваленко, Сокирко, Селегей, прочие два десятка известных личностей в этой сфере — просто разработчики, инженеры, котороые давно уже занимаются другими делами, как и я. Я своими руками сделал русскую морфологию в ОРФО много лет назад, английскую в словаре Контекст, а потом руководил разработкой машинных морфологий для немецкого, французского, и еще пяти языков в составе МультиЛекса, Спамтеста, Рамблера и т. п. У Коваленки ил Сегаловича примерно такой же опыт. Это не «регалии», которые вас так бесят, Максим, как любого альтернативщика бесят научные степени, а просто опыт реальной работы. У вас этого опыта нет, а есть попытка получения психологического преимущества в споре, потешить своё эго, поэтому спорить с вами бессмысленно.

  • Ответить

    Я, кстати, совершенно согласен по поводу разбора HTML. Libxml — это медленный парсер (именно, что около несколько мегабайт в секунду, сам тестировал), а большинство доступных поисковиков имеют быстрый парсер, но дерево они не строят. Уважаемый Saterenko, если надумаете выложить парсер в открытый доступ, скинть плз ссылку leo собака boytsov.info Спасибо!

  • Ответить

    И про словари. Maxime, вы же спрашиваете «чем Лебедев нехорош»? Я и отвечаю, что тем нехорош что * нет части слов * есть ошибочные слова, которые он уверенно подтвердит, тогда как реально это ошибка * не годится как основа для дальнейшего развития (например, поддержки согласований) по причине негодящей модели данных Что касается его объема, то к тамошним 137 тысячам слов тоже стоит относиться с осторожностью: абсорбировавший/A абсорбировавшийся/A абсорбированный/AS И таких размноженных статей там очень много. (абсорбция, кстати, есть, а адсорбции нету)

  • Ответить

    Леха, что не так с абсорбированным? Это не размноженные записи, с флагами там напряженка. Но это не значит, что его нельзя использовать для спеллинга. Можно, если только части речи и прочая радость не нужна. Плюс навесить статистику ошибок, но это уже не проблема словаря. А вот для поиска это уже плохо, потому как абсорбировавший и абсорбированный не склеятся.

  • Ответить

    Тьфу, пардон, торможу. Конечно же там не 137 тысяч, потому что есть «повторы». Если их вычистить, то будет меньше слов.

  • Ответить
    Альтер Эго

    Максим, какой эксперт стает годами козырять? Экспертность оценивается в количестве научных станей на год времени. А для тех у кого есть статьи ещё смотрится индекс цитирования. Ну или хотя бы энтропия смотрится, много же статей «ниачом», для галочки.

  • Ответить

    itman, «не то» там то, что реальных словарных статей там сильно меньше, чем строк в файле. Т.е. сравнивать тамошние 137 тысяч и яндексовские (старые) 60 впрямую нельзя. паскудник/K паскудница/I пассажир/K пассажирка/I патронаж/J патронажем погруженный/AS погружённость/F погружённый/AS погрузивший/A погрузившийся/A (просто листаю в редакторе). А как проверка правописания, если полноту поднять, а согласование не нужно (и ничего другого нет) — да, конечно лучше, чем полное отсутствие словаря.

  • Ответить

    Да, я уже поправился, понял — о чем речь. Полнота это не всегда точто нужно. Был ряд исследований, согласно котором, оптимальный размер словаря для проверки как раз в районе нескольких десятков тысяч. Если больше, то он перестает замечать ошибки, которые из-за объема словаря становятся правильными словами. В данном случае, ИМХО с точностью гораздо больше проблем. Современные спеллеры предлагают (или даже сами иногда исправляют) наиболее вероятные ошибки, а испелл гонит кучу маловероятной пурги. Которую нужно подавать в виде ссылки: еще варианты.

  • Ответить

    Ну, и еще 5 копеек на тему полноты. Полнота никогда не повредит, если спеллер умеет замечать (потенциальные) ошибки, которые выглядят как правильное словарное слово. Но это серьезная задача.

  • Ответить

    Игорь, да не нужно мне доказательство вашей экспертности, мне нужно было подтверждение от вас, чам ужасно плох словарь Лебедева, а вы залезли в бутылку своей экспертности, берите пример с lexa (Алексея Тутубалина) — у него получилось по делу, без ругани и выяснения кто недавнее Сегаловичу писал… lexa, аффиксы словаря Лебедева разбиты по частям речи (я так понимаю вы имели в виду именно это), ну за малым исключением :) И у этого словаря огромнешее приумущество — он открытый, нашел ошибку — легко исправил, дополнил словарь. Насчет непригодности для дальнейшего развития — тоже можно поспорить, да, возможно не очень удобен, но мне почему-то удалось на его основе сделать переход от одной части речи к другой при расширении запросов поиска. :)

  • Ответить

    > Т.е. сравнивать тамошние 137 тысяч и яндексовские (старые) 60 впрямую нельзя. lexa, а можно цитату из словаря Яндекса в районе «патронаж», «погруженный» — чтобы можно было сравнить? :)

  • Ответить
    Игорь Ашманов Сам себе компания

    Был ряд исследований, согласно которым, оптимальный размер словаря для проверки как раз в районе нескольких десятков тысяч. По-моему, это ошибка. Возможно, исследователи не понимали, что они исследуют. Тут вся фишка в слове «достаточно». Что такое «достаточно» — непонятно. Об этом чуть ниже. Либо это вообще исследования для английского языка, потому что про русский я о таких исследованиях ни разу не слышал. Так вот, по моему опыту, для нормальной проверки правописания по всему разнообразию текстов в масштабах нации (40 миллионов пользователей, скажем) нужно не менее 200−250 тысяч основ. Это так потому, что спеллинг-чекер широкого профиля должен покрывать также и весь популярный научно-технический лексикон, а его тоже сотня-другая тысяч. Замечу, что странное утверждение о том, что якобы при росте словаря начинают пропускаться ошибки, как раз и заставляет сомневаться в компетентности этих исследований. Пространство языка так устроено, оно так разреженно в шенноновском смысле, что слова в нём обычно не слипаются, даже при росте словаря, это не хеш-функция. Новые слова создаются людьми, которые при чеканке нового слова бессознательно или сознательно отстраиваются от возможной омонимии. Кстати, опыт применения алгоритма Т9 в мобильных телефонах как раз показывает, что пространство слов достаточно разреженное для того, чтобы алгоритм Т9 удовлетворительно сходился. Может быть, если завести в языке десятки миллионов слов, они начнут слипаться, но задолго до этого деятели языка перейдут для выражения смысла на устойчивые словосочетания, как они, собственно, и делают. А у словосочетаний шенноновское пространство векторов признаков ещё более разреженное. В английском языке слова покороче, там омонимия выше изначально и слипаться они могут начать раньше, возможно. Но я лично в это не верю. Так вот насчёт слова «достаточно». Я думаю, в этих исследованиях были заданы неправильные определения качества проверки. Поскольку на самом деле омонимии с ошибками при поиске в словаре практически не бывает (бывает на уровне фона, значительно меньше по порядку количества опечаток), то этот вид ошибок (типа пропуск цели) — не напрягает пользователя. А вот ложные срабатывания на правильных словах — напрягают сильно. Если ещё нет ввода слов во всех словоформах, как в отдельной версии ОРФО — то вы каждую словоформу неизвестного слова будете вводить отдельно. И если ещё вы попали на вообще неизвестную проверщику предметную область, этих новых слов там будут сотни или даже тысячи, а словоформ — в несколько раз больше. Только и будете его учить всё время, вместо работы с текстом. Поэтому, чем больше словарь — тем лучше, и точность от этого не страдает.

  • Ответить

    >>аффиксы словаря Лебедева разбиты по частям речи всё-таки аффиксы у лебедева — это простой инженерный способ «запрограммировать словообразования», не опускаясь ниже уровня правил «добавить-отнять строку» — то есть не учитывающие «язык». такой очень простой «механистический» приём. а правила оказываются «похожими» на части речи — ну так просто потому что так словарь проще строить, если посмотреть внимательно в словаре полно приёмчиков с добавлением кучи аффиксов для разного рода исключений, в результате чего слово описывется тремя, четырьмя аффиксами и так далее.

  • Ответить
    Альтер Эго

    Паскудник/K и паскудница/I — разные слова, пассажир/K и пассажирка/I — тоже, погруженный/AS и погружённость/F — аналогично. Но дублей там все равно хватает, судя по всему.

  • Ответить
    Альтер Эго

    Ашманов сказал: «Так вот, по моему опыту, для нормальной проверки правописания по всему разнообразию текстов в масштабах нации (40 миллионов пользователей, скажем) нужно не менее 200−250 тысяч основ.» Полностью согласен. Удивительно насколько люди недооценивают необходимый размер «базы данных» для того, чтобы лингвистический софт дал какой-то минимальный результат. Недавно был на лекции Митчелла тот выражал благодарность Гуглу за то, что они предоставили научному сообществу корпус в триллион слов

  • Ответить

    > Недавно был на лекции Митчелла тот выражал благодарность Гуглу за то, что они предоставили научному сообществу корпус в триллион слов Точнее словосочетаний до 5 слов. Да, отличная штука. Кстати вспомнил одно забавное наблюдение. Собрав небольшой словарь из слов, учавствующих в поисковых запросах (что-то около 50 млн, со словоформами и ошибками) я прогнал его через однословные запросы к гуглу. Помимо всякой интересной информации, я выделил для каждого слова кол-во документов, которые нашел гугл («Результаты 1 — 100 из примерно 403 000 для sadf. (0,50 секунд)»). Упорядочил по частоте. Построил график зависимости количество найденных страниц от кол-ва слов с таким кол-вом найденных страниц. Получилась ярко выраженная линейная зависимость (кроме крайних значений). Если честно — не ожидал. Зачем? Мне хотелось разделить словоформы на группы по частоте, из-за линейной зависимости это сделать не получилось (границу осмысленно не поставить). К чему все это? Просто так. Сейчас это кажется уже просто забавным наблдением.

  • Ответить

    По-моему, это ошибка. Возможно, исследователи не понимали, что они исследуют. Тут вся фишка в слове «достаточно». Что такое «достаточно» — непонятно. Об этом чуть ниже. Либо это вообще исследования для английского языка, потому что про русский я о таких исследованиях ни разу не слышал. Так вот, по моему опыту, для нормальной проверки правописания по всему разнообразию текстов в масштабах нации (40 миллионов пользователей, скажем) нужно не менее 200−250 тысяч основ. Это так потому, что спеллинг-чекер широкого профиля должен покрывать также и весь популярный научно-технический лексикон, а его тоже сотня-другая тысяч. Замечу, что странное утверждение о том, что якобы при росте словаря начинают пропускаться ошибки, как раз и заставляет сомневаться в компетентности этих исследований. Пространство языка так устроено, оно так разреженно в шенноновском смысле, что слова в нём обычно не слипаются, даже при росте словаря, это не хеш-функция. Новые слова создаются людьми, которые при чеканке нового слова бессознательно или сознательно отстраиваются от возможной омонимии. Ну, исследований мы не проводили. Можно с достаточно уверенностью говорить, что безопасно включать в расширенный лексикон длинные слова (да с ними получается разряженно), но не стоит также забывать, что далеко не все слова длинные. И в этом смысле английский языке не принципиально лучше или хуже русского. Тут надо не просто расширять словарь, а уметь именно распознавать вероятные и не очень вероятные сочетания слов. В том числе, наверное, и с использование грамматических свойств. Это сложная задача, при этом выигрыш даже по сравнению с тем же испелом будет очень небольшой, а по сравнению с вордовым спеллером и вовсе копеечный. При этом простое расширения словаря — вообще практически потеря времени. В английском языке слова покороче, там омонимия выше изначально и слипаться они могут начать раньше, возможно. Но я лично в это не верю. Средняя длина слова в коротком английском словаре (до ста тысяч записей) 9 букв, а в русском — 10. Поэтому разница может быть и не такой уж и большой. И еще, почти наверняка, не получится эдакого дешевого русского офиса за 100−200 рублей. Вместо этого я бы рекомендовал бы лучше сделать альтернативные модули проверки орфографии для Ворда, Опен офиса и просто текстового файла. Намного больше будет пользы.

  • Ответить

    itman, разница длины на букву — это же на полтора порядка (по числу букв). Это даже больше, чем разница в зарплате на нолик! А я тут недавно считал длины слов (и предложений) в реальных текстах, правда на «некоем» корпусе — взвешенная на частоту разница около полутора букв.

  • Ответить

    Леха, можно спорить до бесконечности, но в русском языке тоже есть ошибки-не-ошибки. Много ли их — это большой вопрос, но они есть. И размер словаря влияет на их количество. Перевешивает ли прирост полноты, достигаемый за счет увеличения размеров словаря, прирост числа false negatives — это интересный вопрос, но то, что число этих самых false negatives возрастет — это к бабке не ходи. PS: Вот сделаете словарь, опубликуте результаты сравнения где-нибудь в журнале ACM и мы будем все вас с удовольствием вспоминать и цитировать :-)

  • Ответить
    Игорь Ашманов Сам себе компания

    Леха, можно спорить до бесконечности, но в русском языке тоже есть ошибки-не-ошибки. Они есть, но насколько они мешают созданию грамотных текстов — сказать трудно. И померить тоже, потому что нужно очень много работы и ручной проверки текстов. Вам нужно взять много реальных текстов, проверить их проверщиком правописания, а затем вручную найти там пропущенные слова, которые на самом деле опечатки. Ибо их нельзя найти иначе, как вручную. Этого никто и никогда не делал в сколько-нибудь значимом количестве. Можно было бы устроить тут Веб 2.0, попросив присылать такие случаи, но это вряд ли сработает — никому из пользователей не интересно улучшать проверку правописания. Так что данных тут нет. Можно было бы попытаться сделать это автоматически, но автоматически выделить слово, которое есть в словаре, но совпадает с частой ошибкой — неясно как. В общем, данных на самом деле нет. Среди всех спорящих тут есть ровно один профессиональный разработчик проверки правописания — и это как раз я. Я на эти вопросы полноты-точности словаря потратил восемь лет жизни, составлял словари руками, прочёл словарь Зализняка вдоль и поперёк несколько раз, сравнивал с конкурентами и так далее. Ну и довольно долго мы поддерживали сотни тысяч пользователей. Так вот, моё профессиональное мнение — что а) этот эффект совпадения словарных форм с ошибками существует, но крайне редок по сравнению с реальными проблемами проверщиков правописания, и б) размер словаря на его частоту практически не влияет. Да, конечно, если вы напишете винительный падеж слова «форма» с ошибкой перестановки букв, как «форум», то это слово будет пропущено при проверке. Но если вы просто по ошибке вместо Ашманов напишете Захаров, это тоже будет пропущено. Будет ли это ошибкой проверщика правописания? Думаю, нет. Это вопрос определения, что такое пропуск ошибки. А вот «настоящие» несуществующие слова, настоящие опечатки, которых нет в словаре — при расширении словаря вряд ли в нём появятся. В общем, при масштабном расширении словаря проверщика правописания количество жалоб на пропуски не возрастает. Конечно, можно взять и посчитать, какие формы слов, генерируемые словарём, совпадают между собой. И назвать это мерой «слипания слов». Можно даже посчитать, растёт ли эта мера при росте словаря. Можно даже нормировать эту меру на частотность данных форм в текстах, что даст совсем уже предельную «научность» исследованию. Если вам нужно исследовать и писать статью или диплом. Но вот померить частоту случаев, когда вместо «форму» пользователь вводит «форум», вы не сможете. А если удастся это выяснить какими-то социальными процедурами, опросами, наблюдением за пользователями и т.п. — это будет слишком дорого для этой простой задачи и никому не нужно. Замечу также, что «размер словаря» вообще выражение некорректное. У проверщика правописания большая часть генерируемых словоформ вообще в словаре не содержится. Поэтому считать число основ в словаре — бессмысленно. Словарь Лебедева считает глагол и причастие от него, а также форму на -ся — разными словами. Вот у него словарь и имеет такой «размер». Якобы. А ОРФО, например, производит все четыре причастия и форму на -ся из одной основы. А там таких схем генерации — десятки. Например, «не-» с прилагательными, превосходные степени прилагательных, толстый пучок правил «слитно-раздельно» для слов с дефисом (типа «красно-коричневый», «сказал-таки», «он-то») и так далее. По сути, надо говорить не о полноте словаря, а о качестве, то есть полноте/точности генерирующих алгоритмов. Перевешивает ли прирост полноты, достигаемый за счет увеличения размеров словаря, прирост числа false negatives — это интересный вопрос, но то, что число этих самых false negatives возрастет — это к бабке не ходи. Боюсь, вы неверно употребляете терминологию, точнее, употребление это — сомнительно. Принцип проверки правописания — это распознавание слов из словаря (а не распознавание ошибок). Соответственно, false negative — это неверное нераспознавание, то есть, скорее, неузнанное словарное слово или, скажем, ложная тревога — подсветка как ошибки правильного слова. Ну да ладно, это как считать. Проще говорить «ложная тревога» и «пропуск ошибки», так понятнее в применении к данной задаче. Вот сделаете словарь, опубликуете результаты сравнения где-нибудь в журнале ACM и мы будем все вас с удовольствием вспоминать и цитировать Словарь мы сделали уже не раз и не два, и не три. А вот писать наукообразные статьи и делать сравнения — это из другой жизни, из параллельной реальности, где проходит жизнь научных сотрудников. Там процветает научный маркетинг, всякие приколы с заданным количеством статей в год и так далее. Ну зачем инженеру одобрение читателей научного журнала? Штука просто должна хорошо работать на уровне удовлетворения пользователей. Вот Т9 работает? Ну и ладушки. Оттого, что вы как бы «научно» докажете, что данный спеллер лучше другого или что расширение словаря якобы вредно, ситуация на реальном пользовательском рынке не изменится, так как она зависит от степени удовлетворённости пользователей. С этой точки зрения словарь Лебедева — явно негодный, он сильно неполон. Основанные на нём спеллеры дают много ложных тревог, пропуски ошибок, предлагаемые замены — уродские и т.п. В результате ни ФФ, ни Мак не позволяют нормально проверять правописание. Я вот лично сильно мучаюсь, в конце концов в частности из-за этого пересел обратно на Винды. В общем, не вижу смысла спорить в этом месте. Для примера того, как можно тестировать спеллеры/граммеры, могу предложить почитать замечательную критику на ОРФО от Элины Константиновны Лавошниковой : О «подводных камнях» в компьютерных системах проверки правописания: http://www.infolex.ru/elword4.html О компьютерной коррекции «популярных» ошибок в текстах на русском языке: http://www.infolex.ru/Mistakes9.doc О результатах тестирования некоторых алгоритмов текстового редактора MS Word: http://www.infolex.ru/TestSyntax.htm Замечу, что такой уровень тестирования к словарю Лебедева скорее всего вообще неприменим, там косяки гораздо грубее. Это всё, правда, тесты от 2003-2004 годов. Сейчас, после показательного выступления Микрософта с отключением сотен или тысяч просторечий и «потенциально оскорбительных слов» в Word 2007 там вообще нет смысла тестировать, например, полноту словаря.

  • Ответить

    to Ashmanov: Можите ответить мне на пару вопросов как специалист? 1. Почему чекеры на 99% озабочены именно увеличением словаря (слова, правила образования словоформ и т. д.)? И почему так мало уделяется внимания или вообще не уделяется проверки стиля речи? Сий тред — еще одно этому подтверждение. 2. Почему спелчекеров с большими словарями нет в опенсорс? Мандрива, убунта, генту имеют самые большие репозитарии. А даже коммерческой версии того же ОРФО для них не найти (хотя много всяких разных коммерческих пакетов включено в репозитарии, точнее не полных пакетов, а демо+ссылки на источники).

  • Ответить

    soomrack, смею предположить, что проверка стиля гораздо более сложная задача чем проверка орфографии… А в опенсорс нет по той простой причине, что нет этузиаста, готового написать качественный продукт, вложить в него уйму сил и денег и отдать бесплатно…

  • Ответить

    saterenko, Мне кажется, что направление проверки орфографии уже очень сильно развито, и следующие шаги, качественно улучшающие ситуацию будут гораздо сложнее первых шагов по проверки стиля речи. Все-таки, если сильный специалист занимается развитием проверки орфографии 8 лет, это значит что все простое, среднее, сложное и часть очень сложного сделано. А для стиля речи не сделано даже простое, только какие-то наметки есть. > А в опенсорс нет по той простой причине, что нет этузиаста, готового написать качественный продукт, вложить в него уйму сил и денег и отдать бесплатно… Почему бесплатно? Сделать из того же ОРФО ебилд и отдавать платно. Если продукт качественный, то свою аудиторию он найдет. Покупают же другие платные продукты для опенсорс систем. А обновления? Платное обновление словаря, например? Антивирусы ведь под линукс продаются. Кроме того есть и другие эффективные способы монетизации, отличные от прямых продаж.

  • Ответить
    Игорь Ашманов Сам себе компания

    Вопросы поставлены не оченькорректно. 1. В составе ОРФО, а также в составе языковых модулей для основных европейских языков в МС Офисе проверка грамматики и стиля есть. Для русского проверку стиля и грамматики делал я, там довольно много труда вбито. Это задача ещё на порядок сложнее, чем спеллер. Например, стилистические ошибки нельзя проверять по принципу спеллера — нельзя сравнить с образцом. Образцов столько не наделаешь, да и правильную структуру русской фразы точно и исчерпывающе не опишешь. Приходится составлять, наоборот, словари ошибок (точнее, схем ошибок). Поэтому речь, наверно, о том, что доступно бесплатно. Ну так потому там и нет сложных вещей, что оно бесплатное. Никто не построил вебдванольной разработки для грамматического корректора, как для Линуха или ОО. Да и доступные открытые спеллеры тоже негодные, как я уже говорил. 2. Больших словарей для оупенсорса нет потому, что их разработка стоит больших денег, а как их разрабатывать сообществом, не очень ясно. Версий ОРФО для Мака и Линукса нет, потому что это коммерческий продукт, а версии для этих платформ не очень окупаются. Как-то в начале девяностых мы в Информатике хотели было сделать спеллер для Мака, но оказалось, что нужно было регистрироваться, как разработчик, получать разрешение разрабатывать и так далее. И это для платформы с долей в 5%. Это нам показалось странным, мы плюнули и делать не стали. Делал спеллер в итоге Морейнис, но и он потом бросил. Ну и потому нет ОРФО для других платформ, что после продажи ОРФО в МС и моего ухода в Информатике разработка фактически постепенно заглохла. В основном велись работы по поддержке и развитию того, что уже имелось, улучшались существующие фичи. Новыми платформами не занимались. Кстати, люди из Эппла примерно раз в 3−4 года обращаются ко мне сделать нормальный спеллер для Мака. Но всякий раз предлагают странные условия, например, один раз предложили 10 тысяч долларов и никаких роялти. И как-то намекали, что Мак такая волшебная марка, что я должен быть счастлив сделать что-то для него. А я к Маку отношусь более умеренно.

  • Ответить
    Игорь Ашманов Сам себе компания

    Антивирусы ведь под линукс продаются. Но бесплатных и качественных антивирусов практически нет. То есть да, антивирусы для Линукса продаются — для серверов под Линуксом. А делаются антивирусы коммерческими компаниями, а не сообществом опенсорса. Потому что это очень дорого и очень ответственное дело. Вести базу вирусов сообществом — трудно. А быстро обнаруживать новые вирусы — ещё труднее. Насколько я слышал, опенсорсный антивирус ClamAV довольно долго использовал кластер из нескольких коммерческих антивирусов, чтобы детектировать вирусный код, то есть был по сути «мета-антивирусом».

  • Ответить

    Спасибо, >»Это задача ещё на порядок сложнее, чем спеллер. Например, стилистические ошибки нельзя проверять по принципу спеллера — нельзя сравнить с образцом. Образцов столько не наделаешь, да и правильную структуру русской фразы точно и исчерпывающе не опишешь. Приходится составлять, наоборот, словари ошибок (точнее, схем ошибок).» Да, на порядок сложнее, но ведь сейчас и возможностей на порядок больше. Нагрузка, генерируемая приложениями постепенно мигрирует с домашних ПК на сервера. Соотв, можно строить чекеры, быстро работающие с огромными бд (с тем же гугловским триллионом). «Поэтому речь, наверно, о том, что доступно бесплатно», в бесплатных вообще ничего нет. Я скорее про ворд. Если взять школьника 9-ого класса, троешника, посадить его в ворд и заставить написать сочинение, исправляя все автоматически найденные ошибки, то скорее всего, хороший учитель литературы проверив, все равно поставит тройку, т.е. улучшению стиля ворд не способствует. > «Версий ОРФО для Мака и Линукса нет, потому что это коммерческий продукт, а версии для этих платформ не очень окупаются. «. Тем не менее, антивирусы локализуются для линукса, хотя их аудитория, несколько меньше, чем аудитория чекеров… Ну ОФРО почему не локализуется понятно, но остальные? Про мак не скажу, это вещь в себе. Даже с точки пользователя: пытался на нем работать, не понравилось.

  • Ответить

    > Но бесплатных и качественных антивирусов практически нет. То есть да, антивирусы для Линукса продаются — для серверов под Линуксом. А делаются антивирусы коммерческими компаниями, а не сообществом опенсорса. Потому что это очень дорого и очень ответственное дело. Вести базу вирусов сообществом — трудно. А быстро обнаруживать новые вирусы — ещё труднее. Насколько я слышал, опенсорсный антивирус ClamAV довольно долго использовал кластер из нескольких коммерческих антивирусов, чтобы детектировать вирусный код, то есть был по сути «мета-антивирусом». Речь идет, разумеется о платных. Для пользователей они тоже продаются (объемы продаж мне неизвестны). Но тем не менее есть и бесплатные кусочки: тот же аддон Dr.Web для огнелиса.

  • Ответить

    Вроде бы я отвечал Алексею, но раз уж пошла такая пьянка. Терминология, как правильно замечено, может варьироваться, в зависимости от того, что считать «positive» или «negative». Я имел в виду, что positive — это опечатка. Все-таки, как никак спеллер занимается поиском опечаток. False negative — пропущенная опечатка. Впрочем, это все вкусовщина и западное гнилое влияние, за практически полным отсутствием доброго, отечественного. Потому, что государству некогда, а коммерция — это паралельный мир, со своими приколами, в котором нужно «осваивать заказы», «окучивать клиентов» (а для этого печень нужна сильная) и быстрее выпустить новую версию (иначе кушать будет нечего). В этом мире, необходимость в продукте рождается не потребностью заказчика, а умение впаривать (типичный пример кока-кола и майкрософт). За ссылки большое спасибо. Хотя приводимые там факты, только из серии «anecdotal evidence», что само по себе очень здорово, но некоторая псевдонаучность с моей точки зрения не помешала бы, я с большим удовольствием проглядел, в частности, обнаружил следующее подтверждение того, что не только в английском языке, размер словаря может неожиданно отрицательно сказать на качестве проверки орфографии. Вот Э. К. ЛАВОШНИКОВА даже специальный раздел ввела «напрасные слова, уж вы не обессудьте»: Так ли уж необходимы устаревшие, областные и диалектные слова в основном словаре системы проверки правописания? В словаре ОРФО представлены устаревшие, возвышенно-поэтические лексические единицы угль [*], брег [9], ветр [*] и огнь [8]. А в результате — ошибочный пропуск гласной в словах уголь, берег, ветер и огонь автокорректором не будет замечен. Ладно бы диалектические слова, но автор буквально спустя пару абзацев пишет, что Если архаичную и специальную лексику можно вывести за пределы основного словаря автокорректора, то более употребительные слова, «слишком похожие» на другие, желательно было бы на этапе создания машинных словарей снабжать особыми пометами. Представим себе такую ситуацию. В тексте несколько раз встретилось слово страница, но только один-два раза — страННица или станица. Эти слова могут появиться и в результате опечатки в слове страница. Для подобных случаев (контингент и континент, контракт и контакт, смеЩение и смеШение) желательно было бы предусмотреть особое сообщение: «Это ли слово имелось в виду?».

  • Ответить

    Среди всех спорящих тут есть ровно один профессиональный разработчик проверки правописания — и это как раз я. Авторитетом принято давить, когда нет других аргументов :-)

  • Ответить
    Игорь Ашманов Сам себе компания

    Да мне не нужно вас давить. Я просто знаю, как это в реальности устроено, потому что сам делал, а вы фантазируете на ходу, как и Макс Сочинский. Вы мне приводите цитату по ссылке, которую я же вам прислал, где анализируется продукт, который я же и сделал — и думаете, что это вы так со мной дискутируете. Я лично, когда имею дело с неизвестной или новой для меня предметной областью, предпочитаю сразу получить совет профессионала, чтобы не проходить долгий и трудный процесс вникания. У меня, например, нет гонора, что я сам могу разобраться в чём угодно лучше любого профессионала. Если, скажем, со мной разговаривает мастер спорта СССР по самбо, я не буду его грузить своими мыслями о видах борьбы и эффективности приёмов. Буду расспрашивать. А парашютисту не буду доказывать, какой парашют безопаснее, по сведениям из прессы. Вы же в малоизвестной вам области, по-моему, предпочитаете просто фантазировать или пытаться сообразить на ходу, а когда вам говорят: не говорите ерунды, это моя профессия и тут всё сложнее, устроено не так, вы ещё и обижаетесь — чой-то он давит авторитетом, гад?! Как будто любая свежесостряпанная точка зрения любого набежавшего собеседника имеет равный вес с любой другой. Я лично считаю, что неверно, что «всякое мнение имеет право на существование», как модно говорить в эпоху релятивизма. Некоторые мнения права на жизнь не имеют, ибо они неверные. И я не вижу причин уважать мнение Максима, который уже пятый раз тут говорит примерно одно и то же, и каждый раз ошибочное. Ну не хотите знать реальное положение дел, пребывайте в своей нафантазированной реальности. Я ещё раз повторяю: не существует никакого размера словаря. Это техническая иллюзия, возникающая от чтения последовательных списков слов у Лебедева и подобных ему поделок. Словарь спеллера — это сложная система генерации словоформ на лету. По сути, система распознавания (распознавания правильных слов, естественно, а не ошибок). Поэтому можно говорить о покрытии словаря и полноте/точности этого покрытия на современном текстовом корпусе. Отсюда следует, в частности, что приводимые примеры вообще не связаны ни с мифическим «размером словаря», ни с его покрытием. Потому что устаревшие слова немногочисленны и обычно в словарь спеллера попадают изначально, поскольку входят в ядро любого словаря русского языка, в том числе в главном источнике — словаре Зализняка. И включение их или выключение — это вопрос чистки словаря с целью повышения соотношения полнота/точность. С объёмом словаря это соотношение не связано. Например, разные словари по-разному трактуют наличие кратких форм прилагательных. Скажем, бывают словари где у слова «апельсиновы» есть краткая форма мужского и женского рода рода «апельсинов» и «апельсинова». В принципе, в поэтическом тексте такая краткая форма может встретиться. Однако, вторая краткая форма может совпасть с ошибкой потери последней буквы у слова «апельсиновая». Нужна ли спеллеру такая краткая форма или нет — вопрос точности/полноты, а не «размера» словаря. То же самое относится к относительно редким словам типа «станица» или «странница». Омонимия этих слов с ошибками в слове «страница» — вопрос не размера словаря (слова «станица» или «странница» в лбом случае нельзя выбросить из словаря), а повышения полноты/точности спеллера новыми, тонкими средствами за пределами словаря — например, с помощью учёта частотности или распознавания тематики текста. Вообще интенсивное расширение словаря происходит за счёт добавления словообразовательных алгоритмов (приставки, суффиксы, аффиксы, дефисы, словообразование через границу частей речи и т. п.). При их введении постоянно приходится тестировать спеллер на точность/полноту. А экстенсивное расширение словаря происходит обычно за счёт неологизмов и специальных терминов, которые а) обычно имеют продуктивные (то есть стандартные) классы словоизменения, и б) обычно не склеиваются с формами существующих слов. Короче говоря, улучшать спеллеры можно. Но это вряд ли окупится, если не будет гранта или госфинансирования. Потому что продать пользователям следующую версию спеллера, если в нём есть тончайшие улучшения типа «меньше стали путаться редкие слова и ошибки» — нельзя. Втюхивание тут вообще не при чём — просто есть порог практической полезности и применимости, за которым никто не платит лишних денег.

  • Ответить

    Вы же в малоизвестной вам области, по-моему, предпочитаете просто фантазировать или пытаться сообразить на ходу, а когда вам говорят: не говорите ерунды, это моя профессия и тут всё сложнее, устроено не так, вы ещё и обижаетесь — чой-то он давит авторитетом, гад?! Слово, гад, я не говорил, я намекал Вам, что Вы — не единственный авторитет в данной области. Вы можете с этим спорить, ругаться, обзывать людей городскими сумасшедшими и дилетантами, но реально это уважения не добавляет. По поводу Ваших реальных аргументов, коих мы пока не услышали, а нашли только ссылки их опровергающие. Размер словаря, число словоформ и прочее — это не мифическая категория, а несколько неточная, потому что возникает вопрос, что считать словом. То есть она мифическая, если брать разные определения и сравнивать: например число словоформ в словаре Яндекса, и число записей в файле словаря Лебедева. Однако, если придерживаться какого-то одного определения, то ничего мифического нет, и удвоение словаря относительного какого-то одного метода измерения — реальное явление, при котором (наконец-то вам пришлось это признать) происходит изменение точности и полноты, в том числе и потому (это мой комментарий), что в словарь добавляются редко используемые слова, которые «скрывают» опечатки. Вам даже Лавошникова про это написала. Но Лавошникова — дура, Бойцов — идиот и дилетант (а также идиоты все те, кто писали статьи про орфокоррекцию, потому что им не дело нужно делать, а статьи клепать), а только один господин Ашманов — Дартаньян. Только к нему можно ходить за советом!

  • Ответить
    Альтер Эго

    itman, вы путаете теплое с мягким. Станица/страница — это *не* проблема размера словаря, в любом словаре сколько-нибудь разумного размера оба слова обязательно будут. Именно это вам пытался объяснить Ашманов.

  • Ответить
    Игорь Ашманов Сам себе компания

    Я не единственный авторитет в этой области. Я уже называл некоторых других, пмогу повторить и даже добавить: Сегалович, Селегей, Коваленко, Костин, Зоркий, Волович, Соколов и многие другие. Это те, кто занимался проблемой предметно и что-то сделал в этой области. Очевидно, Лавошникова также может быть названа экспертом и пишет в своих статьях всё совершенно правильно. Я потому и дал вам эти ссылки. Проблема данной дискуссии в том, что вы-то к этой категории не относитесь, и вам обидно, что видно по повышенному тону последнего комментария. Уважаемый, давайте открою вам страшную тайну середины жизни: слово «дилетант» не является обидным. Большинство людей (и я в том числе) являются дилетантами в подавляющем большинстве предметных областей. Вы с Максом Сочинским являетесь, очевидно, исключением из этого правила. Ну и оставайтесь экспертами по всему, у каждого свой путь. Насчёт единого метода измерения объёма словаря — ну и каков же он, интересно, этот метод? Опять фантазия, судя по всему. Если вы не знаете устройства внутренних алгоритмов словообразования — как мерить словарь спеллера? Нагенерить всех возможных словоформ каждым спеллером? А в некоторых из них есть распознавание составных слов, но нет синтеза, представляете? Скажем, в нашей немецкой морфологии распознаются компаунды, но нет их синтеза — и не может быть! Ну вот если один спеллер позволяет приписать «-таки» к любому глаголу, а другой нет — насколько отличается у них формальный объём словаря? Чуть ли не в два раза, к вашему сведению. При этом без малейшего влияния на точность. Понятно, почему? Но нет, вы всё-таки не хотите-таки включить голову и вдуматься в то, что я вам говорю. Вам бы поспорить. Может, можно было бы прогонять триллионы текстов сквозь разные спеллеры и мерить покрытие. Но что делать с пропущенными ошибками? Вручную выискивать? Тогда триллионы не получится. Ну и так далее.

  • Ответить
    Альтер Эго

    Мой дорогой анонимный друг, станица — страница — это просто один из многочисленных примеров, когда редко используемое слово оказывается похоже на часто используемое слово. Который говорит о том, что разумного размера словаря как такового не существует, потому что в 99% случаях — станица — это ошибочное написание слова страница и именно поэтому слова станица как раз не должна присутствовать в словаре «разумного размера». Другими словами, включение слова станица в словарь делает счастливым пользователя в 1% случаев, но несчастным в 99%. Но есть и другие примеры редких слов, которые в словаре «разумных размеров» (прости господи оксюморон какой-то) отсутствуют.

  • Ответить

    Это был я. Проблема данной дискуссии в том, что вы-то к этой категории не относитесь, и вам обидно, что видно по повышенному тону последнего комментария. Ох, Игорь, удачи. Но перевод на личности не добавляет вашей карме абсолютно ничего. Сегалович, кстати, в публичных дискуссиях на личности не переходит.

  • Ответить
    Альтер Эго

    Варка`лось. Хливкие шорьки` Пыря`лись по наве`, И хрюкота`ли зелюки`, Как мю`мзики в мове`. О бойся Бармаглота, сын! Он так свирлеп и дик, А в глуше рымит исполин — Злопастный Брандашмыг

  • Ответить
    Игорь Ашманов Сам себе компания

    Который говорит о том, что разумного размера словаря как такового не существует, потому что в 99% случаях — станица — это ошибочное написание слова страница и именно поэтому слова станица как раз не должна присутствовать в словаре «разумного размера». Это ошибка в понимании, что такое пользователь. Нет среднего пользователя, пользователи крайне фрагментированы и хвост у Ципфа крайне тяжёлый. Это довольно интересный феномен, который встречается и в экономике: скажем, книжка по норвежской поэтике 13-го века нужна мало кому, но должна быть на полке, чтобы магазин (или тем более сеть) окупался. Другими словами, включение слова станица в словарь делает счастливым пользователя в 1% случаев, но несчастным в 99%. Но есть и другие примеры редких слов, которые в словаре «разумных размеров» (прости господи оксюморон какой-то) отсутствуют. Нет тут никакой разумности и словарь такой тоже создать нельзя. Именно из-за длинного тяжёлого хвоста.

  • Ответить
    Игорь Ашманов Сам себе компания

    Но перевод на личности не добавляет вашей карме абсолютно ничего. Знаете, если карму вы начисляете, то я как-нибудь переживу. А в карму в смысле индуизма, я слава Богу, не верю. Это довольно дурацкое понятие. Сегалович, кстати, в публичных дискуссиях на личности не переходит. Илюша вообще Божий человек. Я попроще и погрубее буду. Да и вы, впрочем, тоже. перечитает конец своего позапрошлого камента. Так что для данной дискуссии наш с вами тон — нормальный.

  • Ответить

    До моего позапрошлого комента, мне по доброте, довелось много чего прочитать. Но моя доброта не безгранична. :-) Еще раз хочу пожелать удачи и уважения в среде молодежи (это как заменитель кармы) и не только.

  • Ответить
    Альтер Эго

    А мне одному кажется, что Игорь Станиславович … эээ … как бы это сказать поплохел в последнее время? Раньше писал веселые остроумные каменты, а теперь превратился в какого-то хамовато-самоуверенного типа, чуть что переходящего на личности.

  • Ответить
    Игорь Ашманов Сам себе компания

    Вот, кстати, характерный пример: Берём слова «ты-таки стол-таки удивительно-таки сделать-таки удивительный-таки». Ни одно из них не будет подсвечено, как ошибочное, в спеллере в составе ФФ, и на Маке, я думаю, тоже. Просто в этом спеллере для простоты разрешены любые два правильных слова через дефис, я полагаю. Например, ошибочные составные слова «стол-стоять» «не-ну», или «недалёкая-программа» считаются правильынми — спеллер Файфокса не подсвечивает. Соответственно, пропускается масса настоящих ошибок типа «слитно-раздельно», наподобие «близко-родственный», «не-желание». А в «настоящем» спеллере часть слов из списка: ты-таки стол-таки удивительно-таки сделать-таки удивительный-таки считаются неправильными, а часть — правильными. Можете проверить в Ворде. Потому что имеются твёрдые правила правописания русского языка на сей счёт. Уж не говоря про «не-желание» и «близко-родственный» и тысяч подобных им потенциальных ошибок. Как видим, словарь этого спеллера в ФФ (тоже, наверно, на ispell основан?) в вашем смысле — сильно, на порядки «больше» словаря ОРФО. И потенциальных ошибок пропускает соответственно огромное количество. Из которых некоторые — очень вероятные. Причём эти пропуски возникают безо всякой помощи редких слов или объёма словаря в строках — просто из-за низкой точности, в результате неверного решения по генерации составных слов. А верного решения наследники лебедевского словаря (или другого такого же) принять тут, скорее всего, и не могли — потому что нет нормального маркирования и определения частей речи.

  • Ответить
    Игорь Ашманов Сам себе компания

    А мне одному кажется, что Игорь Станиславович … эээ … как бы это сказать поплохел в последнее время? Раньше писал веселые остроумные каменты, а теперь превратился в какого-то хамовато-самоуверенного типа, чуть что переходящего на личности. Может, и не одному, но что кажется — это точно. Я таким был всегда, просто вы не замечали, что ли, не знаю. Это ещё от собеседников сильно зависит, кстати. Знаете, как зритель, наблюдающий похороны, спрашивает — а отчего он умер? А ему отвечают — да вы читайте, на венках всё написано: от родных, от близких, от коллег, от одноклассников… Давайте, чисто для прикола, вы начнёте писать остроумные весёлые комментарии, а я как-нибудь подстроюсь? Я смогу, честное слово.

  • Ответить

    Да, намного больше, и потенциальных ошибок он допускает намного больше. Только ведь ключевое слово «основан» на испелл. В самом испелле этих компаундов изначально нет. И да, таки, расширяет словарь (количество слов, которые считаются правильными) и ухудшает точность проверки. По поводу длинного хвоста и среднего пользователя, тут надо немного уточнить. Вы, наверное, имеете в виду, аналогию с обычным софтом, где каждый отдельный пользователь использует 10% всех фич, но все вместе они используют 90+? Так вот мое дилетанское мнение заключается в том, что эта аналогия в данном случае не будет работать, точнее не будет работать ВСЕГДА. Речь идет о том, что даже у узкоспецилизированного пользователя потребность в этих редких словах может возникать РЕДКО. Строчит человек себе диссертацию с редкими словами, а письма друзьям и знакомым пишет каждый день, используя обычные слова. В данном случае, количество пропусков слова станица (вместо страница) может сильно превысить количество случаев, когда спеллер пожаловался на это слово. Поэтому хвост тут не очевидно длинный, и не очевидно тяжелый. При том, опять-таки, мое дилетанское мнение на тему того, почему производителям орфосистем выгоднее делать большие словари. Не могу не согласиться с тем, что ошибки страница → станица, не так уж часто случаются и в большинстве случаев пользователи их не замечают. А тот факт, что станица не узнается спеллером вызывает раздражением, которое они доносят в виде багрепортов до производителей софта. То есть, процесс разработки идет не обязательно в сторону улучшения качества коррекции, а скорее в сторону ублажения пользователя. Что производителю софта, несомненно, важнее улучшения качества на 0.1%.

  • Ответить

    Широкая эрудиция проявляется и в речи. Словарь диссертации хоть и специфический, но сравнительно небольшой. Что же касатеся словаря Лебедева, вот один из отзывов на странице аддона: ---- # не доработан Словарь совершенно не доработан! Словарь не предлагает вариантов замены слов совершенно банальных. если напишите слово «ПрЕвет», словарь выдаст два варината слов: Ревет и ПрЕЕт… Но варианта ПрИвет так и не даст! Либо слово «Мама», если его написать МамО, то вариантов адекватных вообще нет — либо Мам или Омам! Это касается почти всех слов! Моя оценка — 1! by vs888sv on March 28, 2009 ----- https://addons.mozilla.org/en-US/firefox/addon/3703 Itman, что же касается длинного хвоста и пресловутой «станицы», то давайте взглянем на результат. ОРФО был интегрирован в word, его аудитория более 40 млн. И почему-то пользователи предпочитают пользоваться именно им, а не другими чекерами. Какая аудитория у словоря Лебедева?

  • Ответить

    А что уже есть спеллеры для речи? :-) Представляю себе вариант общения: уважаемый пользователь. Я считаю, что вместо слово станица, нужно скзать слово страница. Что же касатеся словаря Лебедева, вот один из отзывов на странице аддона. Сколько же раз уже можно это повторять :-). Итак, апрельские тезисы. 1) Корректировщик на основе словаря Лебедева плох не потому, что словарь мал. 2) Корректировщик и словарь Лебедева — это разные сущности. Насколько я понимаю, в одном случае люди жалуются на ispell, во втором — на чекер мозиллы. 3) Я не говорю, что на основе мозиллы можно сделать ОЧЕНЬ хороший спеллер. 4) Из утверждения, что Орфо популярный спеллер не следует, что большой словарь всегда хорошо.

  • Ответить
    Игорь Ашманов Сам себе компания

    4) Из утверждения, что Орфо популярный спеллер не следует, что большой словарь всегда хорошо. Как я уже показал выше, а) что такое размер словаря спеллера — неясно, в связи с наличием в каждом спеллере генерирующих правил; б) если размером словаря считать общее количество потенциальных слов, генерируемых спеллером, то словарь ОРФО в сотни или в тысячи раз меньше спеллера в Мозилле.

  • Ответить
    Игорь Ашманов Сам себе компания

    И на самом деле, дело тут вообще не в мутном понятии размера словаря, а в другом. Слова, добавляемые в словарь спеллера (или генерируемые его правилами), могут быть настоящие и ненастоящие. Спеллер Мозиллы генерирует много ненастоящих слов, механически составленных из кусков. Они могут совпадать с ошибками. Именно поэтому возникают пропуски ошибок. Конечно, правила ОРФО тоже имеют косяки и временами генерируют много ненастоящих слов. Но это много — на много порядков меньше, чем у спеллера Мозиллы. Если же в словарь добавлять настоящие слова (основы) и генерировать правилами также настоящие слова, то слипания с ошибками — не будет, какого бы размера ни было это облако потенциальных слов. Так устроен язык, что новые слова при появлении сразу отползают от старых слов, чтобы не слипаться.

  • Ответить

    Может я скажу крамольную вещь, но мне как-то по-фигу на размер словаря. Важно, чтобы было удобно пользоваться. Качество словаря как продукта, в частности, определяется размером аудитории. Продвижение это важная составляющая производства продукта. Без аудитории любой проект мертв, хотя бы потому, что он бессмысленен, потому, что не обратной связи от благодарных пользователей. >1) Корректировщик на основе словаря Лебедева плох не потому, что словарь мал. Ну хоть вы не отрицаете, что словарь г-на Лебедева плох. >2) Корректировщик и словарь Лебедева — это разные сущности. Насколько я понимаю, в одном случае люди жалуются на ispell, во втором — на чекер мозиллы. Если результат предсказуемо хуже результата конкурентов и не предполагает поддержки, то зачем его вообще достигать? > 4) Из утверждения, что Орфо популярный спеллер не следует, что большой словарь всегда хорошо. Из утверждения, что Орфо популярный следует, что он хороший продукт, не лучший, не идеальный, но как минимум хороший. И что идеи и инженерные решения, заложенные в чекер (в частности, увеличение словаря устаревшими и редкими словами) позволили сделать настоящий продукт. А приведите-ка пример продукта с маленьким словарем, с теми идеями, которые вы отстаиваете в этом треде?

  • Ответить

    Все правильно, Игорь Станиславович. Я же говрю, все завист от того, как мерять. Мерять надо одинаково, если через Мозиллу мерять, то все что угодно можно получиться. Тогда уж надо словарь ОРФО пихать в Мозиллу и считать сколько он там компаундов пропустит. Компаунды, вообще, штука загадочная. И сделать их проверку на основе словаря Лебедева, наверное, не получится. Возвращаясь, к теме размера словаря, не замутняя вопрос сравнением не совсем сопостовимых сущностей, зададимся вопросом: если в некий словарь ОРФО (достаточно маленький) добавить кучу основ, ничего не удаля, улучшится ли точность распознавания ошибок или нет? :-)

  • Ответить

    ЗЫ: говорить «спеллер мозиллы» не корректно. Мозилла к нему не имеет никакого отношения. Ispell — это типичный полуфабрикат опенсорс сообщества, который может стать продуктом (если за него возьмется коммерческая компания), а может и не стать, что более вероятно.

  • Ответить

    1) Ну хоть вы не отрицаете, что словарь г-на Лебедева плох. Плох не вообще, а тем, что там нет никакой морфологии. 2) Если результат предсказуемо хуже результата конкурентов и не предполагает поддержки, то зачем его вообще достигать? Есть еще вопрос цены. 3) Из утверждения, что Орфо популярный следует, что он хороший продукт, не лучший, не идеальный, но как минимум хороший. И что идеи и инженерные решения, заложенные в чекер (в частности, увеличение словаря устаревшими и редкими словами) позволили сделать настоящий продукт. Или он встроен в Майкрософт Ворд?

  • Ответить

    ЗЫ: говорить «спеллер мозиллы» не корректно. Мозилла к нему не имеет никакого отношения. Ispell — это типичный полуфабрикат опенсорс сообщества, который может стать продуктом (если за него возьмется коммерческая компания), а может и не стать, что более вероятно. Покажите мне, где написано, что там используется Ispell? Мне казалось, что там вот эта штука: http://spellchecker.mozdev.org/ Она просто понимает формат словаря ispell

  • Ответить

    > Или он встроен в Майкрософт Ворд? Его купили для встраивания в ворд, значит он продукт, который на тот момент был наиболее привлекательным. Им пользуются, его не отключают, значит он востребован. В новых версиях ворда он тоже присутствует, соотв. есть некоторая группа поддержки, так что это коммерческий продукт. >> А приведите-ка пример продукта с маленьким словарем, с теми идеями, которые вы отстаиваете в этом треде? А на этот вопрос вы ответа не знаете?

  • Ответить
    Игорь Ашманов Сам себе компания

    если в некий словарь ОРФО (достаточно маленький) добавить кучу основ, ничего не удаля, улучшится ли точность распознавания ошибок или нет? :-) Спеллер не распознаёт ошибки. Пока вы думаете, что он ошибки распознаёт, у вас в голове путаница. Спеллер распознаёт правильные слова. Если к чисто словарному спеллеру добавить новых основ настоящих слов, то количество ложных тревог заведомо уменьшится. При этом количество пропусков ошибок может не увеличиться. Просто потому, что может оказаться, что нет таких опечаток, при которых одно правильное слово переходит в другое в новом, увеличенном словаре. То есть, количество шагов для получения слова «слон» из слова «муха» больше, чем количество замен в типовой опечатке. Тут, естественно, всё зависит от определения опечатки: если мы считаем, что опечатка может быть длиной в сколько угодно замен и перестановок символов, то тогда можно просто заменять слово «слон» словом «муха» и делать вид, что это нераспознанная опечатка. Но в среднем расстояние между настоящими словами больше, чем расстояние между словами и опечатками. Или он встроен в Майкрософт Ворд? А почему он встроен в Ворд, по-вашему? Думаете, мы в 1994 году дали откат кому-то в Редмонде? Собрали со всех разработчиков две штуки баксов и занесли по адресу One Microsfot Way. Там был довольно жёсткий тендер, в котором мы победили с большим отрывом не только от российских конкурентов, но и от поставщика двора ея императорскаго величества Микрософта (Houghton Mifflin), который уже к тому времени продал Микрософту штук тридцать спеллеров для всех языков. К тому же 1994 году ОРФО уже года три была бесспорным лидером в России. И уж за последующие 15 лет в результате тестирования на гигантской пользовательской базе и в результате довольно быстрого умирания конкурентов ОРФО сохранила первое место по качеству. Что, впрочем, не принесло богатства разработчикам и щастья компании Информатик.

  • Ответить

    А приведите-ка пример продукта с маленьким словарем, с теми идеями, которые вы отстаиваете в этом треде? Сумрак, это беспонтовая дискуссия. Почему популярность ОРФО не объясняет всех проблем, я уже объяснил почему. Я уже кажется объяснил, почему обычно словарь расширяется. Но при этом, обычно ничего не делается для ловли ошибок, которые маскируются под обычные слова. Потому что Игорь Ашманович, см выше, считает, что язык устроен так, что слова никогда не слипаются.

  • Ответить

    Спеллер не распознаёт ошибки. Пока вы думаете, что он ошибки распознаёт, у вас в голове путаница. Спеллер распознаёт правильные слова. Ну, конечно. А орфография проверяется для того, что распознать правильные слова :-) А я-то думал, что для того, чтобы исправить неправильные.

  • Ответить

    >> ЗЫ: говорить «спеллер мозиллы» не корректно. Мозилла к нему не имеет никакого отношения. Ispell — это типичный полуфабрикат опенсорс сообщества, который может стать продуктом (если за него возьмется коммерческая компания), а может и не стать, что более вероятно. > Покажите мне, где написано, что там используется Ispell? Мне казалось, что там вот эта штука: http://spellchecker.mozde­v.org/ Она просто понимает формат словаря ispell Последняя запись датирована 2003 годом: «This is the Mozilla spellchecker project, which adds spell checking ability to the Mozilla Composer and the Mozilla Mail message composition window. It uses the MySpell spell checking engine (also used in OpenOffice.org)» Да в тот момент это позициониовалось как проект (не продукт!!!) мозиллы. Поскольку больше упоминаний об этом нет, то можно считать, что в продукт это было решено не превращать, а оставить только совместимость с myspell. Внимание: запись датирована 2003 годом, огнели как продукт (первый релиз) появился только в 2004. До этого были огнептица и феникс. Так что спелчекер как продукт мозилла не выпускала. И мое замечание о корректности в силе.

  • Ответить
    Игорь Ашманов Сам себе компания

    Потому что Игорь Ашманович, см выше, считает, что язык устроен так, что слова никогда не слипаются. Надо пояснить, что такое «считает», а тут у вас слипаются два значения этого слова. В области «я считаю» есть убеждения и мнения. Убеждения — это когда вы долго думали, пробовали, что-то проверяли или делали руками. Мнение — это когда вы просто имеете точку зрения, потому что что-то прочли, слышали или только что надумали. Я так уверенно говорю, потому что считаю, что можно спорить, если у меня в данной сфере есть убеждения. Я готов их защищать, аргументы давно накоплены (для себя и коллег), я знаю по теме в 10 раз больше, чем говорю и т. п. У вас, напротив — мнение. Вы, как я понял, просто где-то прочли статью, что якобы расширение словаря приводит к появлению пропусков ошибок. И повторяете прочитанное. Всерьёз защищать вы эту точку зрения не можете, поскольку она даже не ваша личная, а просто пересказ чужого мнения, сами вы ничего не проверяли и не подсчитывали; а самолюбие не позволяет просто бросить спор. Увы, защищать мнение против убеждений — всегда дело трудное и неудобное для самолюбия.

  • Ответить
    Игорь Ашманов Сам себе компания

    Спеллер распознаёт правильные слова.// Ашманов Ну, конечно. А орфография проверяется для того, что распознать правильные слова :-) А я-то думал, что для того, чтобы исправить неправильные. А, так вы и этого простейшего обстоятельства не понимаете! Да, как ни удивительно, спеллер — это система распознавания правильных слов. А используется она для исправления ошибок. Ну вот как аппарат для проверки купюр умеет распознавать правильные купюры, а используется для поиска фальшивых. Непонятно? Если это не укладывается в голове, дальнейшие рассуждения вообще мимо кассы. Ну ладно, я думаю, вы просто не можете остановиться, а то получится непереносимый слив в споре. Расслабьтесь, я выхожу из спора, спать пора. Спокойной ночи по Москве.

  • Ответить

    > Сумрак, это беспонтовая дискуссия. Почему популярность ОРФО не объясняет всех проблем, я уже объяснил почему. Я уже кажется объяснил, почему обычно словарь расширяется. Но при этом, обычно ничего не делается для ловли ошибок, которые маскируются под обычные слова. Потому что Игорь Ашманович, см выше, считает, что язык устроен так, что слова никогда не слипаются. Хм. Но всеж, где применены те идеи, которые вы отстаиваете? Если нет продукта, которые их содержат, то возможны несколько вариантов, например, они слишком сложные, и есть более простые пути равноценного улучшения качества сервиса (что, имхо, наиболее вероятно, хотя эта тема черезвычайно далекая от моей квалификации). Мне кажется, то тут акцент делается на оценку правильности каждого слова в отдельности от окружающих. «Слипание» в таком случае просто не выловить, в принципе. «Слипание» это ближе проверки к стиля речи, чем орфографии. А про стиль речи я несколько раз уже тут спрашивал, и получил закономерный ответ: это слишком сложно (с которым, я опять же абсолютно согласен, но поскольку я не компетентен в этой сфере, хотел услышать это от человека, который потратил существенную часть жизни на спеллчекеры и добился успехов).

  • Ответить

    > Там если посмотреть внимательно: HunnSpell (не испелл) http://mxr.mozilla.org/fi­refox/source…re.in#4243­ http://hunspell.sourcefor­ge.net/ Сделан на основе MySpell. А есть еще и aspell, он тоже понимает формат словарей ispell. Про какую корректность идет речь, я малость потерялся? Какое отношение это имеет к мозилле? ЗЫ: корректность: не стоит называть продуктом мозиллы то, что к ней отношения не имеет, а просто осуществлена поддержка сторонних пакетов (не продуктов!). Мозилла — платформа, не все что можно в нее встроить, является продуктом коммерческой компании мозилла фаундатион.

  • Ответить

    Игрь Станиславович, ну как я могу продолжать спор, если мне приходится отставивать свое мнение, против Вашего УБЕЖДЕНИЯ? :-) Спокойной ночи. Сумрак, я условно назвал его мозильным, не придирайтесь к словам. Упор был на то, что это не Ispell.

  • Ответить

    > Сумрак, я условно назвал его мозильным, не придирайтесь к словам. Упор был на то, что это не Ispell. Я так и подумал, просто на всякий случай уточнил. Но суть в том, что ни ispell, ни myspell, ни hunspell не стали продуктом, а остались опенсорс проектами. Спокойной всем ночи.

  • Ответить
    Альтер Эго

    > А что уже есть спеллеры для речи? :-) Надо иметь большую смелость, чтоб дискутировать о высшей математике, не зная даже таблицы умножения. Анонимы негодуют, в общем.

  • Ответить

    >Если же в словарь добавлять настоящие слова (основы) и генерировать правилами также настоящие слова, то слипания с ошибками — >не будет, какого бы размера ни было это облако потенциальных слов. >Так устроен язык, что новые слова при появлении сразу отползают от старых слов, чтобы не слипаться. шприц — шпиц шаманов — ашманов трамблер — рамблер вторые — опечатки первых, которые будут признаны корректными при расширении словаря новыми (вторыми), очевидно правильными словами.

  • Ответить
    Игорь Ашманов Сам себе компания

    Конечно, какое -то количество таких случаев есть, просто они от расширения словаря никакх не зависят.Шпиц — не более новое, а скорее более старое слово, чем шприц, и оба всегда есть в любом словаре. Ашманов от шаманов отличается двумя ошибками, а не одной. Трамблер от Рамблера — тоже. Вообще, если вы подумаете как следует, то поймёте, что имена собственные — особый случай. Потому что имя собственное может быть любое. Например, специально созданное именно как ошибка. Мы говорили (я говорил, по крайней мере) о том, что количество таких совпадений и пропусков ошибки неизвестно, посчитать его очень трудно, скорее всего сильно меньше (на порядок или два), чем количество настоящих опечаток — и поэтому не напрягает пользователей. Пользователей напрягают ложные тревоги и необходимость обучения спеллера в своей предметной области. А поскольку пользователи очень фрагментированы, то большинство из них сидит внутри какой-то предметной области. Впрочем, это уже по второму кругу пошло.

  • Ответить
    Игорь Ашманов Сам себе компания

    А про стиль речи я несколько раз уже тут спрашивал, и получил закономерный ответ: это слишком сложно (с которым, я опять же абсолютно согласен, но поскольку я не компетентен в этой сфере, хотел услышать это от человека, который потратил существенную часть жизни на спеллчекеры и добился успехов). Это вовсе не слишком сложно. Это просто сложно. Но мы такой корректор сделали в 1992 году, развивали его до 1995 года. Он встроен в ОРФО. Как его делать, более или менее известно. Это задача гораздо менее определённая и более сложная, сделать корректор грамматики (проверка согласования именных групп, пунктуации, прочих явлений на уровне словосочетаний и фраз) и стиля (поиск стилистических ошибок, выправление просторечий и т. п.) — можно, но он всегда будет иметь люфты, гораздо большие, чем спеллер. Если бы в Информатике последние пятнадцать лет выделялись инвестиции в развитие продукта, ОРФО сейчас являла бы чудеса интеллекта. Просто после продажи Микрософту в этом не было коммерческого смысла. А Микрософт за развитие не платил. У них в Ворде 256 фич, платить за развитие именно этой нет смысла. Галочка стоит, что спеллер и тезаурус есть — ну и ладно. Сделать грамматический корректор в стиле опенсорса — вряд ли возможно. Там такой преобладающий вес имеет теория и постановка задачи, нужны такие профессиональные постановщики задачи, что когда сама подробная постановка будет, быстрее и надёжнее будет взять и запрограммировать за деньги. Но мы -то начинали с браузера в Яндексе!

  • Ответить
    Альтер Эго

    Вообщем понятно русского спелл чекера хорошего нет, и его следует ждать в течение пары лет.

  • Ответить

    >Это вовсе не слишком сложно. Это просто сложно. Но мы такой корректор сделали в 1992 году, развивали его до 1995 года. Он встроен в ОРФО. Как его делать, более или менее известно. Для проверки стиля сделана, повидимому, только основа. И возможно вам понятно как это развивать, но такого качественного результата, как при проверки орфографии я не вижу. И вот почему: если мы возьмем троешника и заставим написать сочинение в ворде, то с орфографией все будет в порядке. Правописание всех слов он исправит, но со стилем все будет так же плохо. Да, часть ошибок будет выявлена, но слишком незначительная часть. >Если бы в Информатике последние пятнадцать лет выделялись инвестиции в развитие продукта, ОРФО сейчас являла бы чудеса интеллекта. Просто после продажи Микрософту в этом не было коммерческого смысла. А Микрософт за развитие не платил. Получение финансирования это важная часть создания продукта. И, как мне кажется, это справедливо. Надо действительно убедить общество, что финансирование именно этого продукта важнее финансирования других. >Сделать грамматический корректор в стиле опенсорса — вряд ли возможно. Там такой преобладающий вес имеет теория и постановка задачи, нужны такие профессиональные постановщики задачи, что когда сама подробная постановка будет, быстрее и надёжнее будет взять и запрограммировать за деньги. Без сомнения. >Но мы -то начинали с браузера в Яндексе! Все с чего-то начинается

  • Ответить
    Альтер Эго

    В любой теме, где можно за уши притянуть лингвистику, Ашманов занимается самопиаром. Втемах где лингвистику притянуть даже за уши нельзя, Ашманов тоже найдёт чем похвалиться. Просто невероятно. Взрослый мужчина, уже почти пенсионер, не к лицу такие понты.

  • Ответить
    Комиссаров Дмитрий Владимирович Новые Облачные Технологии

    2 soomrack: >2. Совместимости с документами, подготовленными в MS Word, не может быть в принципе. Это и ввиду политики MS по >изменению стандартов от версии в версии, и ввиду того что .doc не ISO. А откуда у Вас появился это тезис? Вы пробовали делать текстовые редакторы ?

  • Ответить
    Альтер Эго

    2 Ashmanov Игорь, так это же известный факт. Мощь Вашего ПР такова — что, как только вы заходите на роем, даже без логина — всем Жадным Детям в глаза бьёт мощное зарево, а в голове звучит ваш голос, зачитывающий книгу «Продвижение Сайтов». А уж когда с логином — то вообще — на экране ничего не видно и в ушах ничего не слышно. Так что — альтер эга, не альтер эга = всё равно.

  • Ответить
    Юрий Синодов Основатель Roem.ru, sinodov.com

    Ну вот, например, был «Лексикон», совместимость у него была до самого дальнего родового колена. И что? И где он? Можно лишь всплакнуть над статьей в «Википедии»