.РФ не выдержал языка

Кампания за чистоту рядов в доменной зоне .РФ, для которой был создан список запретных наименований (который, кстати, может сильно обогатить словарный запас даже видавшего виды филолога) потерпела фиаско.

Дело как раз в ограничении, которые наложил на себя координационный центр — список запретных имен является жестко фиксированным, в результате чего практически любая матерная словоформа не ловится фильтром и допускается к регистрации.

По информации Roem.ru, между КЦ.РФ и Яндекс.рф шли разговоры о том, что поисковик может сделать фильтр нехороших и оскорбительных доменов блокируемых для регистрации, однако администраторы зоны пошли по наиболее простому и легкому для обхода пути.

Запуск .рф побил все рекорды по числу запощенных на Roem.ru текстов — их было сильно больше десятка. Почти все они опубликованы в разделе «Прочее» — мы не можем опубликовать столько текстов на похожие темы. Вы можете обсуждать волнующие вас вопросы в соответствующих топиках

Добавить 38 комментариев

  • Ответить
    Игорь Ашманов Сам себе компания

    Дело как раз в ограничении, которые наложил на себя координационный центр — список запретных имен является жестко фиксированным, в результате чего практически любая матерная словоформа не ловится фильтром и допускается к регистрации. Дело как раз не в этом. Если список КЦ не полон, то это не «ограничение», а недоделка. Но полон он быть не может. Потому что нужен не список, а автоматический генератор на основе правил и словаря. По информации Roem.ru, между КЦ.РФ и Яндекс.рф шли разговоры о том, что поисковик может сделать фильтр нехороших и оскорбительных доменов блокируемых для регистрации, однако администраторы зоны пошли по наиболее простому и легкому для обхода пути. Они сначала задали вопрос нам. Где-то летом 2009. Мы написали предложение примерно на 7 миллионов рублей. Предложение состояло в том, что нужно писать специальный модуль с кучей словоизменения, словообразования, анализа буквосочетаний и прочего. Фактически — специальный спеллинг-чекер с матерным словарём. Потом всё застряло на месяц-два. Потом Андрей Колесников позвонил мне в октябре 2009 и сказал, что есть одна очень крупная интернет-компания, которая ну просто есть синоним Рунета, но которую он назвать не может, и которая предложила сделать всё бесплатно. Ну ладно, раз бесплатно — понятно, пусть делают, сказал я, мы-то бесплатно работать не можем, там работы очень много. А потом они выкатили всё просто на базе списка. Вот тут: http://roem.ru/2010/11/12/addednews17252/?c#message78898 обсуждается, чем плох этот конкретный список, и почему списки вообще работать не могут.

  • Ответить

    > Ну ладно, раз бесплатно — понятно, пусть делают, сказал я, мы-то бесплатно работать не можем, там работы очень много. Если Вы готовы взяться за такое полезное дело, скажите мне на основании каких выводов Ваш фильтр сможет отфильтровать домен «имеем-в-задний-проход.рф», плз.

  • Ответить

    Семь лямов, я фигею! Дешевле посадить девочек и две кнопки дать. Ну и если брать деньги, а потом отказывать, то вообще круто будет. На одних идиотах, которе будут покупать МАТЕРНОЕСЛОВОНАХ.РФ можно будет заработать неплохие деньги.

  • Ответить

    Я законов не читал, но Пастернака все равно не одобряю. В смысле поскольку считаю что вся эта затея с .рф является просто чьей-то хорошей шуткой, на которую повелась куча народу, то и не обращал внимания на документацию. Но тем не менее — а откуда вообще взялась эта цензура? Там типа по .рф принят какой-то суверенный закон о том что х*й есть, а слова нету? И в чем опасность существования х*й.рф? В том что современные дети в Великой России от нехватки независимой информации читают выхлоп AXFR transfers? Ведь если некто разместит на х*й.рф порнографию, то это ничем не будет отличаться от размещения порнографии на лучшиеигрушки.рф. И это бизнес контент-фильтров и поисковиков отделить тех кто, от тех кто ни-ни.

  • Ответить
    Альтер Эго

    Там регистраторы вкусные домены хватают обеими руками и регистрят их на себя. РуЦентр зарегал на себя домен «потри.рф», а Рег.ру — «натри.рф», где «три» — местоблюститель всем известного слова из трех букв. С отечественным менталитетом — популярнейшие места в сети могут образоваться…

  • Ответить

    Ну как, сообрался координационный центр или как его там и решила, что всякой хуйни.рф не надо. Администратор домена же сам устанавливает правила. Получилось смешно, конечно.

  • Ответить
    Игорь Ашманов Сам себе компания

    Возможно, домен «х*й.РФ» ничем не опасен. Это зависит от постановки задачи. Постановка может быть такая, что в нашем .РФ матерные домены не разрешены и точка. Хотя бы из соображений «вот вы разрешили русские домены, а они такого нарегистрировали…». Но ясно, что домен наподобие «путин-жопа» в любом случае вызовет гораздо больше нареканий. И разрешён по-любому не будет.

  • Ответить

    ну да, путин-вор.рф типа намного лучше. Жопа как-то даже нейтральнее выглядит, почти любя. бандупутинаподсуд.рф тоже ничего.

  • Ответить
    Игорь Ашманов Сам себе компания

    Давать примеры того, как можно пробить фильтр — это любимая игра программистов. Я как раз и привёл примеры того, как существующий фильтр пробивается. Любой фильтр можно пробить, потому что фильтр — это железка, стоит на месте, убежать не может, а пробивают его живые люди. Но построить человеко-машинную систему, которая выдерживает атаки такого рода — можно. То есть что-то блокирует, что-то пересылает модератору, что-то помечает и откладывает в долгий ящик для рассмотрения и т. п. Что-то, естественно, пропускает — на что есть более другая процедура. Со спамом это работает. Можно и матерные и неполиткорректные домены фильтровать более-менее успешно. Была бы воля, теория и постановка задачи. А можно и не фильтровать.

  • Ответить
    Альтер Эго

    про одну компанию как раз впомнилось. У одного человека, с которым кстати Синодов вчера пил, есть вполне живое мыло с адресом доху@ya.ru Не догадались в свое время… Интересно, с РФ такое можно проделать?

  • Ответить

    > человеко-машинную систему Ну, то есть посадить модераторов.) > Была бы воля, теория и постановка задачи. А можно и не фильтровать. А Вы за любую задачу беретесь за бабосы?

  • Ответить

    На самом деле все решено и давно. Всех к стенке типа и вопросов нет. 1. Мелкое хулиганство, то есть нарушение общественного порядка, выражающее явное неуважение к обществу, сопровождающееся нецензурной бранью в общественных местах, оскорбительным приставанием к гражданам, а равно уничтожением или повреждением чужого имущества, — влечёт наложение административного штрафа в размере от пятисот до одной тысячи рублей или административный арест на срок до пятнадцати суток. (в ред. Федерального закона от 22.06.2007 N 116-ФЗ) 2. Те же действия, сопряженные с неповиновением законному требованию представителя власти либо иного лица, исполняющего обязанности по охране общественного порядка или пресекающего нарушение общественного порядка, — влекут наложение административного штрафа в размере от одной тысячи до двух тысяч пятисот рублей или административный арест на срок до пятнадцати суток.

  • Ответить

    У поговорки что строгость российских законов компенсируется необязательностью их исполнения есть продолжение: необязательность исполнения компенсируется принятием дополнительных законов. Adъ infinitum.

  • Ответить

    Ковырнул педивикию на тему — познавательно. http://ru.wikipedia.org/wiki/_ И вот еще, не читал до того, повеселило: Запорожские казаки турецкому султану! Ти, султан, чорт турецкий, i проклятого чорта брат i товарищ, самого Люцеперя секретарь. Якiй ты в чорта лыцарь, коли голою сракою ежака не вбъешь. Чорт высирае, а твое вiйско пожирае. Hе будешь ты, сукiн ты сыну, сынiв христiянських пiд собой маты, твойого вiйска мы не боiмось, землею i водою будем биться з тобою, распройоб твою мать. Вавилоньский ты кухарь, Макидоньский колесник, Iерусалимський бравирник, Александрiйський козолуп, Великого и Малого Египта свинарь, Армянська злодиюка, Татарський сагайдак, Каменецкий кат, у всего свiту i пiдсвiту блазень, самого гаспида внук и нашего хуя крюк. Свиняча ты морда, кобыляча срака, рiзницька собака, нехрещений лоб, мать твою въйоб. От так тобi запорожцi виcказали, плюгавче. Не будешь ти i свиней христiанских пасти. Теперь кончаемо, бо числа не знаемо i календаря не маемо, мiсяц у небi, год у кнызи, а день такий у нас, який i у Вас, за це поцелуй в сраку нас!.. Пiдписали: Кошевой атаман Иван Сирко Зо всiм кошем Запорожськiм

  • Ответить
    Игорь Ашманов Сам себе компания

    А Вы за любую задачу беретесь за бабосы? Нет. Не за любую. Мы не принимаем заказы на убийства, избиения журналистов, доставку суши. Вообще-то наша технологическая специализация — прикладная лингвистика. Спеллинг-чекеры, веб-фильтры, антиспам-фильтры, поисковые системы, электронные словари, виртуальные собеседники, распознавание тематики текстов, автоматическое аннотирование, классификация документов, анализ отношения к брендам и продуктам в соцмедиях и так далее. У вас есть заказ по этой теме — сделаем, если в цене сойдёмся. И то не любой — национальный поисковик мы делать не стали, хоть и за бабосы. Фильтр мата — вполне укладывается в эту парадигму. Так что заказ от Колесникова мы могли бы сделать. Хотя заработок там небольшой, там был бы смысл вообще разобраться в теме. Но не понадобилось.

  • Ответить
    Игорь Ашманов Сам себе компания

    Семь лямов, я фигею! Дешевле посадить девочек и две кнопки дать. Ну да. А что будут делать две девочки с кнопками при бешеной регистрации 250 000 доменов в день? Будут проверять три домена в секунду, до 10−12 в пике? Со скоростью АК-47, да. Для этого и нужны автоматы. Да даже если потом будет 3000−5000 доменов в день в течение нескольких месяцев? Одна будет сидеть днём с 10 до 22, а другая ночью с 22 до 10 и разбирать пять доменов в минуту? Для этого стабильного периода нужна будет смена в 8 девочек, а для пика нужно будет примерно так 400 девочек. И они, бедные, испортятся от плохих слов, придётся выбрасывать и заменять. скажите мне на основании каких выводов Ваш фильтр сможет отфильтровать домен «имеем-в-задний-проход.рф», плз. Вот это «скажите, плз» и стоит семь миллионов, камрад. А на основании каких выводов можно фильтровать почтовый спам или находить стилистические ошибки в тексте? >> Семь лямов, я фигею! … > Да, с нашей богатой фантазией и желанием обойти таки этот матерный фильтр 7 млн выглядит как сумма несерьезная. Велик и могуч… как говорится. Цифра, конечно, была условная. За какую не влом взяться за грязную работу, да ещё с большими репутационными рисками. Мы обычно рассуждаем так: ну, если за эти деньги у нас ещё и вырастет технологическая масса, появится новый движок или технологии — можно браться. Сделать настоящий, без балды, фильтр мата — в принципе сильная вещь. Ни у кого же нет. Может, надо сделать за свои, думаю я в элегические моменты. В реальности его нельзя сделать и забыть, это проект на годы. А когда Колесников сказал, что Яндекс сделает, я не поверил. Они не так устроены. Им это и незачем, и не умеют они на заказ работать. Нету таких органов в этом организме. Да и быть всероссийским мальчиком для битья неприкольно, как пробьют программисты фильтр-то. Ну вот они подумали получше и не взялись, видимо.

  • Ответить
    dima5ty гасконец

    >>> разбирать пять доменов в минуту это если девочки нерусские 1−2 (3 с обедом) секунды на домен без особой сноровки 8 девочек по 30 Кр на год = 2 880 Кр ну + 100К на двоичный фильтр, чтоб одно и то же не проверять т. е. в 2+ раза дешевле, и хрен знает во сколько раз точнее технология вроде должна снижать издержки, а не наоборот?

  • Ответить

    Девочек надо в два раза больше, ибо один домен надо давать как минимум двум девочкам и при несовпадении — эскалировать на супердевочку, ибо человеческий фактор. При этом девочки болеют, беременеют и вообще белковые компутеры ненадежны. Скорее может быть выгоден киборг — программа делает черновую работу (разбивает бандупутинаподсуд на слова, лукапит слова в словарях, проверяет словоформы и т. д., а финальное решение принимает быстро девочка).

  • Ответить
    dima5ty гасконец

    >>> эскалировать на супердевочку А в ресторане Вы вместо «цезарь с курицей» говорите «разорвать листья салата, нарезать куриную грудку, поджарить нарезанную куриную грудку, подсыпать гренок из белого свежего хлеба, уложить как в книжке, залить соусом «цезарь» и подать по готовности с ножиком и вилкой»… да? :)

  • Ответить

    Если я смотрю на ценник и понимаю что за такие деньги цезаря даже дома из отбросов не приготовишь — то да. Вернее уточняю как они собираются этого достичь.

  • Ответить
    Игорь Ашманов Сам себе компания

    8 девочек по 30 Кр на год = 2 880 Кр Ну добавьте сюда налоги, 4−5 метров офиса под задницей, амортизацию техники, прочее и получите в два раза больше, как минимум. И посчитайте не на один год (почему-то), а на несколько. Получите много-много миллионов рублей. Но вы вообще насчёт девочек фантазируете. Явно вам не приходилось строить такие технологические цепочки. Я-то строил человеко-машинные системы на очень больших потоках, в том числе фильтрующие чуть не 50% спама в Рунете, и знаю, что там есть очевидные обстоятельства: а) девочки должны работать круглосуточно. Дольше 4−5 часов одна девочка поток выдерживать не может. Значит, нужна дежурная смена минимум в 4 девочки на одном рабочем месте. б) реальная скорость принятия решения — максимум пять раз в минуту, а в действительности ещё реже. Как реальная скорость движения по шоссе Москва-Питера — не выше 60 км/час, хотя летите вы там временами под 180. Потому что поесть, заправиться, пописать, с ментом пообщаться, в пробке вдоль ремонта шоссе постоять. в) вы (видимо, сознательно) пропустили мимо ушей слова про пики. Невозможно к началу регистрации резко нанять 400 девочек, а потом так же резко их уволить через месяц. Срезать такие пики может только автоматическая технология. г) обучение и контроль девочек — тоже отдельная проблема. Тут и софта всё равно придётся написать много. Правильно пишет Перцев: система должна делать (условно) 99% работы, а к людям за решением обращаться в 1% случаев. Тогда это по деньгам и ресурсам — более или менее реально. Без девочек не обойдёшься, но нужен лингвистический движок для входной фильтрации этих 99% и подготовки материала по сложным и подозрительным случаям для принятия решения человеком. Делается этот движок понятно как. Примерно такая процедура (каскадная, с уменьшением потока на каждом этапе): 1) берётся обычный спеллинг-чекер, доводится до ума: пополняется личными именами, названиями организаций и т. п., бранные и просторечные слова выбрасываются из словаря. Если регистрируемое слово (или все слова) есть целиком в «хорошем» словаре (в любой форме) — оно пропускается без обращения к модератору. Далее работа идёт только со словами/фразами, которых не оказалось в таком «хорошем» спеллере. Это уже даст снижение потока на порядок-полтора. 2) Строится «плохой» спеллер со словарём матерных, бранных, грубых слов. Всем навешивается правильная морфология, чтоб распознавать все формы. Если регистрируемое слово есть в таком словаре — случай передаётся модератору. Все случаи передаются маркированными предположительной причиной тревоги. 3) Составляется словообразовательная машина, на нехороших корнях. Работает на суффиксах, приставках, удвоениях слов, удвоениях букв, дефисах, соединительных гласных и т. п. Работает на неизвестных пунктам 1) и 2) словах. Если находит подозрительное — к модератору. 4) Строится словарь грубых словосочетаний. С морфологией. При обнаружении тоже к модератору. 5) Строится словарь не грубых, но подозрительных слов и терминов. Если пункты 1−4 на тексте заявки не сработали, с такими словами — к модератору. 6) Что делать с остатком? В начале — тоже к модератору, а потом, через годик — пропускать, с пост-анализом. Это уже зависит от принятой политики (не пущать всё неизвестное или пропускать всё, что не запрещено). Перед запуском делается ещё тестирование и тонкая настройка движка: все словари разворачиваются в словники с синтезом всех словоформ, проверяются друг по другу, прогоняются по корпусам эталонных текстов, ложные тревоги рассматриваются лингвистами, пишутся исключения на исключения на исключения, пишется специальный хитрый модуль разбиения регистрируемого текста на слова и т. п. Девочки тоже структурируются: есть дешёвые и простые (работающие 24*7), а есть мастера над ними, которые работают с проблемами и контролируют работу по статистике личных АРМов. В общем, это большой и сложный проект, который может работать, но который имеет смысл, только если принято важное государственное решение ни в коем случае не пропустить херни.РФ. А никакие промежуточные варианты вроде того, что сейчас (возьмём список побольше) — не сработают. Здесь простого решения с приемлемым качеством нет. Либо делать хорошо, либо не уж заморачиваться (это тоже вполне себе решение). Сейчас списком запрещены вообще только именительные падежи, на минуточку. А что делать с косвенными формами? С падонкавским языком? вообще с фонетическим письмом? Ну и так далее. А пока у рунетчиков вообще есть кураж пробить систему, вот что реально можно услышать в телефоне: — Ну что там, всё регистрируешь матерные домены? — Да что-то я уже подз, а ебался слегка, не могу больше смеяться…. … стой, стой! подз, а ебался.РФ свободен, регистрирую!!!

  • Ответить
    dima5ty гасконец

    >>> Ну добавьте сюда налоги, 4−5 метров офиса под задницей, >>> амортизацию техники, прочее и получите в два раза больше, как минимум. Вот я удивляюсь что Вам, что Перцеву. *повтор_текста_про_салат* Вы предлагаете отличное красивое правильное дорогое решение, но для данной конкретной задачи оно не нужно и слишком дорого. 90% мусора убирается просто, остальные 10 тупо не окупятся. Разработать самостоятельно и лицензировать за нормальную цену — круто, решать свои хотелки за чужие деньги — на любителя. Текущий вариант, конечно же, не нанотехнологичен, спору нет.

  • Ответить
    Игорь Ашманов Сам себе компания

    Вы предлагаете отличное красивое правильное дорогое решение, но для данной конкретной задачи оно не нужно и слишком дорого. Я думаю, что вы просто не можете оценить задачу. Опыта нет, что видно из неверных оценок и расчётов выше. а) задача сама по себе очень сложная; б) её либо нужно решать, либо нет — это требует политического решения по мало известным нам политическим основаниям; в) решения на 90% не существует и оно не имеет смысла. То, что мы видим сейчас — это решение на 10%. г) слово «окупится» здесь также не имеет смысла — смотри пункт б). Я решения не предлагаю, тем более на Роеме. Выбор уже был сделан и все ошибки уже произошли. Я просто отвечаю на вопрос, как оно могло бы быть сделано.

  • Ответить

    Текущий вариант просто ничего не решает, кроме проблемы генерации лулзов, которую любая советская госконтора решает и так, причем постоянно и без всяких доменов .рф Есть хорошая русская.рф поговорка.рф: не можешь срать.рф — не мучай жопу.рф. Вот оно и есть — решение приняли, чтобы начальствию понравиться, ибо воцарится в домене .рф благонравие и растворение воздухов. А когда дошло дело до реализации просто составили «список плохих слов»™ Я предлагаю ФСБ и МВД упразднить, а борьбу с правонарушениями организовать методом составления «списка плохих людей»™ Что-то мне подсказывает, кстати, что список плохих слов был очень небесплатен. И стоил как раз в районе тех же семи миллионов. Наверное чуть дешевле, чтобы продемонстрировать эффективность расходования средств.

  • Ответить
    Игорь Ашманов Сам себе компания

    Список плохих людей — это хорошая, годная идея. На 90% сработает, а на остальное уже девочек с кнопками посадим. Начинаем: 1. Кирилл Перцев. (сущ. муж.). Тж. Кика, kikap. Ненавистник Родины. Внутренний эмигрант. Либерал. Класс интеллектуальности текстов — 8 по 12-бальной шкале. См. также [u]быдло [/u], [u]надо ехать [/u], [u]эта страна [/u]. 2.? Я думаю, что список они получили более или менее бесплатно, в последний момент, как всегда.

  • Ответить

    > В общем, это большой и сложный проект, который может работать, но который имеет смысл, только если принято важное государственное решение ни в коем случае не пропустить херни.РФ. Я же Вам предложил выше, просто-напросто применять существующий закон против тех кто ругается.рф. Дешевле, честнее и главное меньше букаф. Что касается Вашей мегасистемы, то это походу еще один лулз в копилку .рф. Пешите есчо.)

  • Ответить

    Что касается элегических моментов, у меня к вам деловое предложение. Приспособьте свой спелчекер для проверки постов на форумы, отзывы и пр. Типа чтоб около каждой кнопки «отправить» в рунете, стояло что-то типа: «Этот сайт принимает посты только на чистом русском языке. Проверяет сам доктор Ашманов.» Вдруг, например, Синодов примет важное политическое решение и захочет принимать посты на чистом русском языке? Типа без падокафских и прочих извращений. А вдруг Синодов окажется неодинок в своих устремлениях? В этом случае Вы получите бабосов которые так хотели, а люди какбэ более чистый русский язык. Типа все в плюсе. Ну как? Принимается?

  • Ответить
    Игорь Ашманов Сам себе компания

    В этом случае Вы получите бабосов которые так хотели, а люди какбэ более чистый русский язык. Типа все в плюсе. Ну как? Принимается? Вот речь не мальчика, но мужа. Насчёт бабосов — у нас оборот около 40−50 миллионов в месяц. Так что семь миллионов за 3−4 месяца работы — был бы более-менее крупный заказ, но не критический. А риски лулзов, как мы видим — высокие. Насчёт проверки форумов и прочего: мы купили обратно компанию Информатик. Они сейчас расчищают завалы, выпустили свежую версию ОРФО 2010, начали её продавать. Далее в планах спеллер под Мас и Open Office. Планы сделать библиотеки проверки правописания для браузеров, а также серверное решение для сайтов — есть. Где-то на зиму 2011. Другое дело, что на этих вещах не заработаешь, это чисто для брендинга.

  • Ответить
    Игорь Ашманов Сам себе компания

    Я же Вам предложил выше, просто-напросто применять существующий закон против тех кто ругается.рф. Дешевле, честнее и главное меньше букаф. Это вы Колесникову предлагайте. Я-то какое отношение к закону имею?

  • Ответить

    > Где-то на зиму 2011 У 2011 две зимы, товарищ. :) Но это ничего, я проверю два раза. Кароче, работаем хорошо, спасибо говорить не забываем. Я пошел за кефиром. Всем привет!

  • Ответить

    Если уж мы тут обсуждаем тему по существу, то забыт очень важный фактор: заявки на .РФ — они не анонимны. В хорошем случае пользователь хорошо авторизован (с проверкой паспортных данных), в нехорошем — паспортные данные ввел, но их никто не проверил. Соответственно, у каждого запроса на регистрацию лулзов — есть история. Такие-то запросы от этого пользователя уже были, 95% из них — политические, еще 45% - матерные, бригада уже выехала…. Ну и пимпу «недоступен» из интерфейса проверки убрать, чтобы недоступность была понятна только после подачи заявки. И, не поверите, как рукой снимет. Даже если не бригаду высылать, а просто на холд ставить на полдня

  • Ответить

    Стоп-лист создан практически бесплатно: dolboeb: Толковый словарь зоны РФ спасибо за подсказку Роману Лейбову, обнаружившему первоисточник списка… … создан из электронного Словаря русских матерных слов, где выражения из стоп-листа не только собраны в одном месте, но ещё и популярно растолковываются для непонятливых.

  • Ответить
    Игорь Ашманов Сам себе компания

    Я думаю, это не тот список. Не первоисточник. Носик и Лейбов просто вцепились в первый похожий объект в сети, не потрудившись как следует сравнить. Список Лейбова вот с этим: http://bunnywrote.trp2.ru/stop-list.txt который уже давался на Роеме, сильно не совпадает. Можно легко показать, какие слова есть в «списке КЦ» и отсутствуют в «списке Лейбова», и наоборот, просто неохота сюда эту грязь тащить. Скорее всего, и тот, и другой список — порождения какого-то родительского словаря. То есть родитель у них общий, но дети сами разные. Причём список КЦ довольно сильно проработан вручную и регулярными скриптами: проредили больше половины записей, удалены обычные словосочетания, толкования. То есть работы сделано много. К тому же добавлено расширение .рф и буквенно-цифровые значения самих доменов. Уже поэтому «список КЦ» кажется более аутентичным. Думаю, всё-таки брался упомянутый словарь Плуцера и обрабатывался. А может, и другие источники доливались. Сам по себе получившийся словарь — явно идиотский, нелепый, неполный и во множестве содержащий заведомо искусственные образования.

  • Ответить

    Ashmanov: Планы сделать библиотеки проверки правописания для браузеров, а также серверное решение для сайтов — есть. Где-то на зиму 2011. Другое дело, что на этих вещах не заработаешь, это чисто для брендинга. Доступ к API многие продают. Тот же Yahoo! будет продавать свой BOSS: [URL=http://www.ysearchblog.com/2010/10/08/bossv2/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed+YahooSearchBlog+Yahoo!+Search+Blog]Coming Soon — Yahoo! Search BOSS V2: A Paid Service with Web, Images, and News[/URL] [URL=http://developer.yahoo.com/search/boss/boss_guide/Spelling_Suggest.html]Chapter 6. Spelling Suggestions[/URL] Вообще, на бету вашего продукта я заранее подписываюсь. :) Несколько миллионов запросов в сутки получите, для стресс теста.

  • Ответить
    Альтер Эго

    Интересно, а ни у кого не возникает мысли, что этот список в т. ч. используется как инструмент продвижения доменной зоны массам? Если посмотреть на то, что делегирована примерно четверть доменов .рф можно предположить, что многие из них регистрировали просто ради регистрации или на будущее. Вспоминаем ситуацию с кирилическими доменами .ru — насколько это стало популярно? Не особо, больше глума, нежели прибыли. В то время как с .рф картина другая.

  • Ответить

    Вы, RSivakov, что-то путаете — «кирилических доменов .ru» не существует в природе. В 2008 году КЦ решил не вводить IDN в зоне .RU Кириллические домены бывают лишь в зонах .SU .COM .NET .NAME .TEL .CC .TV