Бегтин сделал сервис оценки читаемости текстов (тестируем на Roem, ЦП, ЦБ, Ведомостях)

Иван Бегтин объявил в своем Facebook о запуске ru.readability.io — интегративного веб-сервиса для оценки читаемости текстов.

Оценка рассчитывается по нескольким формулам:

Все формулы адаптированы под русский язык. Никакого хитрого AI и т. п. в методиках нет, используются довольно простые формулы оценки длины предложений, кол-ва слов и слогов в них, «сложности» слов.

Сервису можно «скормить» URL или непосредственно текст.

Для тестов (и ради лулзов) скормим тесту три последних текста из раздела «Редакционное» c Roem.ru, и три последних текста с «ЦП».

Roem:

«ЦП»:

Вывод очевиден: если кому-то тяжело читать Roem — их ждут на «ЦП».

Но шутки в сторону!

Все, кто проходит мимо обменников по пути к метро или знаком с новостной повесткой дня, знает, что в России идет девальвация национальной валюты. Довольно болезненной на этом фоне оказалась новость о том, что российский Минфин будет играть против рубля и в течение нескольких ближайших месяцев (~60 рабочих дней) будет покупать на открытом внутреннем рынке по ~$100M в день.

Оценим текст, рассказывающий об этой новости в формулировке «ЦБ»:

Банк России с 19 февраля 2014 года в соответствии с действующим порядком (Информация «Об операциях Банка России на внутреннем валютном рынке» от 1 октября 2013 года) будет проводить операции на внутреннем валютном рынке с учетом планируемого Министерством финансов Российской Федерации и Федеральным казначейством перечисления в Резервный фонд по итогам 2013 года средств в иностранных валютах в объеме, эквивалентном 212,2 миллиарда рублей. Конверсия данной суммы будет производиться равномерно до конца мая 2014 года путем покупок у Банка России иностранных валют в объеме, эквивалентном 3,5 миллиарда рублей в день.

— уровень читаемости: 18.8; аудитория: Аспирантура, второе высшее образование, phD

А теперь вся та же информация, но в более милосердных к читателю «Ведомостях»:

Минфин России и Федеральное казначейство 20 февраля приступают к проведению операций по покупке иностранной валюты на внутреннем валютном рынке для перечисления в Резервный фонд дополнительных нефтегазовых доходов за 2013 г.

Как сообщил журналистам замминистра финансов Алексей Моисеев, в период до конца мая ежедневно у ЦБ будет приобретаться валюта в объеме, эквивалентном 3,5 млрд руб. в день. В сумме Минфин приобретет валюту на 212,2 млрд руб.

— уровень читаемости: 11.75; аудитория: 1−3 курсы ВУЗа (возраст примерно: 17−19 лет)

Выводы по результатам второй части эксперимента читателю придется сделать самому.

Лучшие комментарии

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    Спасибо что написали, я прокомментирую со своей стороны. Я надеюсь что сервис будет полезен для всех кто пишет тексты на русском языке, но сразу предупрежу что одних формул недостаточно. Все те способы проверки читаемости текстов что здесь были реализованы — это портированные формулы проверки читаемости для английских текстов. Они основаны на длине предложений, числе слогов в словах, числе предложений на текст, числе сложных слов и многих других критериях которые никак не затрагивают смысл текста. Поэтому такая проверка даёт лишь базовое приближение. Она редко ошибается на сложных текстах, но может дать осечку на тексте написанном простым языком об очень сложных вещах. Главная часть сервиса — API, сам сервис работает на нем же. Оно полностью открыто и позволяет проверять неограниченное количество текстов автоматически. Ну, а в качестве послесловия посмотрите что по понятному языку делает американское правительство — http://www.plainlanguage.gov/

Добавить 6 комментариев

  • Ответить
    Иван Бегтин АНО "Информационная Культура"

    Спасибо что написали, я прокомментирую со своей стороны. Я надеюсь что сервис будет полезен для всех кто пишет тексты на русском языке, но сразу предупрежу что одних формул недостаточно. Все те способы проверки читаемости текстов что здесь были реализованы — это портированные формулы проверки читаемости для английских текстов. Они основаны на длине предложений, числе слогов в словах, числе предложений на текст, числе сложных слов и многих других критериях которые никак не затрагивают смысл текста. Поэтому такая проверка даёт лишь базовое приближение. Она редко ошибается на сложных текстах, но может дать осечку на тексте написанном простым языком об очень сложных вещах. Главная часть сервиса — API, сам сервис работает на нем же. Оно полностью открыто и позволяет проверять неограниченное количество текстов автоматически. Ну, а в качестве послесловия посмотрите что по понятному языку делает американское правительство — http://www.plainlanguage.gov/

  • Ответить

    Оценил этот пост (без цитат): Данный текст имеет уровень читаемости: 9.15 Аудитория: 7 — 9-й класс (возраст примерно: 12−14 лет) Пошло бы на ЦП!

  • Ответить

    Кстати, к теме «Минкомсвязь «учит» айтишников получать льготы на Хабре» http://roem.ru/2014/02/14/minhabra92532/ Если пробить текст на Хабре http://habrahabr.ru/special/minsvyaz/ то получится вот что: Данный текст имеет уровень читаемости: 22.69 Аудитория: Аспирантура, второе высшее образование, phD :)