Периодически пользователи одних провайдеров сети в последние дни не могут получить доступа к сайтам, размещенным у других провайдеров. На графике трафика через кольцо MSK-IX эти моменты выглядят как провалы, возникающие, последнее время, несколько раз за день:
Для юзеров это проявляется как невозможность достучаться до части сайтов, хотя остальные работают нормально.
Добавить 5 комментариев
Памоиму, это суточные колебания, нет?
Суточные колебания тут есть. А внутри суточных колебаний — провалы.
Письмо разосланное службой Рт-Комма Уважаемый абонент! Предоставляем Вам официальное уведомление полученное от MSK-IX: «Уважаемые коллеги, к сожалению проблема зафиксирована повторно в 18.00MSK и оперативно блокирована технической службой MSK-IX. Помимо аппаратной проблемы мы к сожалению столкнулись с программной ошибкой (port-security) на коммутаторе на M9. В данный момент нарушитель полностью отключен и проводится дополнительное исследование проблемы с механизмом защиты MSK-IX.» Обращаем Ваше внимание на то, что во время всех сегодняшних аварий BGP сессии Stack Telecom на MSK-IX не прерывались, деградация качества предоставляемой услуги вызвана падением BGP-пиров у других операторов подключенных к MSK-IX.
У провайдера ЮТК, в Краснодарском крае, последние два месяца регулярно отваливаются Яндекс.Картинки и Яндекс.Видео. Причём, по внутренним ссылкам переходы возможны. А главные не отвечают иногда сутками.
Вот такой ответ получают все Российские операторы подключенные на MSK-IX: Уважаемые участники, еще раз повторно от лица нашей технической службы хочу принести извинения участникам за сложившуюся ситуацию. Готовы предоставить более детальную техническую информацию: Техническая служба MSK-IX ежедневно предпринимает целый ряд действий для сохранения стабильности работы сети и повышения качества обслуживания. В качестве ядра сети сейчас используется оборудование двух производителей Force10 (Exascale 1200i) и Cisco (6509). Применяется комплекс мер по защите сети от внешних воздействий. У нас действительно собрана техническая лаборатория именно для проверки всех наших решений и несмотря на высокую стоимость оборудования в ней (в случае Force10) мы проводим все предварительные испытании ПО. К сожалению разные вендоры и разное оборудование поддерживают отличающийся набор функционала и мы стараемся обеспечить их полную совместимость. Часть функций содержит ряд недостатков, которые мы пытаемся разрешить. В частности, мы уже несколько лет бьёмся с Cisco по серьезной проблеме с port-security (BugID: CSCsw28972), которая время от времени всплывает в разных местах сети. Эта проблема многократно оттестирована как нами в лаборатории, так и нашей службой поддержки Cisco. К сожалению уже около 10 версий ПО (включая специализированные) за последние годы не смогли решить эту проблему. Именно из-за отсутствия поддержки функционала port-security мы в настоящий момент не подключаем участников по технологии Etherchannel на 1Gbps. Ситуация в сети существенно улучшилась с появлением оборудования Force10. Мы планируем расширять его использование на сети, что позволит предоставлять Etherchannel на 1Gbps и блокировать несанкционированный трафик. Что касается текущей ситуации, то по предварительной оценке мы наблюдаем следующее — при перестроении топологии Spanning Tree (что может быть вызвано разными причинами, как то — обрыв линий связи, проведением работ, подключением новых линий и нового оборудования) происходит кратковременный всплеск трафика, который разливается по портам некоторых участников. По имеющимся у нас данным — оборудование некоторых производителей, расположенное у участников работает «размножителем» подобного трафика, что приводит к усилению проблем на нашей сети. Безусловно мы используем механизмы блокировки ‘unknown’ трафика в сторону портов участников, но этот функционал поддерживается не всем оборудованием и не всеми производителями. В частности в результате детального анализа имевших место проблем было обнаружено, что на Force10 нужно дополнительно применять ACL для блокировки «стороннего» трафика, и мы согласовали параметры ACL и после тестирования в лаборатории применили на портах участников. ACL на Force10 применены в обоих направлениях для всех клиентских портов. Это дает нам уверенность в дальнейшей стабильной работе IXа и мы надеемся, что всплески трафика, приводящих к проблемам на IXе повторяться не будут. Нами были изменены настройки портов, где подключены публичные сервисы MSK-IX (Route Servers) с целью исключения потери доступа к ним со стороны участников по вине сбоев ПО коммутаторов. Дополнительно будем проводить административно-технические мероприятия по работе с нарушителями ТУ MSK-IX и более настоятельно требовать их соблюдения всеми без исключения участниками. Будем готовы выслушать Ваши предложения и пожелания по улучшению работы MSK-IX. Готовы встретиться со всеми заинтересованными участниками и прояснить ситуацию в формальной и неформальной обстановке. ;-) Пожалуйста направляйте Ваши пожелания и комментарии в адрес нашей технической службы: MSK-IX-NOC С уважением, — Техническая служба MSK-IX