Парсеры русского языка: тайное станет явным.

Приближается окончание соревнования синтаксических анализаторов русского языка. Среди прочих собирались участвовать ЭТАП-3, АОТ, ABBYY, Яндекс, Dictum.

Это первое в России соревнование такого рода. Можно будет увидеть, как соотносятся результаты работы систем, о которых много писалось, но которые мало кто видел живьем.

Возможно, в результате соревнования появится корпус синтаксически размеченных предложений. Для русского языка это большая редкость.

Объявление о конкурсе

Форум

Добавить 37 комментариев

  • Ответить

    Возможно, в результате соревнования появится корпус синтаксически размеченных предложений Вопрос от тех, кто не в теме: что такое «корпус синтаксически размеченных предложений русского языка», в чём он может пригодиться, и какая в нём тайна хранится?

  • Ответить
    Игорь Ашманов Сам себе компания

    что такое «корпус синтаксически размеченных предложений русского языка», в чём он может пригодиться, и какая в нём тайна хранится? Размеченные корпуса (морфологически, грамматически, синтаксически, тематически …) нужны для того, чтобы тестировать на них программы, делающие разметку этого типа. Эталонное множество, как в любых системах распознавания. Иными словами, синтаксически размеченные корпуса нужны, чтобы отлаживать синтаксические парсеры, которые могут синтаксически разметить корпуса. Китаец Ли Ван поступил в школу, где обучали искусству убивать драконов. Он проучился семь долгих лет и освоил это искусство в совершенстве. После этого он отправился путешествовать по Поднебесной, ища случая применить своё отточенное искусство. Но за три года странствий случая ему так и не представилось. Тогда он открыл свою школу и стал учить искусству убивать драконов.

  • Ответить
    Альтер Эго

    Смех смехом, но недалеко от истины Один мудрый чувак вмного лет пытался заниматься бизнесом от продажи сыра до установки стеклопакетов и у него ничего не получалось. Все бизнесы разорялись. В итоге он создал школу «как заработать деньги и стать успешным бизнесменом» и на этой школе зарабатывает деньги.

  • Ответить
    Альтер Эго

    А мне интересно кто лучше Яндекс или Абби или еще кто сможет провести лучше синтаксический разбор и разметку частей речи. Это важная задача и используется как вход для многих других задач (исправление ошибок, поиск синонимов)

  • Ответить
    Альтер Эго

    Я тут Альтерэга, а в миру я — известный начальник большой интернет поисковой компании. Живу в Центре Москвы, большая квартира.

  • Ответить
    Альтер Эго

    Все равно синтаксический парсер круче. Эээх, программист, ты слишком мелко плавал! Я тебя успела позабыть! Мне теперь по нраву syntax parser. Лишь его хочу любить!

  • Ответить
    Альтер Эго

    Интересно мнение Ашманова, который всячески открещивался от РОМИПа, но его Диктум принимает участие в Диалоге? Или РОМИП и Диалог это две большие разницы?

  • Ответить

    > В итоге он создал школу «как заработать деньги и стать успешным бизнесменом» и на этой школе зарабатывает деньги. Будете смеяться, еще и реальную пользу людям приносит.

  • Ответить
    Игорь Ашманов Сам себе компания

    Пианист, а откуда у тебя синтаксический парсер? ;) Вопрос, как мы можем легко видеть, с подмигиванием. И даже понятно, кто, кому и почему подмигивает.

  • Ответить
    Игорь Ашманов Сам себе компания

    Интересно мнение Ашманова, который всячески открещивался от РОМИПа, но его Диктум принимает участие в Диалоге? Или РОМИП и Диалог это две большие разницы? Мы обсуждали якобы пользу РОМИПа для тестирования и маркетинга готовых продуктов в области поиска или извлечения мнений. В той дискуссии так и не привели убедительных аргументов, чем это полезно. Кроме «да от РОМИПа продажи станут на 78% шелковистее!», «да можно нарушить правила и говорить всем клиентам на ухо, что ты чемпион!», «да тебя пацаны не будут уважать, если тебя нет в РОМИПе!». Здесь же речь идёт не о готовых продуктах. Ибо синтаксический движок — это не продукт. Нельзя продать синтаксический парсер более одного-двух-трёх раз, потенциальных покупателей примерно столько же, сколько разработчиков, и они обычно не покупают, а сами разрабатывают. Сравнивать движки и использовать размеченный синтаксический корпус — вероятно, полезно. Особенно, если это не анонимное сравнение, как в РОМИПе, а публичное, с называнием участников и результатов. Ну и прогнать тестовые тексты готовым движком, без настройки — невелика беда. Я, впрочем не вчитывался в условия, потому что Диктум может сам решать такие вопросы.

  • Ответить
    Альтер Эго

    > а в миру я — известный начальник большой интернет поисковой компании. Живу в Центре Москвы, большая квартира. О ужас, неужели Империи Добра? Но, раз уж тут пошла такая пьянка, позволю себе заметить, что, если вспоминать знакомых девушек, я тоже однозначно за ABBYY

  • Ответить

    Мы обсуждали якобы пользу РОМИПа для тестирования и маркетинга готовых продуктов в области поиска или извлечения мнений. В той дискуссии так и не привели убедительных аргументов, чем это полезно. Кроме «да от РОМИПа продажи станут на 78% шелковистее!», «да можно нарушить правила и говорить всем клиентам на ухо, что ты чемпион!», «да тебя пацаны не будут уважать, если тебя нет в РОМИПе!». Мы обсуждали совсем другое. Вы неоднократно заявили о том, что лучше всех умеете определять тональность, попутав аудитории. Такие не убедительные заявления можно клиентам делать, а не на Роеме, который читают в том числе и люди «в теме». Поэтому вам и было предложено показать свою определялку на РОМИПе, но вы уныло съехали. И, кстати, напрасно — там по слухам уже около двадцати участников набралось, наверняка будет интересная дорожка. И зря вы привязываетесь к анонимности, на РОМИПе давно её нет, де-факто. Если посмотреть все статьи семинара по дорожке, то все участники публикуют общие таблицы результатов, указывая на свои прогоны. Из этих публикаций имена авторов каждого прогона восстанавливаются полностью. Вместо анонимности используется подход «мы тестировали не боевой алгоритм, а экспериментальный, проверяя какие-то новые идеи».

  • Ответить
    Игорь Ашманов Сам себе компания

    Мы обсуждали совсем другое. Вы неоднократно заявили о том, что лучше всех умеете определять тональность, попутав аудитории. Нет, Гудман, это вы уныло врёте. Я не заявлял «неоднократно», что «у нас определялка лучше». Это вам от общей злости и самомнения почудилось. Идите тред почитайте. Да, разговор был про другое. А именно: ребята из Ингейта, которые НЕ делают определения тональности и считают его мошенничеством, чтоб доказать, какая они крутая технологическая компания, рассказывали про стрёмные результаты (1 из двух или даже 2 из двух, не помню) своей технологии (в реальности взятой с АОТа) на какой-то другой дорожке на РОМИПе. Я же говорил о том, откуда на рынке мониторинга социальных медиа берутся игроки, как они приходят со стороны агентств и продают клиентам слайды Пауэрпойнта, потому что технологии у них нет и не было никогда. И о том, что анонимные дорожки РОМИПа не особенно-то полезны ни для пиара, ни для тестирования. Особенно в ситуации возникновения нового рынка прямо под руками. Обсуждать здесь серьёзные вопросы возникновения новой отрасли — не с кем особенно-то. Либо унылые айтишники-болтуны не в теме, либо умозрительные эксперты. Местные «эксперты» не смогли ответить на относительно простой вопрос, каковы конкретные пороги реального использования систем определения тональности по полноте и точности. Сразу съехали на «…ну всё относительно, с одной стороны нельзя не признать…" А вы сейчас только что в точности повторили аргументы, приведённые мною постом выше: — Да правила РОМИПа можно нарушать и всем рассказывать, что ты чемпион… - Да мы тут конкретные понтовые поцоны и не уважаем тех, кто не в РОМИПе… Самому-то не смешно? Ведь дословно повторили. Ну и уважайте себя и свой спектральный метод. На здоровье. Встречайтесь в своём клубе, обкашливайте общенаучные вопросы. Вы же учёный, ёпрст. Мне ваше уважение как-то очень умеренно интересно — я вас лично не знаю, достижения ваши мне неизвестны, а доказать свой личный калибр в этих обсуждениях на Роеме вы не можете — всё больше личные обиды, наезды и попытки вставать на цыпочки. А я буду пока тем временем уважать реальную функциональность боевых систем и реальных игроков нового рынка.

  • Ответить

    Ashmanov > Да правила РОМИПа можно нарушать и всем рассказывать, что ты чемпион Справедливости ради надо признать, что наивное ингейтовское пиписькомерянье — скорее исключение, чем правило. Большинство участников все же никогда не называет себя чемпионами, насколько мне известно. > Обсуждать здесь серьёзные вопросы возникновения новой отрасли — не с кем особенно-то. Либо унылые айтишники-болтуны не в теме, либо умозрительные эксперты. Эх, Игорь Станиславович, Игорь Станиславович…

  • Ответить

    Нет, Гудман, это вы уныло врёте. Я не заявлял «неоднократно», что «у нас определялка лучше». Это вам от общей злости и самомнения почудилось. Идите тред почитайте. Да ладно, откуда у меня злость? Я просто прикалываюсь. По-доброму, кстати. И вы опять заявили, что у вас определялка лучше, т.к. у вас есть технология, а у других: технологии у них нет и не было никогда. Конечно у них не было, куча заявок на текущую дорожку по сентименту именно об этом и говорит. Если бы технологии у них были, они бы не заявлялись на РОМИП, а поплевывали как бы свысока, как вы. А вы сейчас только что в точности повторили аргументы, приведённые мною постом выше: — Да правила РОМИПа можно нарушать и всем рассказывать, что ты чемпион… - Да мы тут конкретные понтовые поцоны и не уважаем тех, кто не в РОМИПе… На РОМИПе нет соревнования за лучший результат, там цели другие. Откуда тогда взяться чемпионам? А конкретные пацаны следят тут за тем, чтобы комерсы фильтровали свой базар, эта да. доказать свой личный калибр в этих обсуждениях на Роеме вы не можете — всё больше личные обиды, наезды и попытки вставать на цыпочки. У меня нет меркантильных интересов вообще, а в IT тем более. Потому и калибр высовывать не интересно ни разу.

  • Ответить

    Пианист, а откуда у тебя синтаксический парсер? ;) Охотно расскажу. Есть новая разработка у нас — лингвистическая система centauri, частью которой является текстовый парсер. Задумка была следующая, сделать адекватный парсер плохо оформленных текстов буквами без потерь. Без потерь — это значит, что пунктуация не теряется. Плохо оформленные тексты — это тексты понятно какие: блоги, каменты и пр. В числе прочего, мы большое внимание уделили разбору и парсингу слов с дефисами, составили словари соответствующие. Например, мы отличаем «кто-то», «15-ть» и «лето-это». Ещё отличаем случай «мэйл.ру» и «хорошо.потом». Разумеется, это всё делалось майнингом по интернетам примеров и ручной фильтрации. Для английского языка работу с апострофами. Для всех языков — работа со смайликами и скобками. Тексты с цитатами на языках программирования распознавать не успели, но урлы и пути типа «C:Program filesMy Super Program» отлавливать умели. Плохо то, что работа в этом направлении пока временно заморожена, так как необходимости большой в точности не было. Но конкурс парсеров — это хороший был бы повод допилить точность разбора за срок 1−2 месяца до очень высокого. Очень надеюсь, что что-то ещё появится в будущем, рунету очень не хватает подобных мероприятий.

  • Ответить

    Очень надеюсь, что что-то ещё появится в будущем, рунету очень не хватает подобных мероприятий. Чтобы оно продолжилось, лучше всего съездить на Диалог и убедить всех нынешних участников повторить. Иначе хз.

  • Ответить
    Игорь Ашманов Сам себе компания

    Да ладно, откуда у меня злость? Я просто прикалываюсь. По-доброму, кстати. Ну ладно, извините, вчера раздражился. Не люблю, когда мне приписывают то, чего я не говорил. Я не говорил, что у нас движок лучше — потому что ни с кем не сравнивал. И вы опять заявили, что у вас определялка лучше, т.к. у вас есть технология, а у других Ещё раз повторю: мы говорим о разных других. Есть продукты, которые предлагаются на рынке. В основном это продукция рекламных и пиарных агентств, которые увидели спрос от своих клиентов на мониторинг социальных медий. Они быстро настрогали слайдов в РowerPoint, которые и стали продавать клиентам. Конечно, они наняли и пару-тройку разработчиков, но управлять они программистами не умеют, технологии эти не самые дешёвые по ресурсам и срокам, так что продукт так и существует в виде слайдов на вебе и в РР. А когда клиент реально покупает — приходится делать руками поверх ППБЯ (или что-то делать программно, а потом добивать руками). Разговоры там такие: ну, мы определяем пока 30-50 комментов из 1000. Если полнота такая — что уж говорить про точность. Возможно, сейчас те, кто продаёт слайды, будут как подложку использовать ингейтовских Бабок, чтоб как-то сократить ручную работу. Это было бы логично. Ещё из примечательных разговоров «конкурентов» на конференциях: «настоящее определение тональности сделать нельзя, потому что, например, компания «Перекрёсток» путается с обычным перекрёстком, и это неразрешимая проблема». Прямо в докладе несут такую пургу. Это не Ингейт, заметим. На Западе есть уже довольно развитые продукты, типа Radian6, с очень развесистой функциональностью. Мы пытались их тестировать с помошью их демо, где можно — с движками sentiment analysis там плохо. Настолько плохо, что даже удивление берёт. И это с английским языком, который довольно прост и для них — родной. Зато всё очень хорошо с полнотой, фидами из соцсетей, с инфографикой, с историей, аудитом, прочим. Картинки отличные. Это они могут. Почти всем им продаёт движок SA одна и та же компания, кому с упоминанием копирайта, а кому и white label. Видимо, у нас ещё есть слой не очень рыночных команд, у которых не очень хорошо с деньгами и обычным маркетингом и пиаром, но которые давно встроены в GR, что-то там продают спецслужбам, госорганам, «заходят в Минсвязи» и в МВД. Допускаю, что они и соревнуются на РОМИПе, не знаю. Если бы это было публичное соревнование, мы бы хотя бы посмотрели, кто там. Более того, с синтаксисом, который просто работает с любым русским или английским текстом — не жалко. Если участие ничего не стоит — можно и участвовать. Если надо отрывать людей, настраиваться — даже дня рабочего времени жалко. Собственно разговор о возникающей на наших глазах отрасли был бы интересен, если бы участники разговаривали о том, кто клиенты, какая функциональность нужна, зачем, что является критериями качества, какие параметры клиента, почему, что и сколько стоит, каково состояние науки и технологии на настоящий момент. Я, что знаю, рассказал, причём не раз. В ответ можно услышать ворчание, обиды, «а ты кто такой!» — но ничего содержательного. Возникают разные очевидные мысли, почему это так.

  • Ответить
    Игорь Ашманов Сам себе компания

    > Обсуждать здесь серьёзные вопросы возникновения новой отрасли — не с кем особенно-то. Либо унылые айтишники-болтуны не в теме, либо умозрительные эксперты. //Ашманов. Эх, Игорь Станиславович, Игорь Станиславович… // BlastBeat, А что — Игорь Станиславович? Как я понимаю, вы меня так мягко укоряете, что вот как же я не понимаю, что тут могут быть и серьёзные специалисты, солидные люди и всё такое. Ну да, могут быть, теоретически. Смотрите — вы назвались неким ником. Профиль у вас пуст. То есть на самом деле ответственности за слова вам нести не очень хочется. Неважно, по каким причинам. Но в силу какой-то умственной позы вам всё же хочется, чтобы я уважал ваш анонимный образ и имел презумпцию. Ну это же по меньшей мере нелогично. Хотите уважения — несите ответственность за слова. Пишите от себя, а когда хочется пошутить, наехать или отвязаться — ну тогда пишите под альтер эго. Все условия созданы. А так… Ну может быть, мы даже с вами знакомы, в жизни. Но как это узнать? Догадываться? Да, в случае «пустого» ника тоже может возникнуть этакое эфемерное уважение к нику — мы не знаем этого чувака, но под этим ником много неплохих каментов, посмотрим, что он ещё напейсал. Если писать годами — можно даже построить анонимный виртуальный бренд. Но требовать такого эфемерного уважения к виртуалу или укорять за его отсутствие?

  • Ответить

    Если участие ничего не стоит — можно и участвовать. Если надо отрывать людей, настраиваться — даже дня рабочего времени жалко. Ну у вас же есть общий алгоритм, который как-то определяет тональность. Чтобы его прогнать на дорожке РОМИПа — дня рабочего времени скорее всего и не потребуется. Зато получите интересный расклад, на сколько ваш не тюнингованный отличается от «инвалидских» обученных. Неужели не любопытно? И никто за это не обидит, т.к. всегда можно сказать, что на обучение времени было жалко, а обученные в узких тематиках у вас работают лучше в N раз.

  • Ответить
    Игорь Ашманов Сам себе компания

    …т.к. всегда можно сказать, что … Ну вот опять недоразумение. Кому сказать? Кто это? У вас какое-то своё представление в голове, что там (в РОМИПе или ещё где-то) есть какая-то аудитория, какое-то сообщество. Которому надо что-то показать, а если чё, то оправдываться, что-то «сказать». А я этой аудитории «коллег» не вижу, и не вижу, кому я там что-то должен или могу сказать. Как работают наши извлекатели мнений на отзывах о кино или о мобильных телефонах — мы и так знаем. Трезво смотрим на свои проблемы. Знаем свои ошибки, работаем над ними. Что мы узнаем нового из прогона «универсального определителя» по отзывам из неинтересной нам области? У нас сейчас основная тема маркетинговых собраний в Крибруме — как сузить позиционирование, согласно учению великого Джеффри Мура. Как задушить в себе жадность и опасения и выбросить хотя бы временно хоть и привлекательные, но лишние сегменты рынка, чтобы сконцентрироваться и сделать идеальное вертикальное решение для одного, ну двух сегментов на каждом языке. А не как сделать что-то универсальное, в целом пригодное для формальных упражнений РОМИПа и никому из потенциальных клиентов не нужное в частности.

  • Ответить
    Альтер Эго

    тайное не станет явным, так как по парсерам русского языка соревнуются альтер эги. Мы не узнаем, кто круче — Абби или Яндекс.

  • Ответить

    Если уж ссылки, то по теме: [URL=http://habrahabr.ru/company/abbyy/blog/115226/]ABBYY/habrahabr[/URL] Работа над созданием технологии Compreno ведется уже 15 лет. … Технология Compreno также успешно определяет и более сложные синтаксические связи, такие как … анафора. Или … эллипсис. [URL=http://biz.cnews.ru/news/top/index.shtml?2011/02/28/429739]ABBYY/cnews[/URL] Сколково: компания получит безвозмездный грант в размере 450 млн руб. на завершение доработки технологии Compreno, предназначенной для автоматического анализа текстов. … над ней работают 300 специалистов, затративших на проект. Затраты, уже вложенные в Compreno, президент Abbyy оценивает приблизительно в $50 млн. К сожалению, нигде не удалось найти, кто именно участвует. Интересно, будет ли Промт. Если нет, то интересно, почему. У Яндекса, вроде, нет никаких мега проектов на эту тему. Вот еще ссылка [URL=http://www.roem.ru/2011/10/19/addednews37626/?c#message106668]Dictum/Roem[/URL] про «восстановление анафор и эллипсисов» — … надо вот здесь почитать, попросить демо. http://www.dictum.ru

  • Ответить

    Ого, а вот мне интересно, в каком стандарте размечаются тексты? И будет ли общедоступный корпус, если будет, да и вообще, каковы шансы, что будет?

  • Ответить
    Альтер Эго

    > tashillia >> в каком стандарте размечаются тексты? >> будет ли общедоступный корпус? С такими вопросами лучше обращаться на форум, который читают организаторы соревнования. Про формат можно [URL=http://forum.dialog-21.ru/actualthread.aspx?tid=5063]почитать здесь. Общедоступный корпус — это отдельная история. Что получится, наверное, станет ясно ближе к следующему «Диалогу» (т.е. ближе к лету). Вполне возможно, что не все, кто участвовал, захотят выставлять на публичное обозрение свои результаты. Деликатное это дело.

  • Ответить
    Альтер Эго

    > tashillia >> в каком стандарте размечаются тексты? >> будет ли общедоступный корпус? С такими вопросами лучше обращаться на форум, который читают организаторы соревнования. Про формат можно почитать здесь: http://forum.dialog-21.ru/actualthread.aspx?tid=5063 Общедоступный корпус — это отдельная история. Что получится, наверное, станет ясно ближе к следующему «Диалогу» (т.е. ближе к лету). Вполне возможно, что не все, кто участвовал, захотят выставлять на публичное обозрение свои результаты. Деликатное это дело.