«Яндекс» выпустил XML-склонялку

9 сентября 2008 в 11:34
Roem.ru

Редакция Roem.ru не несет ответственности за материалы, размещенные в этом разделе читателями ресурса. Они добавляются через форму на сайте, и могут быть опубликованы без предварительной модерации.

Новости СМИ2

Нанояндекс выпустил XML-склонялку, которая иногда может определить склонения имен, фамилии и никнеймов.

Может быть полезно для обращений к пользователю, однако применять, все же, стоит с осторожностью.

Добавить 38 комментариев

9 сентября 2008 в 11:01 Ответить
KKL
На счет осторожности — правильно написали… Фамилию одного знакомого просклонял именно так, как он обижается…
9 сентября 2008 в 13:53 Ответить
Альтер Эго
Что за фамилия?
9 сентября 2008 в 14:02 Ответить
Игорь Ашманов Сам себе компания
Ну вообще-то Юрец склоняется не так. То есть чередований они здесь не нашли. С другой стороны, «Витёк», «Сашок» склоняют правильно, с чередованием. А вот с бабцом — беда: Кто? — бабец Кого? — бабца (родительный падеж) Кому? — бабцу Кого? — бабца (винительный падеж) Кем? — бабцем О ком? — о бабце Как, впрочем, и с бойцом: Кто? — боец Кого? — бойца (родительный падеж) Кому? — бойцу Кого? — бойца (винительный падеж) Кем? — бойцем О ком? — о бойце Сначала я предположил, что для слов из словаря они не строят гипотезу, а просто берут парадигму из словаря. Но боец меня озадачил. При этом ведь «паяц», «заяц», «молотобоец» и прочие с этим непростым чередованием -е/й- обрабатываются правильно. Горда Хорватии выявили много косяков, например, простой город Пула спонтанно поменял свой пол несколько раз в разных падежах: Кто? — Пула Кого? — Пула (родительный падеж) Кому? — Пулу Кого? — Пуло (винительный падеж) Кем? — Пулом О ком? — о Пуле Ну и на прощанье спросил выдуманное имя или название Кец: Кто? — Кец Кого? — Кца (родительный падеж) Кому? — Кцу Кого? — Кца (винительный падеж) Кем? — Кцем О ком? — о Кце В общем, не пойму, что там делает такая толпа, во-первых (я так понимаю, что это, видимо, подростки), и почему для известных слов не используется готовый большой словарь Яндекса, во-вторых. А так — прикольно, хорошая будет вещь, когда заработает.
9 сентября 2008 в 14:08 Ответить
Игорь Ашманов Сам себе компания
О, оказывается она параллельно склоняет ФИО. Но не согласовывает их между собой (и опять же не знает известных имён): Кто? — Дареджан Ализаровна Кец Кого? — Дареджана Ализаровны Кца (родительный падеж) Кому? — Дареджану Ализаровне Кцу Кого? — Дареджан Ализаровну Кца (винительный падеж) Кем? — Дареджаном Ализаровной Кцем О ком? — о Дареджане Ализаровне Кце Дареджан — имя женское, по идее, склоняться не должно. Но как это определить? Тут конкретно можно было бы по отчеству. А так проблема, конечно, сложная и в чистом виде вообще не решаемая.
9 сентября 2008 в 14:11 Ответить
Юрий Синодов Roem.ru
«Юрец» добавил я, именно как пример того, что надо обращаться с этой штукой с осторожностью. А то было бы голословное утверждение, что не приветствуется. Удивительно, что вообще не склоняются числительные. Точнее склоняется «один», но как имя.
9 сентября 2008 в 14:32 Ответить
Игорь Ашманов Сам себе компания
Нет, тут как раз понятно, что используются только продуктивные парадигмы. Которые используются как матрицы при чеканке новых слов. Замкнутые, вроде числительных — не нужны. Зачем? Их же больше не производят. И в качестве названия слово «Два» не возникнет.
9 сентября 2008 в 14:45 Ответить
eermakk
зульфия бюлюбюль-оглы Слово не склоняется. Кто? — зульфия бюлюбюль-оглы Кого? — зульфии бюлюбюля-огл (родительный падеж) Кому? — зульфии бюлюбюлю-оглам Кого? — зульфию бюлюбюль-огл (винительный падеж) Кем? — зульфией бюлюбюлем-оглами О ком? — о зульфии бюлюбюле-оглах Смешно.
9 сентября 2008 в 14:57 Ответить
Алексей Тутубалин LibRaw LLC
Как это «два» не склоняется? Два кота Двум котам О двух котах Забавно, что склонялка двух котов склонять отказалась, а хвост кота — пожалуйста
9 сентября 2008 в 15:01 Ответить
Иван Матвеев
>В общем, не пойму, что там делает такая толпа, во-первых (я так понимаю, что это, видимо, подростки) Смеялся Игорь, ты помнишь, что такое Нано?
9 сентября 2008 в 15:31 Ответить
Игорь Ашманов Сам себе компания
Нет, не помню, потому что и не знал никогда. А что это такое? Я что, должен хорошо разбираться во всех инициативах Яндекса? Не вижу в этом смысла. Вот в склоняторах я худо-бедно разбираюсь. Пошёл на голову проекта — яснее не стало. Там, например, неясно — то ли это только внутренние проекты Яндекса, то ли частично гранты Яндекса для внешних разработчиков и исследователей, как уже бывало. Что касается участников проекта, то а) если это не школьники/студенты по гранту от Яндекса, а настоящие, без балды, разработчики Яндекса, то зачем там шесть человек? Такие небольшие лингвистические штуки разрабатываются в одиночку, ну много — вдвоём: инженер по данным, он же постановщик плюс программист. б) Если это такие настоящие, взрослые разработчики Яндекса, почему их там называют уменьшительными именами, что это за странная манера? Да и лица у них юные. в) если это не школьники, зачем выложили настолько неработающий проект?
9 сентября 2008 в 15:42 Ответить
fortl
только что видел на Moskva.RU — «написать Павелу»
9 сентября 2008 в 15:48 Ответить
Альтер Эго
Это ошибка, конечно. На самом деле — «Гавелу»
9 сентября 2008 в 15:48 Ответить
fortl
Кстати, похоже, что это не школьники, я кое-кого знаю. старше 25
9 сентября 2008 в 16:52 Ответить
Иван Матвеев
Игорь, это место для экспериментов. Лаборатория. От лабораторий же не требуют продакшен-качества? Ты слишком серьёзно подходиш к фану.
9 сентября 2008 в 21:22 Ответить
Игорь Ашманов Сам себе компания
Про то, фaн там или не фан, мне не видно. Я-то сам человек чудовищно скучный, склочный и занудный. Я вижу как бы продукт с настоящим названием и настоящей заявленной функциональностью, которая как бы должна склонять имена. Сделан он группой из 6 (прописью — шести) человек. Ну, я зануда, принимаю всерьёз. Это ж не собачий хвост, это ж Яндекс. Должно вроде работать! Так что, это всё была шутка? Фан такой? Нас разыграли?
9 сентября 2008 в 22:04 Ответить
altmind
я в своем маленьком приватном проекте юзаю lgpl алгоритмы и словари от aot.ru. они оффлайновые, и дают приемлемое качество. зачем нужен этот проект от яндекса, и чем он так необычен — брендом?
9 сентября 2008 в 23:03 Ответить
Игорь Ашманов Сам себе компания
Словари-то ладно. А АОТ позволяет строить гипотезы о склонении неизвестных имён и названий?
9 сентября 2008 в 23:50 Ответить
altmind
Ashmanov, автоматически — нет. но есть ручное определение морфологии. можно что-то свое попробовать прикрутить.
9 сентября 2008 в 23:59 Ответить
Игорь Ашманов Сам себе компания
Ну вот то-то и оно. На самом деле, задача очень сложная, самому — не получится.
10 сентября 2008 в 00:00 Ответить
Альтер Эго
Насколько я понимаю в рунете «Нано» имеет устойчивую и популярную коннотацию проектов, придуманных для «вышибания бабла» из налогоплательщика и за которыми реально ничего не стоит Или нет?
10 сентября 2008 в 00:01 Ответить
altmind
Alter Ego от 10.09.2008 00:00:03: Именно так, но нано.яндекс к ним не относится )
10 сентября 2008 в 00:03 Ответить
Альтер Эго
хм… и ЪЧЧОЖу и ЧОЧО склоняет правильно :)
10 сентября 2008 в 01:23 Ответить
Александр Панков —
altmind, советую посмотреть мой сайтик lemmatizer.org Качественно переписанный лемматизатор Сокирко, работает быстрее, проще интерфейс. мультитредности не боится. Есть ПХП-интерфейс, и вообще много всего, но пока не выложено. Черкните в личку, если интересно по бетатестировать, написал, но нигде не использовать. :) Та версия что на сайте фактически до битов совместима со словарями АОТ, но может быть в ближайшее время выложу сильно пропатченую версию, более интересную. По поводу топика. Яндекс сделал классную штуку, но лучше бы исходник словаря дали. Очевидно, что идей там новых никаких, но словарь подобран хорошо. Вообще, обидно, что для русского языка нет нормальных свободных корпусов и прочих лингвистических вещей. По сути многие компании делают одно и то же 10 раз, и только Алексей Сокирко сделал потрясающий шаг — дал общественности очень хорошую работу. За что ему респекты. :) А нужно на самом деле очень много. Русский язык в интернетах представлен местами безобразно, особенно СЕОшниками. Например, регулярно замечаю неправильное употребление предлогов, попадаются «В Владивостоке», «В Украине». Да что уж говорить, что даже нет нормальных тематических словарей, например, синонимов. Есть прориетарные крохи у разных компаний, но никто не хочет делиться, хотя выигрыш в области свободных словарей очевиден.
10 сентября 2008 в 01:37 Ответить
Александр Панков —
В дополнении хочу рассказать, что действительно нужно многим, собирается просто, но почему-то никто не оформил в словари. 1) прилагательные от имен собственных (Москва — московские школьники. школа — школьные учебники) 2) предлоги к словам, особенно именам собственным (В Вологде, но Во Владикавказе, на Украине, но в Англии) 3) синонимические словари (бегемот — гиппопотам) 4) полноценные словари для снатия омонимии, хотелось бы снимать даже такие случаи правильно: «в качестве пива была водка», «в качестве пива был разочарован» и много всего другого, что нужно большинству лингвистопрограммистов :)
10 сентября 2008 в 02:13 Ответить
North
altmind есть у АОТ модуль, который позволяет строить гипотезы о склонении неизвестных слов – исходники лежат на сайте называется «Программа морфологического анализа» — предсказывает по окончаниям слов. http://aot.ru/docs/sokirko/Dialog2004.htm У меня АОТ так просклонял (в принципе очень похоже на Яндексовский результат) — Юрец С мр,ед,им;С мр,ед,вн — Юреца С мр,ед,рд — Юрецу С мр,ед,дт — Юрецом С мр,ед,тв — Юреце С мр,ед,пр — Юрецы С мр,мн,им;С мр,мн,вн — Юрецов С мр,мн,рд — Юрецам С мр,мн,дт — Юрецами С мр,мн,тв — Юрецах С мр,мн,пр p/s pianist тоже хочу бетатестировать Вашу систему :)
10 сентября 2008 в 02:37 Ответить
North
А ведь еще был(и есть) у Яндекса морфологический анализатор mystem (выложенный в открытый доступ) – он в разбираемом примере нашел всего три формы — юрец?|юрца?|юрце? Интересно – это его доработали и сделали сервис или написали анализатор заново?
10 сентября 2008 в 08:25 Ответить
Игорь Ашманов Сам себе компания
Ну вообще-то наивно рассчитывать, что настоящие словари будут сделаны лингвопрограммистами. В выкладывание всяких служебных штук ещё можно поверить, там всякие предлоги, имена-отчества, перевод записи числа цифрами в словесную запись и т.п. Да и то — вон сколько машинных морфологий РЯ выложено в сети, Стемка, АОТ, Mystem, ispell и т.п И что, они хорошие? Да ни разу. И когда находишь косяк или нехватку, непонятно, сколько там их ещё. Да и обсуждаемая программка от Яндекса — ну выложили, и что? Пользоваться нельзя, и никакие исходники тут не помогут. Но в то, что кто-то из разработчиков сделает словарь синонимов или тезаурус — я лично уж совсем не верю. Это академическая работа, с совершенно другой организацией труда. И другими людьми. Я знаю, я разрабатывал словарь синонимов русского языка в начале 90-х для ОРФО. И компилировал из разных словарей»тезаурус», который сейчас в каждом Ворде притворяется русским тезаурусом. Были у нас и лингвисты, аспиранты МГУ и РГГУ, и кандидат филологических наук в качестве постановщика и начальника. Кончилось плохо. При росте словаря группа запуталась, потеря ориентацию, начала путать уровни проработки, постановка задачи и определение синонима развалилось, начались дубли, ошибки, нарастающие противоречия и т.п. И это при наличии множества инструментов, которых нет в академической среде. Небольшая группа лингвистов в программистской фирме не в состоянии этого сделать. Что касается обмена данными и технологиями — со словарями и лингвистическими данные есть такая принципиальная особенность: там важны не сами данные, а систематическая процедура по их составлению. Эта процедура у изначального автора обычно хоть какая-то есть, а у того, кто берёт эти данные — нет. То есть важно даже не текущее состояние данных, а то, чего в них пока нет и планы по развитию. Этого взять «в исходниках» — нельзя. Я не могу взять чужой словарь и доверять ему — я не знаю, что они там накосячили, что не успели сделать и перенесли на следующую версию. В случае академических словарей эти вопросы научной постановки задачи, систематической процедуры, версионности, движения единым фронтом, единой глубины проработки статей, правильного перекрёстного редактирования хоть как-то решаются, а для вываленных в сеть «классных штук» — нет. Заметим, что корпус, в том числе размеченный, в сети как раз есть, и сделан он как раз Яндексом.
10 сентября 2008 в 10:48 Ответить
Александр Панков —
Ashmanov, да я считаю их хорошими. На основе того же AOT сделан лемматизатор lemmatizer.org, кстати предсказания там есть. В любом случае, это лучь света в тёмном царстве проприетарщины. :) То что работа для русского языка будет сложна, это и козе понятно. Вариантов развития в том числе и своего сайта lemmatizer.org я вижу в переходе на стиль Википедии, когда энтузиасты будут вносить правки в словари. Мне кажется, это очень перспективный путь, когда фактически рунет обзаведется хорошей словарной базой, которую легко можно будет исправлять. Опять же, ещё 10 лет назад никто бы не подумал, что можно сделать свободную энциклопедию.
10 сентября 2008 в 11:05 Ответить
Иван Бегтин АНО "Информационная Культура"
2pianist: > Вариантов развития в том числе и своего сайта lemmatizer.org я вижу в переходе на стиль Википедии, когда > энтузиасты будут вносить правки в словари Зачем плодить новые сущности когда есть ВикиСловарь — http://ru.wiktionary.org, присоединяйтесь к его разработке и пользуйтесь его результатами. Только и в этом случае процесс займёт немало лет поскольку там нужны не просто энтузиасты, а энтузиасты-лингвисты, коих, к сожалению, не так много.
10 сентября 2008 в 12:16 Ответить
Александр Панков —
ivbeg, безусловно Викисловарь — хороший, правильный проект. Очень жаль, что у нас мало энтузиастов, впрочем, в русской Википедии наблюдается то же самое по сравнению с английской. Тем не менее, Викисловарь не пригоден для использования машиной. Это именно словарь, который можно читать человеку, а я ставил вопрос о свободных словарях для программ. ;)
10 сентября 2008 в 12:23 Ответить
Иван Бегтин АНО "Информационная Культура"
2pianist. > Тем не менее, Викисловарь не пригоден для использования машиной Это не совсем так, вернее совсем не так. Если Вы загляните в исходные страницы wiki статей то можете обратить внимание что там всё очень чётко разобрано по шаблонам, а в дальнейшем будет и переход на Semantic MediaWiki, поэтому я говорил как раз именно про машинную обработку.
25 декабря 2008 в 04:16 Ответить
morpher
Сравнение вышеуказанного сервиса с аналогами: http://morpher.ru/Competition
25 декабря 2008 в 16:32 Ответить
altmind
morpher, я бы не стал доверять тестированию, размещенного на сайте коммерческого конкурента
26 декабря 2008 в 04:38 Ответить
Альтер Эго
Помню в 80ые годы мы, группа из ВЦ РАН показывали в монгольском академическом учреждении невиданную тогда диковинку — распознавалку речи. Народ включив прибор первым делом начал кричать «ХУй» «Пизда» «еб твою память» Приятно, что сейчас через 25 лет народ тестирует лингвистические новинки на именах и фамилиях, а не традиционных словах.
26 декабря 2008 в 08:28 Ответить
Игорь Ашманов Сам себе компания
Это просто такие монгольские слова были, совершенно невинные. А это вы где сидели в ВЦ, на первом этаже возле машинного зала?
26 декабря 2008 в 10:47 Ответить
Альтер Эго
Да, речью тогда немногие занимались.
28 декабря 2008 в 19:40 Ответить
morpher
> morpher, я бы не стал доверять тестированию, размещенного на сайте коммерческого конкурента А что тут недоверять? Тесты выложены, взяты из открытых источников, даже программа тестирования выложена в исходниках — проверяйте, составляйте свои тесты и публикуйте результаты.
28 декабря 2008 в 20:31 Ответить
morpher
> Приятно, что сейчас через 25 лет народ тестирует лингвистические новинки > на именах и фамилиях, а не традиционных словах. Ну да, Вам послать логи с морфер.ру? ;)

Важное

Обсуждаемое