Cognitive будет анализировать смысл «Яндекса»

29 января 2010 в 18:42

Компания Cognitive Technologies объявляет о продаже (предоставление права использования за вознаграждение) компании «Яндекс» Программного Комплекса, включающего в себя возможности синтаксического анализа текста.

Новости СМИ2

Синтаксический анализатор позволяет определить, какими синтаксическими отношениями связаны слова предложения. Это может звучать неожиданно, но для понимания текста эта информация гораздо важнее, чем значение отдельных слов. Потеря знаков препинания в классической фразе «казнить нельзя помиловать» приводит именно к потере однозначности синтаксических связей.

http://www.cognitive.ru/about/news/2010/4.htm

Добавить 91 комментарий

29 января 2010 в 19:19 Ответить
Валерий Козлов
Интересно когда начнется реальное применение
29 января 2010 в 22:16 Ответить
Andrew Konkov
В следующий апдейт.
29 января 2010 в 22:42 Ответить
Альтер Эго
Хм…а я думал, это будет Abbyy
29 января 2010 в 22:47 Ответить
Альтер Эго
Синтаксис к пониманию смысла отношения практически не имеет. И что там за синтаксис у Когнитива, неясно. Они как-то не блистали в этой сфере.
29 января 2010 в 23:36 Ответить
eremeev.ru
> И что там за синтаксис у Когнитива, неясно. Они как-то не блистали в этой сфере. Ну не знаю. В свое время их распозновалка текста ничего себе так работала.
29 января 2010 в 23:39 Ответить
umkalive
Что может технология конкретно? Объяснять будут или нет?
29 января 2010 в 23:42 Ответить
umkalive
> И что там за синтаксис у Когнитива, неясно. Подозреваю, что тупо сверяют рода-числа-падежи — ничего нового, просто бесплатными силами студентов-аспирантов проделанная рутинная работа.
29 января 2010 в 23:43 Ответить
Maxime
Когда прикрутят и выложат для публики тогда и объяснят :)
29 января 2010 в 23:43 Ответить
Альтер Эго
Синтаксис к пониманию смысла отношения практически не имеет. И что там за синтаксис у Когнитива, неясно. Они как-то не блистали в этой сфере. Игорь Станиславович, расшифруете?
29 января 2010 в 23:47 Ответить
umkalive
> Когда прикрутят и выложат для публики тогда и объяснят :) Вот, сволочи, а? :)
30 января 2010 в 09:30 Ответить
Игорь Ашманов Сам себе компания
Игорь Станиславович, расшифруете? Расшифровать анонимный пост не могу, а прокомментировать могу. Синтаксис в поисковиках нужен, чтобы учитывать дополнительные связи слов при индексировании. Сейчас, когда вы вводите запрос из нескольких слов, поисковик фактически учитывает только их совместную встречаемость. Единицей совместной встречаемости может быть страница, но получается совсем плохо, так было у Рамблера до конца 1999 года. Единицей поиска может быть предложение, или можно учитывать просто расстояние в словах. У современных поисковиков есть обычно и то, и другое. Если хочется искать слова, находящиеся именно в одной фразе, то нужно на фазе индексации находить концы предложений и рубить текст на предложения. А затем заносить в индекс сведения о номере предложения, в котором встречено слово, или как-то ещё хранить в индексе границы предложений. Это уже задачка разбора поверхностного синтаксиса, не такая простая, кстати говоря. Конец предложения — очень расплывчатое понятие. Далее возникает мысль, что вхождение слов в одно словосочетание стандартной грамматической формы — более сильная связь, чем просто нахождение рядом. То есть для поиска запроса «куплю автомобиль с пробегом» вхождение «…продажа недорогих подержанных праворульных машин…» лучше, чем «купля-продажа списанного имущества. Подержанная мебель, стиральные машины, холодильники…». Сюда относятся словосочетания в формате согласованных именных групп (автоматическая система блокирования входных дверей), глагольное управление (куплю моторную лодку), имена-фамилии и т.п. Кажется разумным предположение, что если найти такие словосочетания в тексте, то можно записать сильную связь между их членами в индексе и потом ранжировать такое вхождение выше, чем просто россыпь тех же слов по тексту. Это называется синтаксический индекс. Вообще обычно сейчас поисковики, если делают что-то подобное, ограничиваются поверхностным синтаксисом: разбиение на фразы, выделение синтагм — синтаксически связных кусков фразы (обычно от точки запятой до тире, условно говоря) , выделение предложно-именных групп. Построение полного синтаксического древа предложения — очень ресурсоёмкая операция, на тех объёмах, что есть в Интернете, слишком накладно разбирать полный синтаксис. Хотя, если это всё-таки сделать, можно, например, восстанавливать эллипсисы (умолчания) и находить антецеденты, то есть восстанавливать конструкции типа «Он стоит две тысячи рублей» до истинного значения местоимения «он» из предыдущих фраз. У нас, кстати, есть дочерняя компания Диктум в Нижнем Новгороде, она как раз занимается машинным синтаксисом и синтаксическим индексом: http://dictum.ru/?main=products&sub=dictum Они будут делать доклад об этом на поисковом семинаре в конце февраля. Следующий за синтаксисом шаг в сторону извлечения смысла — извлечение объектов из текста (персоны, организации, географические объекты, номера телефонов, адреса и т.п.). Это делает МедиаЛогия, пресс-портреты Яндекса и другие. Далее по сложности идут связи объектов между собой — этим занимаются системы анализа оперативной информации и т.п. Какой синтаксис есть/был у Cognitive — не знаю. В распознавалках синтаксис практически не нужен. Хватает словарей. Скажем, ABBYY развивает свой синтаксис не в рамках проекта FineReader, а в составе проекта машинного перевода, которому уже 10 лет. Cogintive вроде ничего подобного не объявлял (или я не помню), у них ещё есть система поиска и документооборота Евфрат, может, в ней была эта разработка. Впрочем, большинство фирм, занимающихся ИИ, к синтаксису так или иначе делали подход. Так что, может быть, Cognitive продал Яндексу не очень нужную самим вещь, в которую когда-то вложили труд.
30 января 2010 в 09:38 Ответить
Альтер Эго
не понимаю Неужто Яндекс сам не в состоянии создать такую технологию?
30 января 2010 в 09:48 Ответить
Игорь Ашманов Сам себе компания
А зачем всё делать самим? Принцип альтернативных издержек никто не отменял. Яндекс, конечно, может держать в штате официантов, а может пустить в офис кафе от Тёмы. Может сам разрабатывать извлечение персон, а может купить технологию и команду из Интегрум-Техно.
30 января 2010 в 10:40 Ответить
Альтер Эго
А разве это кто-то может сделать ЛУЧШЕ Яндекса? Разве где-то еще есть ТАКИЕ программисты и лингвисты?
30 января 2010 в 10:51 Ответить
Альтер Эго
А как же ГУГЛ? Там ТАКИЕ инженеры!!!
30 января 2010 в 11:11 Ответить
Альтер Эго
Не верю, что в Гугл или в Мэйл есть настоящие программисты Настоящие программисты бегают по всему ЖЖ и рассказывают всем какие они крутые программисты. За пределами Яндекса таких замечено не было.
30 января 2010 в 11:14 Ответить
Альтер Эго
Между прочим каждый из 1000 программистов яндекса входит в 15 лучших программистов России.
30 января 2010 в 11:58 Ответить
Альтер Эго
А по-вашему, это невозможно? Очень даже возможно. У них ротация. Каждый день на Доску почетов вывешивают 15 лучших программистов России. И штатный фотограф ждет со светом. Поскольку у нас в стране решает Яндекс, кто лучший программист, это нормально. А в США, кто самый гениальный инженер, решает Гугль. Гугль же самый-самый гениальный. Поэтому все 20 000 разработчиков Гугля входят в 1000 лучших программистов Америки, ну и мира, соответственно. Это нормально.
30 января 2010 в 12:32 Ответить
Альтер Эго
На самом деле все не так. На нашей планете формально 6 миллиардов людей. А в реальности их около 35 000. Повторю: разных людей — всего 35 тысяч. В это сложно поверить, но это реальный факт. Люди повторяются. Двойники, правда, не ходят строем и как-то отталкиваются друг от друга, но всякий из нас встречал одних и тех же людей под разными фамилиями, а также замечал, что мир тесен как-то примерно на два-три порядка теснее, чем можно ожидать от 6 миллиардов. Скажем, в Москве живет вовсе не 10 миллионов человек, а пару десятков тысяч максимум. И большая часть из них — наши знакомые. Или смутно знакомые. Так вот, в Яндексе (как и в ФСБ, ЦРУ, Гугле, IBM и других крупных корпорациях, базирующихся на человеческом капитале), это давно знают. Поэтому давно выработана тактика поиска и собирания вместе «клонов». Это довольно непростой и странный процесс, так как клонов непросто искать и еще труднее собирать в кучу, они же отталкиваются. Если удается разыскать зеркальных двойников, преодолеть ядерные силы отталкивания и удерживать в замкнутом пространстве групу из десятков двойников, с этой группой начинают происходить странные вещи. Резко упрощается управление, возникают эффекты телепатии и стайного согласованного поведения, более того, денег и прочих ресурсов через границу группы начинает поступает на порядок меньше (не спрашивайте почему, это вопрос к Бозе и Эйнштейну), что дает огромную экономию. Яндекс вовсю эксплуатирует этот подход. Отсюда озадаченные рассказы про странное интервью в Яндексе от тех, кого туда не взяли, и гробовое молчание тех, кто туда попал. Оттого люди в Яндексе порой так удивительно похожи, просто неразличимы. Обращение с группами двойников требует герметичности, секретности, поэтому часто говорят, что в Яндексе секта. Там не секта, а высокочистое производство с герметичными отделами. Так что это верно, что каждый программист Яндекса входит в число 15 лучших программистов России. Хороших программистов всего 15, и каждый программист Яндекса входит в одну из групп их клонов. Естественно, разрозненные реализации тех же групп программистов встречаются и в других компаниях. Более того, они обычно отталкиваются от Яндекса тем сильнее, чем больше в Яндексе ядро их двойников.
30 января 2010 в 12:58 Ответить
umkalive
> Построение полного синтаксического древа предложения — очень ресурсоёмкая операция, на тех объёмах, что есть в Интернете, слишком накладно разбирать полный синтаксис. Дело не в накладности, а в том, что эта задача в общем случае просто не решена. Никем. > Так что это верно, что каждый программист Яндекса входит в число 15 лучших программистов России. Интересно, а они останутся лучшими, когда гугла пожрет Россию?
30 января 2010 в 13:16 Ответить
umkalive
А гугла пожрет. И это будет скоро. Хром линейно растет со скоростью примерно 3-4% в год. Среди посетителей хабра быстрей, там уже набралось 23%. Плюс за гуглу теперь мыло и бегун. Плюс гугла больше смахивает на религию, чем на секту. Так что, Андерсен, ты, возможно, доедаешь последние ананасы. Скинь раму, легче будет.
30 января 2010 в 13:44 Ответить
Сергей Мезенцев
> Среди посетителей хабра быстрей… На хабре референтная группа?
30 января 2010 в 15:06 Ответить
sinodov_mobile
Андерсен, вы научную фантастику писать не пробовали?
30 января 2010 в 16:22 Ответить
umkalive
> На хабре референтная группа? На хабре продвинутая группа. Смею предположить, что рунет повторяет график хабра с отставанием по фазе(в смысле выбора браузера). Если бы можно было наковырять историю роста мозилы на хабре и сравнить с ростом ее же в рунете, думаю, это было бы убедительно. А так, остается лишь смотреть на прямую линию графика роста хрома и надеяться, что график так же как на хабре начнет выполаживаться в районе 20%.
30 января 2010 в 16:40 Ответить
Игорь Ашманов Сам себе компания
А гугла пожрет. И это будет скоро. Хром линейно растет со скоростью примерно 3-4% в год. Линейно экстраполировать наблюдаемую ситуацию — самая типовая ошибка. Особенно при росте чего-нибудь от нуля. Дело не в накладности, а в том, что эта задача в общем случае просто не решена. Никем. Совершенно непонятно, что это означает и зачем сказано. Что такое «в общем случае»? Ясно, что не то же, что в математике, потому что там это означает нечто совершенно другое. Может, имеется в виду — на 100%? Чтоб доктор наук по теоретической лингвистике одобрил? Так это не нужно. В любом случае, для поиска как морфология, так и синтаксис нужны упрощённые. Есть довольно много синтаксических процессоров, которые вполне удовлетворительно строят синтаксическое дерево по большинству фраз. Если встроить синтаксический анализатор в индексатор поисковика, то его в любом случае надо запускать с очень малым таймаутом. Чуть фраза сложнее — не разбирать её. Дело ведь в том, что поисковику нужно как-то отсортировать 10-20 первых результатов из миллиона, а если какой документ из верхней десятки из-за заусенцев в ранжировании выпадет вниз — наплевать. Их таких миллион.
30 января 2010 в 17:10 Ответить
umkalive
> Линейно экстраполировать наблюдаемую ситуацию — самая типовая ошибка. Особенно при росте чего-нибудь от нуля. Способ экстраполяции — это вопрос выбора. Я опираюсь на факт линейности роста мозилы. Просто больше нет причин считать, что хром покажет другую функцию. > Совершенно непонятно, что это означает и зачем сказано. Что такое «в общем случае»? Это значит, что синтаксически разобрать большинство предложений невозможно с помощью только лишь синтаксиса. Чтобы решить синтаксический разбор в частности — нужно решить проблему разбора предложения целиком. Мне помнится, что Вы это понимаете. > любом случае, для поиска как морфология, так и синтаксис нужны упрощённые. Это да. Но только такие штуки бесполезны. Мне кажется и с этим Вы согласны.
30 января 2010 в 19:20 Ответить
Альтер Эго
>Способ экстраполяции — это вопрос выбора. Я опираюсь на факт линейности роста мозилы. Просто больше нет причин считать, что хром покажет другую функцию. Нет причин считать, что хром покажет аналогичную функцию. Придумай гугл какую хитрую политику раскрутки хрома, отличающуюся от политики мозиллы — и всё, каюк вашим прогнозам
30 января 2010 в 19:53 Ответить
umkalive
:) Прогнозы претерпят изменения, да.
30 января 2010 в 20:43 Ответить
Игорь Ашманов Сам себе компания
придумай гугл какую хитрую политику раскрутки хрома, отличающуюся от политики мозиллы — и всё, каюк вашим прогнозам А он что, как бы ещё не придумал? Вообще-то он продвигает его всей своей пиарной и рекламной мощью. Устраивает пресс-конференции, рассылает релизы. Размещает в общем списке ништяков от Гугла на второй странице портала. Ещё для примера спросите browser в Гугле. Или, между прочим, «браузер» по-русски. И где, интересно, Хром набирает по 4% в год? Вот я смотрю по Рунету (наши IP): http://www.liveinternet.ru/stat/ru/browsers.html?slice=ru;period=month По всем пользователям: http://www.liveinternet.ru/stat/ru/browsers.html?period=month Доля переходов с Хромом — от 2,9% до 3,4%. А ему разве год всего? Ему — полтора, он выпущен в сентябре 2008. Насчёт прогнозов — год назад Герман Клименко, хозяин счётчика Лайвинтернет, у которого есть вся эта статистика на кончиках пальцев, спорил у себя в ЖЖ, что Хром наберёт 20% за квартал. Не потому, что статистика, а потому что Гугл ему нравится. Хром не набрал и вообще набирает небыстро. Мне вообще кажется, прогноз — это не вопрос выбора метода экстраполяции. Это вопрос выбора способа смотреть на действительность и отвечать за свои слова. Зачем вам неймётся прогнозировать? Это у вас такой способ переживать жизнь? Ну почему просто не сказать: мы не знаем будущего, кто его там знает, как оно повернётся? А вы как будто думаете, что если настойчиво давать такие прогнозы, какие вам приятны эмоционально, то они сбудутся.
30 января 2010 в 20:50 Ответить
Игорь Ашманов Сам себе компания
Это значит, что синтаксически разобрать большинство предложений невозможно с помощью только лишь синтаксиса. Чтобы решить синтаксический разбор в частности — нужно решить проблему разбора предложения целиком. Нет, я понимаю ровно наоборот. Большинство предложений для большинства прикладных задач синтаксически разобрать автоматически — можно. Например, структура предложно-именных групп в большинстве случаев получается консистентной и соответствующей реальности. А вот разобрать любое предложение — действительно нельзя, для этого нужно иметь синтетическое понимание, сразу же и смысла, и синтаксиса и прочего. Единственное, что важно в таком разборе — это наличие в алгоритме нулевого результата. Чтобы не принимать неверных результатов за верные. То есть чтобы алгоритм знал, когда у него не получилось. Этого во многих случаях можно достигнуть, в частности, просто таймаутами.
30 января 2010 в 21:05 Ответить
Альтер Эго
Я опираюсь на факт линейности роста мозилы Все очень просто, через 5 лет у мозиллы будет 150 процентов, у оперы — 90, у хрома — 70, а все остальное — у MSIE
30 января 2010 в 21:10 Ответить
Альтер Эго
А уж что будет с глобальным потеплением, вообще ужосна. По улицам будем ходить по горло в кипящей воде.
30 января 2010 в 21:12 Ответить
Альтер Эго
Только Айпады будут видны над водою.
30 января 2010 в 21:12 Ответить
umkalive
> Зачем вам неймётся прогнозировать? Это у вас такой способ переживать жизнь? Дружище, это такой способ жить. Ну, чтоб в дерьмо не вляпаться завтра, например. Как, например, товарищи из яндекса, которые уже вляпались завтра, но пока этого не прогнозируют. :) Кстати, я очень доволен тем, что правильно понимаю тенденции эволюции девайсов. Появление айпада укладывалось в мои прогнозы, если вы не побрезговали заметить. Им осталось, только чуть уменьшить формат до покетбука и будут им продажи, а мне ощущение адекватности восприятия. > Доля переходов с Хромом — от 2,9% до 3,4%. А ему разве год всего? Я смотрю здесь: http://www.liveinternet.ru/stat/liveinternet.ru/browsers.html?id=3;period=month;relgraph=yes Там за полтора года +4%, но к концу периода график заостряется и производная на сегодня где-то и есть 3-4%. Точно не считал, так ляпнул на глазок.
30 января 2010 в 21:14 Ответить
Альтер Эго
>> Андерсен, вы научную фантастику писать не пробовали? Синодов, я оценил деликатность вашей паранойи, но спешу вас успокоить: я не Лёха Андреев.
30 января 2010 в 21:33 Ответить
Игорь Ашманов Сам себе компания
Дружище, это такой способ жить. Ну, чтоб в дерьмо не вляпаться завтра, например. Как, например, товарищи из яндекса, которые уже вляпались завтра, но пока этого не прогнозируют. :) Во-во, «уже вляпались завтра». Живёте в мире иллюзий, прямо в будущем своих прогнозов. А яндексоиды-то дураки, не видят этого мира ваших безошибочных прогнозов! Дружище, это ж такой паршивый способ жить! Объясню: вообще быть аналитиком, который строит прогнозы — это собачья должность и собачий хлеб. И вот почему: а) если ты что-то там угадал, никто этого не вспомнит; кроме того, даже если и вспомнит, это будет уже настоящим, а значит, очевидным для всех. И поэтому не прикольным. Ну как с объяснениями Шерлока Холмса доктору Ватсону. То есть никто не оценит вашей прозорливости. Помните, как чморили Кассандру? И это при том, что она точно знала будущее от самих богов! Вот посмотрите сами — вам приходится напоминать нам здесь, что вы якобы «предсказали» появление iPad. Даже если и так, то 1) мы не помним, 2) мы не ценим. Подумаешь, предсказал появление очередного девайса… б) а вот если ошибся — потешаться будут всю жизнь. Этого как раз не забудут. И никак не отмажешься — не угадал же. Оправдываются аналитики часто, но менее смешными от этого не делаются. Публике приятно высмеивать пророков. в) за аналитику в среднем плохо платят (как раз потому что её никто особенно не ценит). Её практически некуда развивать — собственный бизнес не сделаешь (мало успешных аналитических контор, раз-два и кот наплакал), карьеру — тоже. Не бывает аналитиков во главе чего-нибудь большого. г) из этого следует, что в среднем аналитик занимается своей аналитикой исключительно ради своего самолюбия, ощущения себя очень умным. Жалкое занятие. Особенно если понимать, что он в любом случае регулярно ошибается в большом проценте случаев, а значит, испытывает моральные мучения — и всё это даром. Так что я бы вам не советовал увлекаться аналитикой и прогнозами. Это мучительно и не окупается.
30 января 2010 в 21:59 Ответить
umkalive
> Живёте в мире иллюзий, прямо в будущем своих прогнозов. Вы тоже в нем живете, слава Богу. :) > Дружище, это ж такой паршивый способ жить! Дружище, жить по другому — вообще невозможно. Иначе, ведь, останутся только безусловные рефлексы? Или вас это устраивает?
30 января 2010 в 22:33 Ответить
Альтер Эго
Я смотрю здесь: http://www.liveinternet.ru/stat/liveinternet.ru/browsers.html?id=3;period=month;relgraph=yes /me валялся по всей комнате. На основании статистики посещений одного сайта прогнозировать светлое будущее. Вы, умка, мо-ло-дец!
30 января 2010 в 22:34 Ответить
umkalive
Ну, и раз уж такая пьянка откоменчу вот это: > Большинство предложений для большинства прикладных задач синтаксически разобрать автоматически — можно. Разберите, пожалуйста, вот это предложение без привлечения семантического понятия одушевленности/неодушевленности: «Член прищемил Ашманов.» Разобрались, кто кого прищемил? :)
30 января 2010 в 22:41 Ответить
umkalive
> Вы, умка, мо-ло-дец! Я чуть больший молодец, чем Ашманов, который рунетом считает только Россию. :)
30 января 2010 в 22:50 Ответить
Игорь Ашманов Сам себе компания
Вообще-то я дал там две ссылки, и такую, и такую, но разница между ними незначительна. Пример ваш неудачный. Фамилия там портит картину омонимии. И вообще надо брать женский род. Классический пример — «мать любит дочь». И проверочные к нему: «Не отца, а мать любит дочь», «Мать любит дочь, а не сына». Фишка в том, что «неберущихся» примеров можно подобрать сколько угодно, а важна статистика. Важен интеграл по тем типам фраз, которые встречаются в реальной жизни, и которые можно разобрать без ущерба для ранжирования по синтаксическим связям. Кстати говоря, пример вообще касается надёжности определения подлежащего и дополнения, что вообще не очень интересно для синтаксического индексирования. Зачем подлежащее? Что оно показывает поисковику? Что касается привлечения «понятия одушевлённости», то для машинной обработки русского языка на практике это не семантическое понятие, а просто словарная помета, которая есть в большинстве морфологических словарей (а там, где явно её нет, там есть морфологический класс, который по винительному падежу различает одушевлённость).
30 января 2010 в 22:55 Ответить
umkalive
> Зачем подлежащее? Что оно показывает поисковику? Подлежащее — это корень дерева. Без него вы нихрена не построите. Пучок веток и только. > Что касается привлечения «понятия одушевлённости», то для машинной обработки русского языка на практике это не семантическое понятие, а просто словарная помета Это тоже далекая от практики теория. Неодушевленные существительные в качестве дополнения очень часто используются какбэ в родительном падеже. «Выпить бы на поисковом семинаре коньяка.»
30 января 2010 в 22:58 Ответить
umkalive
ЗЫ У меня есть фишка собственного производства на тему разбора предложений. Я котирую процентов 25-30 ЕЯ предложений, которые можно разобрать чисто синтаксически.
30 января 2010 в 23:22 Ответить
Игорь Ашманов Сам себе компания
Ну я же вижу признаки гордости разработчика. Так и есть — на свет вытаскивается собственная разработка. Как обычно, она круче всех? А вот у нас в Диктуме есть просто синтаксический анализатор, который работает. Ну не знаю, сюрприз ли для вас это или нет, но вы с примером про коньяк, по-моему, всё перепутали. Выпить коньяка — это не как бы родительный, а классический родительный падеж. Выпить (кого, что) коньяк — это просто другая валентность глагола, вы зря её путаете с «выпить (кого, чего) коньяка». У коньяка (как и у ликёра, чая, кофия), действительно, есть особенность глагольного управления, но она другая: это партитивный или частичный падеж «выпить коньяку», а именно 2-й родительный падеж в форме дательного. И помета о возможности вторых падежей тоже обычно есть в морфологическом словаре. Винительный же падеж тут вообще не при чём. Вот вижу мертвеца или вижу труп, это действительно прикол. Да и тот помечен в словаре.
30 января 2010 в 23:24 Ответить
Игорь Ашманов Сам себе компания
Выпить бы на поисковом семинаре коньяка Кстати, намёка сразу-то и не понял. Приезжайте, коньяк будет. Зарегистрируйтесь на сайте, только дайте словарную помету, что это вы.
30 января 2010 в 23:28 Ответить
umkalive
> Ну я же вижу признаки гордости разработчика. Это верно. Я тоже вижу: «А вот у нас в Диктуме…» :) > Выпить коньяка — это не как бы родительный, а классический родительный падеж. Это вопрос определений, у меня определяется как вариант винительного. Так же и с дательным. Но суть то в том, что как ни назови, без привлечения понятия одушевленности/неодушевленности мой первый пример не разрешить.
30 января 2010 в 23:30 Ответить
umkalive
> Кстати, намёка сразу-то и не понял. Приезжайте, коньяк будет. Нет уж, лучше вы к нам. Буа-га-га. За приглашение спасибо. Но в Москвах бываю крайне редко.
30 января 2010 в 23:40 Ответить
Игорь Ашманов Сам себе компания
Это вопрос определений, у меня определяется как вариант винительного. Так же и с дательным. По-моему, это вопрос культуры. Потому что определения известны, и если вы придумываете свои, то непонятно, зачем. Впрочем, в своей разработке можете называть прилагательное наречием, я не против. Это ж вопрос определений. Насчёт намека — значит, его не было. Я ж забыл, вы ж из этих, наверно? Ну которых взяли в Цивилизацию?
30 января 2010 в 23:48 Ответить
umkalive
> По-моему, это вопрос культуры. По-моему отсутствие понятия валентности для глагола делает мой взгляд на вещи более привлекательным, ибо проще. Я больше отношу себя к простым, чем к культурным. :D > Насчёт намека — значит, его не было. Намек был. Мне лучше знать, не спорьте. :) > Я ж забыл, вы ж из этих, наверно? Ну которых взяли в Цивилизацию? Нет. Я из тех кто отдалился на время, чтоб сохранить нервные клетки для будущих поколений.
30 января 2010 в 23:51 Ответить
Игорь Ашманов Сам себе компания
Главное в этом деле — сохранить половые клетки. Для будущих поколений.
30 января 2010 в 23:56 Ответить
umkalive
Сохранить мало, надо их вырастить. Спокойной ночи.
30 января 2010 в 23:58 Ответить
Игорь Ашманов Сам себе компания
Это верно. Я тоже вижу: «А вот у нас в Диктуме…» :) Нет, у меня-то нет гордости разработчика, потому что я — не разработчик этой штуки. И к тому же мы его не продаём. Мы купили контроль в компании Диктум, потому что хотели не дать умереть хорошей разработке от безденежья. Рынок для машинного синтаксиса в чистом виде близок к нулю. Владелец Диктума Владимир Окатьев приходил к нам в первый раз по рекомендации Андрея Коваленко, который продавал свою морфологию тому же заказчику (каким-то прибалтам), что и Диктум свой синтаксис. Коваленко сказал мне, что впервые видел работающий синтаксис русского языка. Я направил Окатьева поговорить в Яндекс и в Рамблер, но там почему-то не заинтересовались. Это было в 2007 году. Тогда мы сами примерно через год взглянули пристальнее, протестировали, к своему удивлению увидели, что штука действительно работает, и решили купить долю. До этого я тоже считал, что работающих синтаксисов для русского не бывает.
31 января 2010 в 00:05 Ответить
umkalive
ЗЫ > работающих синтаксисов для русского не бывает. Терпеть не могу когда ставят «для» вместо английского «for». Типа: «для Вас» вместо «Вам». Правильно было бы: «работающих синтаксисов русского не бывает». Еще раз спокойной ночи.
31 января 2010 в 10:03 Ответить
Игорь Ашманов Сам себе компания
Ну вот, в вашем иллюзорном мире уже появились и собственные правила русского языка. Этак «в отдалении» вы и новую лексику, и новую орфографию, и новый синтаксис изобретете. Как Солженицын — нелепый «словарь языкового расширения», да. Я что хотел — то в точности и сказал. Можно сделать движок синтаксиса для русского, а можно для испанского. «Для вас, вам, синтаксис для русского и синтаксис русского» — совершенно разные лингвистические значения. Так же, как «выпить коньяка» и «выпить коньяк». Вы можете, конечно, в своей разработке считать, что «выпить коньяка» — это управление винительным падежом, а не родительным, как оно на самом деле; на это у вас такое же право, как принимать предположение, что Солнце обращается вокруг Земли для каких-то своих вычислений, а Хром будет прибавлять по 4% в год в ближайшие 20 лет. Но реальная действительность останется другой, как ей самой заблагорассудится.
31 января 2010 в 11:34 Ответить
umkalive
Доброе утро. > «Для вас, вам, синтаксис для русского и синтаксис русского» — совершенно разные лингвистические значения. Так же, как «выпить коньяка» и «выпить коньяк». Мой скриптец переведет на английский эти конструкции одинаково, и я испытываю гордость разработчика по этому поводу. :) > Но реальная действительность останется другой, как ей самой заблагорассудится. Вы видимо с диаматом переусердствовали в свое время. «Не сознание людей определяет их бытие, а, наоборот, их общественное бытие определяет их сознание». — К. Маркс, «К критике политической экономии» Лично меня Ваша и Карла категоричность расстраивает, чтобы не сказать веселит.
31 января 2010 в 11:38 Ответить
umkalive
Если, кстати, скриптец запустить с русского на русский — он Вашу ошибку исправит. Вот такой он умный. :)
31 января 2010 в 11:45 Ответить
Игорь Ашманов Сам себе компания
По-моему, эта гордость будет неоправданной. Выпить коньяка имеет значение только «выпить сколько-то коньяка» и относится к выпивающему. А вот «выпить коньяк» может означать именно допить. Или рюмку, или вообще весь коньяк. Зачем же их переводить одинаково? По-хорошему, профессиональный человек-переводчик должен их переводить совсем по-разному. «Ты не можешь вести машину, ты же выпил коньяка» — это одно, а «какая сволочь выпила мой коньяк» — другое. Другое дело, что машинный перевод к нашей дискуссии не имеет отношения в принципе, там совсем другие проблемы. И полный-преполный синтаксический анализ там тоже не очень нужен, как и для поиска, нужны другие вещи. Что касается сознания и бытия, то «бытие определяет сознание» — второй хрестоматийный пример синтаксической омонимии, и что тут кого определяет — неясно. Карл наш батенька Маркс, конечно, написал более определённо. Я с ним тут расхожусь. Нам мир определяется сознанием, сознание первично, оно формирует мир, но мир (сюрприз!) всё равно объективен. Поэтому сколько ни говори «халва», «у Хрома будет 20%», «Яндекс уже облажался завтра» — ничего не изменится. Если вы не Пророк Божий. Или не солипсист. Или не новый мессия, революционер, великий писатель, Билгейц, в конце концов.
31 января 2010 в 11:47 Ответить
Игорь Ашманов Сам себе компания
Если, кстати, скриптец запустить с русского на русский — он Вашу ошибку исправит. Вот такой он умный. :) Уверен, он и просто за меня может текст написать. А ракеты он пока из шахт не запускает, по своему разумению? Ну и то слава богу.
31 января 2010 в 11:53 Ответить
umkalive
> Выпить коньяка имеет значение только «выпить сколько-то коньяка» и относится к выпивающему. А вот «выпить коньяк» может означать именно допить. Или рюмку, или вообще весь коньяк. Вам никогда не понять, что говорящий вкладывает в свои слова, потому что его мир и Ваш не одинаков. Потому, что объективный мир — это абстрактное понятие, которое помогает Вам устранить свое противоречие. Некоторым нужен Бог, некоторым «объективная реальность данная нам в ощущении». > сознание первично, оно формирует мир, но мир (сюрприз!) всё равно объективен. Я вижу противоречие, нельзя с этого места подробней?
31 января 2010 в 11:54 Ответить
umkalive
> Уверен, он и просто за меня может текст написать. Не завидуйте, это смертный грех. :D
31 января 2010 в 12:10 Ответить
Игорь Ашманов Сам себе компания
Вам никогда не понять, что говорящий вкладывает в свои слова, потому что его мир и Ваш не одинаков. Ну почему же. Я же как-то понимаю своих домашних, сотрудников, даже собеседников на Роеме. Говорящий ведь выбирает для выражения мыслей общие для нас слова, и именно эти слова. Из миллионов возможных. А у слов есть такие значения. И не другие. Выпить коньяка — как раз такой пример. И если говорящий зачем-то взял именно родительный падеж, он что-то хотел выразить отличное от «выпил коньяк». Если, конечно, он грамотный носитель языка. Есть общий принцип прикладной лингвистики, который лично я предпочитаю использовать в разработке: Говорящий желает быть понятым и подбирает языковые инструменты соответственно этой цели. Вот водители на дороге вообще не имеют слов, они действуют. Но намерения и моральный уровень даже по этим действиям оценить можно. Что касается кажущегося вам противоречия между первичностью сознания и объективностью мира — здесь не место для дискуссии. А самое главное — не время. Потому что вам сначала надо бы почитать классические книжки по философии. Там это «противоречие» пережёвано и переварено за несколько веков просто до аминокислот. Так что извините, дальше разжёвывать не буду, это пустой перевод электронов получится.
31 января 2010 в 12:25 Ответить
umkalive
> Говорящий желает быть понятым и подбирает языковые инструменты соответственно этой цели. Это да. Но Вы все равно всегда понимаете что-то свое. А собеседника всегда не до конца. Всегда есть различие между тем, что сказано и тем, что понято. > И если говорящий зачем-то взял именно родительный падеж, он что-то хотел выразить отличное от «выпил коньяк». Мотивация говорящего может быть чуть больше чем любой. И Вы ее не всегда можете понять. Говорящий хочет быть понятным, но он не знает всех ваших тараканов. И у него своих много. Ладно, приятно было провести время. Финал Австралии посмотрите, прогнозирую 5 сетов, но здесь я не силен и скорее всего ошибусь. :)
31 января 2010 в 12:40 Ответить
Борис Фролов BP
Это уже не синтаксис, это уже семиотика. Всегда, кстати, было интересно отношение товарищей творцов машинного перевода к работам Умберто нашего Эко (например — «Роль читателя»).
31 января 2010 в 12:44 Ответить
Игорь Ашманов Сам себе компания
Это да. Но Вы все равно всегда понимаете что-то свое. А собеседника всегда не до конца. Всегда есть различие между тем, что сказано и тем, что понято. Проблема вообще не в этом. Проблема в том, что в тексте вообще нет смысла. Текст — это код, ключ, запускающий генерацию смысла в голове слушающего. Есть хороший пример Владимира Файна: юноша говорит девушке «Помнишь июль?». Для внешнего наблюдателя в этой фразу очевидно только наличие в ней ключа для кого-то, не более. Смысла же нет. А для девушки — целая Вселенная смыслов. Если у вас есть общее ментальное пространство со слушателем — вы сможете сгенерировать ключ, в котором сожмётся мысль из вашей головы и из которого почти она же будет распакована в голове слушателя. Или совсем другая. Нет общего пространства смыслов — нет и ключа в тексте. Поскольку у нас с носителем русского языка, родившимся в России, общее пространство смыслов довольно большое, и мы его нарабатываем, изучая язык в детстве и юности, то «я выпил водки» и «я выпил водку» генерируют в общем случае похожие смыслы. А вот с находящимися » в отдалении,» навсегда или на время, для сохранения клеток, это общее пространство смыслов постоянно размывается.
31 января 2010 в 13:02 Ответить
Альтер Эго
К середине 21 века яндекс поработил мир. Горстка уцелевших программистов, скрывающихся в секретных погребах Снеженска, из деталей серверов и мопеда собирает машину времени. В прошлое отправляют Лучшего Программиста, чтобы он вывел из строя ИИ, развившийся из синтаксис-анализатора. Для этого достаточно набрать в яндексе фразу «выпить коньяку». Но программист, нехороший человек, попав в прошлое, устроился на работу в гугль. И гугль поработил мир.
31 января 2010 в 13:18 Ответить
Игорь Ашманов Сам себе компания
Но мопед не ваш, вы просто разместили рассказ, верно?
31 января 2010 в 13:26 Ответить
Альтер Эго
Верно, не мой. Прочтение сюжета применительно к конкретной теме-проблеме.
31 января 2010 в 13:28 Ответить
Альтер Эго
Пользуясь случаем, хочу передать привет, тьфу, высказать свою ненависть к уродам из яндекса, вставляющим свой несчастный тулбар со своим несчастным поиском даже в платную прогу eset! За последний месяц мне ТРИЖДЫ пришлось вычищать эту яндексовскую уродину! Блин, ну зачем уж и в платный софт , да еще и без явной галочки , встраивать! Это еще большее свинство, чем менять поиск по умолчанию в обновленном FireFox! Уроды.
31 января 2010 в 13:29 Ответить
Альтер Эго
umkalive, если вы такой пророк, идите на биржу спортивных событий. Озолотитесь. А че толку в форуме-то предсказывать.
31 января 2010 в 13:43 Ответить
yaneblog
>>У нас, кстати, есть дочерняя компания Диктум в Нижнем Новгороде, >>http://dictum.ru/?main=products⊂=dictum AVG говорит, что там эксплоит.
31 января 2010 в 13:48 Ответить
Heinrich Brüssow
>> umkalive, если вы такой пророк, идите на биржу спортивных событий. вместо него на бирже сидит его скрипт.
31 января 2010 в 13:49 Ответить
Heinrich Brüssow
>> AVG говорит, что там эксплоит. ОНи просто ненавидят русский язык
31 января 2010 в 13:51 Ответить
yaneblog
Интересная версия, я сначала подумал, что это точечная месть Диктуму.
31 января 2010 в 15:59 Ответить
vnaz
можно врезацца, да?.. > Поэтому сколько ни говори […] — ничего не изменится. > Если вы не Пророк Божий. Или […] Билгейц кагбэ надо иметь в виду, что мы ж не знаем, кто он и зачем он.. т.е. тут прогнозирование получается, что он «не».. а мож — он «да»? и тогда получается, что у него не прогнозирование, а влияние.. > Мы купили контроль в компании Диктум, потому что хотели не дать > умереть хорошей разработке от безденежья. по возможности, огласите критерии, по которыс избираются объекты альтруизма.. ну, сами понимаете, почему интересуюся.. ;) > синтаксис очень интересно.. ни один семантику не упомянул.. почему? ее нет? ее не надо? (она не надо, ее не нужно, она не нужна) полагаю, что при условии готового 100%-но верного синтаксиса семантика выводитя легче.. но, с другой стороны, похоже, что правильную семантику вывести без синтаксиса (= с максимально примитивным систаксисом, либо таки реально совсем без него) можно (нужно)? или никто из тут в семантику не верит вообще? вот Наносемантика инфов.. там же на самом деле семантики совсем нет? статистика одна с коэффициентами значимости в конкретной ситуации?
31 января 2010 в 16:12 Ответить
yaneblog
Замените английский язык на Эсперанто, и будет вам и синтаксис и семантика, при условии, что люди не начнут вводить в язык фразеологизмы и «разговорные термины», подобные: «Билгейц, интересуюся», «ее», «никто из тут» и т.д. Некоторые участники обсуждений настолько астрально выражают свою мысль, что не каждый способен понять, о чём вообще речь, что же вы от машины хотите?
31 января 2010 в 16:54 Ответить
vnaz
какое английский? какие нах эсперанто?! только русский! :) а насчет «чего от машины хотите» все давно сказано: машина должна работать, а человек — думать.. вроде как (c) IBM
31 января 2010 в 17:03 Ответить
Альтер Эго
http://www.datasystems.ru/dir_interesting_facts_about_ibm.htm А вы возьмите и попробуйте применить на практике продукт компании IBM, для остроты ощущений рекомендуется купить его на свои деньги и внедрить в своей же компании. Вы получите следующее: 1. Машина не работает (имею ввиду софт, с железками IBM дело не имел). 2. Люди, которые писали этот софт, не думали. 3. Эти же люди ни разу не пользовались софтом, который сами же написали. Так что IBM в данном случае не авторитет, а сказать я тоже могу всё, что угодно. Кстати, раз уж речь зашла об IBM, http://www.ibm.com/developerworks/data/library/techarticle/dm-0702dorre/ Они предлагают вручную обучать модуль каталогизации, цепляемый к поисковому серверу OmniFind. Ну и традиционно, русский язык не поддерживается.
31 января 2010 в 17:11 Ответить
vnaz
ой, ну чиво Вы тута, не понимая, цепляетесь? сказано лет 400 назад, когда IBM еще не была отравлена сотрудничеством с молодым, подающим надежды Билли.. в конце концов, не важно, кто сказал, главное — верно (для меня верно, по крайней мере) ну и вообще, имейте в виду, что то, на чем вы сейчас это все набирали, %% на 90 вероятно, что было на «IBM PC совместимом компьютере».. угадал?
31 января 2010 в 17:21 Ответить
yaneblog
>>в конце концов, не важно, кто сказал, главное — верно >>(для меня верно, по крайней мере) Существование модуля классификации IBM, экспертных систем, компании Cognitive Technologies опровергает сказанное IBMом 400 лет назад. Ну не хотят люди думать, люди хотят, чтоб думал компьютер. >>%% на 90 вероятно, что было на «IBM PC совместимом компьютере».. У вас потрясающая интуиция :) Вашу точку зрения я понял, но согласиться с ней не могу. Благодарю за беседу.
1 февраля 2010 в 21:47 Ответить
commando
>>1. Машина не работает (имею ввиду софт, с железками IBM дело не имел). ВНЕЗАПНО!!! У меня о*ительно работает Eclipse IDE. ЧЯДНТ???
1 февраля 2010 в 22:17 Ответить
yaneblog
>>ВНЕЗАПНО!!! Вроде не весна, а какое обострение. >>У меня о*ительно работает Я очень рад за вас, потрясающий воображение результат. Не путайте Eclipse http://www.eclipse.org/ и RAD http://www-01.ibm.com/software/awdtools/developer/application/ Так же на надо путать http://www-01.ibm.com/software/webservers/httpservers/ и http://httpd.apache.org/ >>ЧЯДНТ У меня нет соответствующей квалификации, чтобы ответить на этот вопрос. http://www.dyrdom.narod.ru/ — вот здесь теоретически могут помочь.
1 февраля 2010 в 22:30 Ответить
commando
>> У меня нет соответствующей квалификации, чтобы ответить на этот вопрос. Этот? >>Не путайте Eclipse http://www.eclipse.org/ и RAD http://www-01.ibm.com/software/awdtoo…plication/ ВНЕЗАПНО! Вы бы погуглили бы сперва, откуда ноги у Eclipse, до того как жаловаться на обострение и вспоминать уютненькие места, где вам помогали.
2 февраля 2010 в 10:24 Ответить
vnaz
и все-таки.. что там с семантикой? в поиске-то? пригодится? в основном взываю с сим к Игорю Ашманову :)
2 февраля 2010 в 10:31 Ответить
Игорь Ашманов Сам себе компания
А что это такое — семантика? Не вообще, а в приложении к компьютеру?
2 февраля 2010 в 10:44 Ответить
vnaz
ну, давайте сформулируем так: вычленение (слово-то какое :) смысла.. либо смысловых зависимостей в словосочетаниях и предложениях.. т.е. синтаксис же — это подлежащее что-то сделало.. а семантика — это подлежащее что-то такое сделало, что сие предложение про путешествия, или про порно.. или про детское порно.. что-то типа такого.. как я это понимаю..
2 февраля 2010 в 11:38 Ответить
xenodaemon
Судя по статьям с последнего ромипа семантика не дает никаких особых бонусов. Например у семантического поисковика экзактуса результаты довольно средние.
2 февраля 2010 в 11:46 Ответить
vnaz
ну, причиной «довольно средних результатов» экзактуса может быть довольно средняя (или ниже) семантика :) ну и потом, даже если ставить семантику (допустим, хорошую) во главу угла — не значит, что не нужно иметь ничего, кроме семантики..
2 февраля 2010 в 12:18 Ответить
Игорь Ашманов Сам себе компания
Ну если следовать как бы определению выше, то семантика в поисковиках давно применяется: * тематику страницы (путешествия, экстрим, окна, хостинг) распознают рекламные сети, * порно, географию, прочее распознают и используют поисковики при ранжировании, * пресс-портреты вытаскивают семантику персоны и её связей, * анализаторы запросов вытаскивают из запроса интенции пользователя (типа, «купить Х» — запрос о товаре), ну и так далее.
2 февраля 2010 в 12:26 Ответить
vnaz
а какое определение более распространено/академическое/Вами используемое, в рамках которого семантика в поиске не применяется? ну и собственно основной вопрос-то — на фига Яндексу синтаксис покупать? для улучшения семантики?
2 февраля 2010 в 14:48 Ответить
vnaz
вот полезно с умными людьми подискутировать.. рождаются всякие версии, типа синтаксис нужен для поиска по вопросам-ответам, там он очень к месту придется, кажется.. ?
3 февраля 2010 в 22:48 Ответить
North
Ashmanov «Cogintive вроде ничего подобного не объявлял (или я не помню)» У Cogintive есть собственный синтаксический анализатор (для русского и английского) и машинный переводчик ( рус анг ) http://cs.isa.ru:10000/dwarf/index.html Синтаксический анализатор строит деревья, и вообще вроде вполне неплохой ) Правда действительно — об этом проекте почти ни кто не знает — как то в Cogintive видимо — не особенно стремились его как то продвигать .

Важное

Обсуждаемое