Новый проект: Twirocket — сервис мониторинга пользователей и брэндов в twitter

Меня зовут Алексей, я работаю программистом в Германии.

Проект Twirocket возник как результат всё чаще встречающихся в твиттере просьб «Посоветуйте почитать наших девушек/мальчиков!». Вот я и подумал — «а нельзя ли по твитам определять пол человека и его настроение?». Твиттер в данный момент такую информацию не предоставляет.

Оказалось, такую задачу решить можно при помощи алгоритмов искусственного интеллекта, точнее области информатики под названием «Обработка естественного языка» (Natural Language Processing, NLP). Еще точнее — при помощи так называемого Sentiment Analysis (анализ тональности текста).

Собственно, алгоритм, лежащий в основе Twirocket работает упрощенно таким образом:

1. Фильтруй поток твитов и анализируй каждый твит. Отбирай только твиты на русском языке.

2. Определи тональность твита.

3. По последним твитам определи тональность аккаунта.

Тональность твита определяется двумя способами. Первый: это по смайлам и междометиям типа «хахахаха». В зависимости от наличия смайлов можно более-менее точно предсказать тональность.

Второй подход — разбор предложений и применение тонального словаря. Проблема с тональностью текста есть — довольно сложно для компьютера определить в тексте такое явление, как сарказм.

Каждый твит анализируется и информация о пользователе постоянно обновляется. На данный момент в моей базе данных — более 600.000 пользователей. Бонусом слежения за аккаунтами становится история учётной записи. На страничке пользователя видны все изменения, которые происходили с профайлом: смена аватарок и никнеймов, описания и уровня приватности (открытый/закрытый).

В ближайшем будущем я собираюсь прикрутить к Twirocket как минимум настройку оповещения об изменении аккаунтов (к примеру, если я заинтересован в наблюдении за аккаунтом Х, я буду получать direct message когда Twirocket засечет изменение аккаунта). Еще в планах приватный поиск по ключевым словам (например, я хочу наблюдать за изменением тональности/отношения твиттер-среды к Ангеле Меркель. Я сохраняю этот запрос и получаю такой же график тональности, какой сейчас работает для трендов и профайлов).

Изначально этот проект был задуман как увлечение. В прошлом письме я упоминал о персональных поисковых запросах. Этот функционал будет доступен в ограниченном варианте для всех пользователей. Для платных аккаунтов будет доступен весь функционал с аналитикой, статистикой и т. д.

Возможная целевая группа — маркетинговые фирмы, мониторящие социальные сети.

Комментарий Roem.ru: для увлечения — очень хорошо. Только маркетинговым фирмам, вероятнее всего, нужен не отдельный сервис, а агрегатор, который считает и twitter, и Facebook, и Studyvz.net (если говорить про Германию) или ВКонтакте-Одноклассники-Мой мир, если говорить про Россию.

О своих новых проектах можете писать на info@roem.ru или
roem.ru/tip

Добавить 2 комментария

  • Ответить

    Проверил свой профиль на ботов — выявил всего трёх среди 1300 фоловеров и двое из них точно не боты. В трендах тем временем большинство твитов — от ботов, форсирующих те или иные хэштеги, очень много повторяющихся твитов. Это сервис для анализа твитов спамеров скорее, чем людей.