Компьютер научили определять «пьяные» твиты

17/03/2016 - 14:55 (по МСК)

Ученые создали систему машинного обучения, которая научилась находить «пьяные» записи в твиттере, и вычислять по их тексту, где в данный момент пользователи пьют.  Об этом в четверг, 17 марта, сообщает N+1.

Фото: depositphotos.ru

В течение года ученые из Рочестерского университета собирали в Нью-Йорке и округе Монро твиты с геотегами. Среди них исследователи выбрали твиты, в которых упоминается алкоголь и относящиеся к нему по контексту слова, такие как «вечеринка», «пиво», «пьяный» и другие. После этого отобранные посты отфильтровали, оставив только те, которые имели непосредственное отношение к употреблению алкоголя.

Твиты отбирались по трем категориям: делает ли твит ссылки на употребление алкоголя, если да, то относится ли этот твит непосредственно к автору поста, и если да, вероятно ли то, что пост был написан во время и в месте распития спиртных напитков. Всего было проанализировано около 11 тысяч твитов. На основе этих данных ученые обучили машину опорных векторов (SVM) распознавать «пьяные» посты по содержанию.

Затем исследователи решили определить, где находятся пользователи во время написания своих твитов — дома или, например, в баре. Для этого ученые скомбинировали несколько методов, использующих геолокацию в твиттере. Так, они учитывали, откуда пользователь пишет чаще всего, откуда был отправлен последний пост за день и где находится место, откуда пользователь обычно пишет между часом ночи и шестью утра.

Но этих данных оказалось недостаточно, чтобы точно определить, где пишутся твиты. Поэтому ученые составили список слов и фраз, которые бы могли точно указывать на то, что твит был отправлен пользователем,  когда он находился дома. В список «домашних» признаков попали такие фразы как «Ура, я дома!» и слова «ванна», «телевизор» или «диван».

После этого твиты были отфильтрованы по геолокации, а сотрудники Amazon Mechanical Turk определили, откуда были написаны посты. На основе этих данных ученые обучили SVM распознавать «пьяные» твиты. В итоге она смогла определить, откуда написаны твиты, с точностью до 70%. Кроме того, исследователям удалось составить карту наиболее популярных мест употребления алкоголя.

В будущем ученые планируют научить систему определять по твитам возраст, пол, этническую принадлежность и другие характеристики пользователей. 

Также по теме
    Другие новости
    Российская армия ударила по поселку Удачное Донецкой области. Погибли три человека, пострадали еще четверо Вчера в 22:11 «Верстка»: вернувшиеся из Украины российские военные за два года убили более 100 человек Вчера в 21:02 Европарламент признал президентские выборы в России нелегитимными и призвал предоставить поддержку несогласным россиянам Вчера в 16:37 С начала войны более 900 россиян стали фигурантами уголовных дел за антивоенную позицию Вчера в 16:36 Школьницу из Читы, нарисовавшую граффити «Смерть режиму», приговорили к 3,5 года колонии Вчера в 15:07 Экс-замминистра культуры приговорили к семи годам колонии по делу о махинациях с «Пушкинскими картами» Вчера в 15:06 Вице-губернатора Самарской области обязали вернуться на войну, его досрочное увольнение признали незаконным Вчера в 14:42 В биографии Паоло Пазолини цензурировали строки о «личных пристрастиях» режиссера Вчера в 14:41 ФСИН предложила новую форму одежды для заключенных. Им могут разрешить пижамы и легинсы Вчера в 14:40 «Новая газета Европа»: ЕС и США увеличили поставки товаров в «дружественные» России страны на 133 млрд долларов Вчера в 14:39