Компьютер научили определять «пьяные» твиты

Новости
14:55, 17 марта
1 463
0
Поделиться

Ученые создали систему машинного обучения, которая научилась находить «пьяные» записи в твиттере, и вычислять по их тексту, где в данный момент пользователи пьют.  Об этом в четверг, 17 марта, сообщает N+1.

Фото: depositphotos.ru

В течение года ученые из Рочестерского университета собирали в Нью-Йорке и округе Монро твиты с геотегами. Среди них исследователи выбрали твиты, в которых упоминается алкоголь и относящиеся к нему по контексту слова, такие как «вечеринка», «пиво», «пьяный» и другие. После этого отобранные посты отфильтровали, оставив только те, которые имели непосредственное отношение к употреблению алкоголя.

Твиты отбирались по трем категориям: делает ли твит ссылки на употребление алкоголя, если да, то относится ли этот твит непосредственно к автору поста, и если да, вероятно ли то, что пост был написан во время и в месте распития спиртных напитков. Всего было проанализировано около 11 тысяч твитов. На основе этих данных ученые обучили машину опорных векторов (SVM) распознавать «пьяные» посты по содержанию.

Затем исследователи решили определить, где находятся пользователи во время написания своих твитов — дома или, например, в баре. Для этого ученые скомбинировали несколько методов, использующих геолокацию в твиттере. Так, они учитывали, откуда пользователь пишет чаще всего, откуда был отправлен последний пост за день и где находится место, откуда пользователь обычно пишет между часом ночи и шестью утра.

Но этих данных оказалось недостаточно, чтобы точно определить, где пишутся твиты. Поэтому ученые составили список слов и фраз, которые бы могли точно указывать на то, что твит был отправлен пользователем,  когда он находился дома. В список «домашних» признаков попали такие фразы как «Ура, я дома!» и слова «ванна», «телевизор» или «диван».

После этого твиты были отфильтрованы по геолокации, а сотрудники Amazon Mechanical Turk определили, откуда были написаны посты. На основе этих данных ученые обучили SVM распознавать «пьяные» твиты. В итоге она смогла определить, откуда написаны твиты, с точностью до 70%. Кроме того, исследователям удалось составить карту наиболее популярных мест употребления алкоголя.

В будущем ученые планируют научить систему определять по твитам возраст, пол, этническую принадлежность и другие характеристики пользователей. 

Уже подписчик?
Дождь в вашей почте
Нажав кнопку подписаться, я соглашаюсь получать электронные письма от телеканала Дождь и соглашаюсь с тем, что письма могут содержать информацию рекламного характера.
Дождь в вашей почте
Нажав кнопку подписаться, я соглашаюсь получать электронные письма от телеканала Дождь и соглашаюсь с тем, что письма могут содержать информацию рекламного характера.