Большие данные и что с ними делать: рассказывает Артур Хачуян

В рамках XIII Тюменского цифрового форума и выставки информационных технологий «ИНФОТЕХ – 2020» состоялась авторская лекция Артура Хачуяна – федерального спикера и одного из мастодонтов мира больших данных. Лекция «Как захватить мир при помощи BigData» прошла в онлайн-формате.

Интерес общества к большим данным появился достаточно давно. Сейчас, по словам спикера, на самом деле практически никто не знает, где применяются большие данные и как найти сотрудника, который бы занимался ими. Сам термин большие данные появился в начале 2000х. Многие использовали его для определения алгоритмов и огромных массивов информации и выводов, которые они позволяют сделать. «Собирать большие данные мы умеем уже достаточно давно, но все такие самое важное, это именно обработка и анализ полученной информации» - говорит Артур.

Большие данные описываются тремя аксиомами. Первое – это объем. Принято считать, что классические большие данные начинаются с 5 петабайт или после миллиарда строк. Объем хранения должен позволять сохранять всю информацию за весь промежуток времени. Второе – это скорость получения выводов из данных, которая должна быть не меньше, чем скорость поступления новых данных в хранилище. Это один из важнейших критериев дата-систем. Третий пункт говорит о так называемом многообразии. Это означает, что решение на основе больших данных должно иметь возможность анализировать все многообразие информации в хранилище.

Несмотря на все возрастающие объемы информации, её главным источником являются люди. Это происходит по причине тесного развития сетей сотовой связи 3 и 4 поколения, социальных сетей и электронных СМИ. И именно это повлияло на возросший интерес к большим данным, так как огромные транзакционные данные и модели, такие как, например, поведенческие оценки и взаимодействие в тех или иных рекламных проектах, стали приносить коммерческую эффективность.

На данный момент большая часть рынка, а это 60%, принадлежит проектам на основе технологий машинного обучения. Это все, что касается автоматизированных выводов и построения прогнозов. «Машинное обучение может создавать прогнозы линейно и нелинейно зависимых параметров, классифицировать контент, находить взаимосвязи внутри хранилища данных и создавать рекомендации к действию» - отмечает спикер. Но тем не менее, основная проблема машинного обучения сейчас в том, что все действие происходит строго внутри обучающей выборки. Важно понимать, что такие алгоритмы не создают новые данные и зависимости, а действуют на основании уже заложенных.

Одним из эффективных примеров применения массива больших данных является моделирование поведения пользователя. В частности, для решения задач правоохранения анализируются модели поведения граждан и их взаимодействие друг с другом. Одним из самых популярных кейсов здесь является Чемпионат мира по футболу, в рамках которого алгоритмы прогнозировали места скопления агрессивных фанатов и именно туда направлялись машины патрульно-постовой службы.

Также анализ больших данных позволяет эффективно решать урбанистические задачи. Геоинформационные системы прогнозируют перемещение жителей внутри города и помогают правильно планировать городскую инфраструктуру. Например, зная трафик на определенных улицах, можно понять, куда перенести остановку или, например, разделить потоки работающих людей, студентов и приезжих для того, чтобы правильно поставить щиты наружной рекламы.

Что касается специалистов на рынке больших данных, то сейчас он на 50% состоит из перепрофилированных программистов, 35% — это студенты и новички в профессии. 15% приходится на мультидисциплинарных специалистов. По прогнозу аналитиков, в ближайшие 5 лет будет рост мультидисциплинарных специалистов до 40%. Это специалисты, у которых есть компетенции по анализу больших данных в рамках определенной профессии. Это может быть журналист или программист. Тенденции идут к тому, что сотрудник любой профессии должен обладать обширными компетенциями, в том числе должен уметь получать данные, анализировать их и выводить решения для получения эффективных результатов лично своей работы и компании в целом.

Просмотреть лекцию в записи можно на сайте мероприятия в разделе «Онлайн-трансляции».


 

06 ноября 2020 15:30
Введите слово или в фразу в строку поиска. Например: Документы по СЭД