Зарождается новая дисциплина — обработка сверхбольших объемов данных
Вил ван дер Аалст и сотрудники Научно-учебной лаборатории процессно-ориентированных информационных систем (ПОИС)
Какое влияние «большие данные» (big data) оказывают на современное общество? Кто такой «исследователь данных» (data scientist) и какими компетенциями он должен обладать? Об этом на лекции в Высшей школе экономики рассказал профессор Технического университета Эйндховена (Нидерланды) Вил ван дер Аалст, ставший почетным профессором ВШЭ.
Профессора Технического университета Эйндховена Вила ван дер Аалста связывают с Высшей школой экономики многолетние отношения. Он принимал участие в создании магистерской программы «Системная и программная инженерия» и Международной научно-учебной лаборатории процессно-ориентированных информационных систем, научным руководителем которой он был до 2014 года. Кроме того, будучи руководителем рабочей группы IEEE Task Force on Process Mining, которая включает более 50 университетов, научных центров и IT-компаний, профессор ван дер Аалст содействует интеграции исследователей Вышки в глобальные исследовательские сети. И сейчас профессор ван дер Аалст участвует в совместных исследовательских проектах и готовит публикации вместе с коллегами из НИУ ВШЭ.
Вил ван дер Аалст — один из ведущих специалистов в сфере моделирования и анализа информационных систем. Его также считают создателем и лидером нового, интенсивно развивающегося в последние годы научного направления — process mining. Идеи профессора ван дер Аалста оказали большое влияние на исследователей и разработчиков программного обеспечения.
Что такое «большие данные» (big data) и какова их роль в современном мире?
Общество всего за несколько лет перешло от аналогового к полностью цифровому формату своего существования. Еще 10-20 лет назад компьютеры рассматривались как специальная техника, доступная только профессионалам. Сейчас каждый из нас ежедневно использует смартфон или планшет, оплачивает покупки электронной картой, заказывает билеты через Интернет и т.д.
Эти серьезные технологические изменения оказали невероятное влияние на науку, бизнес и повседневную жизнь человечества. Все существующие информационные системы постоянно продуцируют огромные объемы данных (big data). Записывается всё обо всём, в любое время, и в любом месте. Транспортные компании, банки, страховые компании и другие бизнесы имеют в основе своего функционирования процессно-ориентированные информационные системы. Каждый из нас, покупая кофе, отправляя электронную почту, совершая телефонные звонки, заправляя автомобиль, участвует в процессе сбора данных. Вещи вокруг нас тоже производят данные: только iPhone содержит более 14 сенсоров для приема и восприятия информации. Данных с каждым годом становится все больше и больше, их количество возрастает согласно закону, аналогичному закону Мура для транзисторов. Их общий объем примерно удваивается каждые два года.
Хотя технологии хранения и обработки данных с 1960-х сделали огромный шаг вперед, объемы данных растут опережающими темпами. Становится ясно, что зарождается новая дисциплина — обработка сверхбольших объемов данных. Аналогично компьютерным наукам, выросшими из прикладной и фундаментальной математики с появлением компьютеров, науки о данных бурно развиваются, имея в изобилии данные как объект для изучения.
При этом перед исследователями всего мира встает задача эффективного использования всего объема имеющихся данных. Это потенциально может приводить к увеличению эффективности функционирования коммерческих и государственных компаний, т.е. улучшать повседневную жизнь человечества.
Гарантированно востребованная профессия
Для решения задач анализа данных современные высшие учебные заведения должны готовить кадры по принципиально новым учебным программам. Именно поэтому во всем мире развивается синтетическая профессия «исследователь данных».
Исследователи данных должны обладать навыками и знаниями из нескольких разнородных областей: компьютерных наук и программирования, математических методов, а также бизнес-администрирования и управления. Подобные синтетические специальности всегда очень востребованы, но и сложны в освоении. Ключевыми методами анализа данных сегодня являются машинное обучение, data mining, process mining, визуальная аналитика, анализ временных рядов и другие. Таким образом, науки о данных как бы заполняют собой разрыв между классической математикой и прикладными компьютерными методами.
Сегодня перед исследователем данных стоит множество открытых вопросов. Некоторые из них поставлены уже довольно давно, а некоторые возникли только в последние годы.
Вот некоторые из них:
- Как анализировать данные в реальном времени без остановки процесса?
- Как избегать явной и неявной дискриминации в ходе анализа данных?
- Как отвечать на вопросы, которые еще даже не поставлены?
- Как решать задачи анализа, сохраняя приватность данных?
- Кто принимает решение в конечном итоге: каково место эксперта?
- Как соотносятся корреляции и причинно-следственные связи?
Эти вопросы еще ждут своих исследователей.
А абитуриентам и студентам стоит подумать над тем, не выбрать ли для себя профессию исследователя данных, которая гарантированно будет востребована в ближайшие 10-20 лет. Исследователи данных в недалеком информационном будущем займут примерно такое же место среди других профессий, какое сейчас занимают программисты и проектировщики информационных систем всех видов.
Вам также может быть интересно:
На ФКН НИУ ВШЭ разработали систему мониторинга для эксперимента БАК
Ученые из Научно-учебной лаборатории методов анализа больших данных (LAMBDA) факультета компьютерных наук НИУ ВШЭ создали систему мониторинга, которая используется на LHCb (Large Hadron Collider beauty experiment) Большого адронного коллайдера. Она позволяет отслеживать, насколько качественны собранные данные, а также помогает операторам быстро находить поломки.
Россия и Москва в гонке за искусственный интеллект
За последние пять лет Россия вышла на 17-е место среди топ-30 стран по числу публикаций в области искусственного интеллекта и демонстрирует темпы роста публикационной активности выше среднемировых. При сохранении текущих темпов роста Россия может достичь 7 места к 2025 г., а к концу 2030 г. — будет уступать только Индии, Китаю и США. Об этом говорится в исследовании ИСИЭЗ НИУ ВШЭ.
4 причины поступить на программу «Коммуникации, основанные на данных»
До 16 августа продолжается прием в магистратуру Вышки, которая готовит профессионалов в сфере цифровых рекламных коммуникаций. Рассказываем, почему нельзя упускать шанс поступить на эту программу.
В магистратуре ВШЭ будут готовить HR-менеджеров нового поколения
Студентов новой магистерской программы «HR-аналитика» научат управлять человеческими ресурсами с помощью анализа данных и машинного обучения.
Ведущий научный сотрудник факультета компьютерных наук ВШЭ стал координатором нового эксперимента в CERN
Федор Ратников, ведущий научный сотрудник научно-учебной лаборатории методов анализа больших данных (LAMBDA), назначен координатором проекта в коллаборации SHiP. Он будет отвечать за разработку и проектирование активной магнитной защиты детектора эксперимента.
Data Culture: Вышка обучит всех своих студентов работе с данными
В Вышке запускается проект Data Culture. Начиная с первого курса студенты всех образовательных программ бакалавриата будут учиться работе с данными, на ряде программ они также познакомятся с методами машинного обучения и искусственного интеллекта. С сентября 2017 года курсы по работе с данными будут включены в учебные планы на более чем половине бакалаврских программ. С 2018 года к проекту примкнут остальные программы.
Что могут и чего не могут дать «большие данные»
14 марта в Высшей школе экономики в рамках серии дискуссий «Форсайт финансовых профессий» состоялся круглый стол на тему: «Использование Big Data в финансах». Обсудить вопрос собрались ученые московских и ведущих региональных вузов, а также эксперты, представляющие бизнес-структуры.
Студент магистерской программы «Системы больших данных» принял участие в форуме IBM Best Student Recognition Event-2015
С 8 по 10 июля 2015 года в Амстердаме (Нидерланды) прошел очередной ежегодный форум IBM Best Student Recognition Event. Корпорация IBM проводит это мероприятие с 2008 года и собирает на него лучших студентов из стран Европы. Всего в этом году в форуме приняло участие около 70 студентов, среди них студент НИУ ВШЭ Дмитрий Шостко. Дмитрий учится на магистерской программе «Системы больших данных» по направлению «Бизнес-информатика» и входит в первую десятку лучших студентов в текущем рейтинге за 2-й семестр.
Магистерская программа «Системы больших данных» расширяет международное сотрудничество
С нового учебного года студенты магистерской программы «Системы больших данных» смогут участвовать в программе двойных дипломов с Университетом Пассау (Германия). Годом ранее начало действовать аналогичное соглашение с Университетом прикладных наук «Техникум Вена» (Австрия). Таким образом, студенты этой программы могут рассчитывать на получение, помимо диплома Вышки, диплома одного из двух иностранных вузов.
Вышка расширяет компетенции в методах анализа больших данных
На факультете компьютерных наук, созданном ВШЭ совместно с компанией Яндекс, открылась лаборатория методов анализа больших данных (LAMBDA). Цель новой научно-учебной лаборатории — сформировать исследовательский центр мирового уровня для решения фундаментальных задач в области компьютерных наук и развития методов обработки и анализа Big Data.