Запознај се со Automated Data Science, односно автоматизација на самиот Data Science процес, со помош на Machine Learning Pipelines и Microservices архитектура
Што претставува ова предавање?
Размислуваш како да го скратиш времето потребно за решавање на проблеми во Data Science?
Одговорот е автоматизација. Но, предуслов за автоматизација е структура, па затоа најпрво ќе започнеме со Data Science процесот. Овој процес содржи шест фази: Domain Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, и Deployment. И секако, секоја фаза има повеќе задачи. Целта на ова предавање е да научиш повеќе за сите шест фази, и нивните задачи.
Machine Learning е компонента во фазата Modeling. Automated Machine Learning (AutoML) е област која покрива разни теории и практични алатки за автоматизација на Machine Learning, додека Automated Data Science е поширока област за максимизација на автоматизација на целиот процес.
На ова предавање, инструкторот Стефан Ставрев ќе те запознае со таканаречените ML Pipelines, како DAG графови од OOP оператори (reusable components), структурата и хиерархијата на тие оператори, платформи како Rapid Miner, DataRobot, Dataiku, KNIME и H20 и на крај ќе направи споредба на двата начини за креирање на pipelines: преку coding во Python или GUI-based (со Rapid Miner).
Покрај тоа, Стефан ќе ни објасни што значи соодветна инфраструктура за сево ова и како нашите pipelines да ги направиме portable, scalable, reproducible и reusable.
Инструктор:
Стефан Ставрев
Software Engineer во Musala Soft
Основач на AI startup Jadro.AI. Aвтор на книгите “Foundations of ML” и “Automated Data Science And Artificial General Intelligence”.
Што MOжеш да очекуваш од предавањето?
The Data Science Process
Научи ја структурата на овој процес за автоматизација кој се состои од 6 фази: Domain Understanding, Data Understanding, Data Preparation, Modeling, Evaluation & Deployment.
Machine Learning Pipelines
Во овој дел ќе се фокусираме на ML pipelines како DAG графови од OOP оператори (reusable components). Ќе научиме повеќе за операторите, нивната организација, ќе разгледаме различни платформи и ќе ги споредиме начините за креирање на pipelines.
Containerized Microservices
Нашите pipelines треба да ги имаат следните својства: portable, scalable, reproducible, reusable. За различни таскови можеме да користиме различни технологии. Затоа ќе направиме осврт на и на Microservices архитектура, Docker и Kubernetes.
Q&A
Во текот на предавањето ќе имаме Q&A сесија во која ќе можеш во реално време да му поставуваш прашања на инструкторот
Прва во Македонија и регионот
ONLINE АКАДЕМИЈА ЗА DATA SCIENCE
Стани дел од најтемелната 12 месечна програма што ќе ти донесе успешна и високо платена кариера