Размислуваш како да го скратиш времето потребно за решавање на проблеми во Data Science?
Одговорот е автоматизација. Но, предуслов за автоматизација е структура, па затоа најпрво ќе започнеме со Data Science процесот. Овој процес содржи шест фази: Domain Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, и Deployment. И секако, секоја фаза има повеќе задачи. Целта на ова предавање е да научиш повеќе за сите шест фази, и нивните задачи.
Machine Learning е компонента во фазата Modeling. Automated Machine Learning (AutoML) е област
која покрива разни теории и практични алатки за автоматизација на Machine Learning,
додека Automated Data Science е поширока област за максимизација на автоматизација на целиот процес.
На ова предавање, инструкторот Стефан Ставрев ќе те запознае со таканаречените ML Pipelines, како DAG графови од OOP оператори (reusable components), структурата и хиерархијата на тие оператори, платформи како Rapid Miner, DataRobot, Dataiku, KNIME и H20 и на крај ќе направи споредба на двата начини за креирање на pipelines: преку coding во Python или GUI-based (со Rapid Miner).
Покрај тоа, Стефан ќе ни објасни што значи соодветна инфраструктура за сево ова и како нашите pipelines да ги направиме portable, scalable, reproducible и reusable.