Data Science для молодого економіста-кібернетика та системного аналітика чи що таке Kaggle та як провести канікули з користю?

До цього часу думаєш, як провести канікули з користю? Чи думаєш над несправедливістю ситуації, коли для того, щоб знайти роботу, треба вже мати досвід роботи?

Найкращим рішенням для молодого економіста-кібернетика та системного аналітика є одне — Kaggle. Kaggle — це платформа з багатьма можливостями:

конкурси з дослідження даних та машинного навчання;
готові набори даних (datasets) для самостійного вивчення та побудови моделей без прив’язки до конкурсів;
різноманітні професійні дискусії з різної тематики та рівнів учасників;
курси для початківців (за теоретичними основами науки про дані, а також мов програмування Python та R).

Занадто багато всього? Звичайно! Саме тому раджу спочатку звернутися до розділу з курсами та пройти курс по Python, тому що саме ця мова програмування активно використовується в середовищі Data Science для обробки даних. Ця мова також хороша тим, що вона дуже проста і на вивчення її основ ти витратиш не більше кількох тижнів.

Мова R у свою чергу має складніший синтаксис, але набагато ширше академічне застосування. З нею ти встигнеш познайомитись на 4 курсі навчання на улюбленій кафедрі економічної кібернетики та системного аналізу.

Відразу після курсу Python слід пройти також курс Pandas. Pandas – це бібліотека мови Python для очищення та аналізу даних, якою ти користуватимешся більшу частину часу в процесі як самостійної обробки даних, так і підготовки до Kaggle-змагань.

Коли набридне проходити курси, слід відразу перейти до вкладки зі змаганнями, де можна попрактикувати навички. Найбільш популярним для новачків є конкурс прогнозу цін на квартири залежно від певних факторів: розташування, площі, кількості кімнат тощо. Його можна знайти за цим посиланням.

Алгоритм наступний: спочатку ти реєструєшся для участі, даєш згоду на обробку своїх даних, потім завантажуєш дані (тестові та тренінгові) і починаєш писати код для регресійної моделі, коли все готово, створюєш файл з результатами прогнозів твоєї моделі, здаєш його й одразу дізнаєшся про своє місце у рейтингу та похибку у прогнозах моделі. Коли не вистачає власних ідей для побудови моделі, обов’язково звертайся до вкладки Code, де можна знайти безліч робіт досвідченіших учасників, часто з детальним поясненням кожного кроку.

Я також брала участь у цьому конкурсі, моя робота зайняла місце у топ 10% рейтингу учасників. Її можна знайти за посиланням.

Спочатку дуже важко розібратися, що до чого, тому Kaggle опублікував відео для початківців. В описі під відео можна знайти посилання на код для першої здачі роботи — на побудову логістичної моделі (яка дає відповідь так/ні) прогнозування того, чи врятується той або інший пасажир у катастрофі Титанік залежно від свого гендера, стану та наявності родичів на борту.

Навіть якщо ти не перейшов на одне з посилань, дбайливо доданих тобі в цій статті, дивлячись тільки на скріншоти, ти, швидше за все, вже зрозумів, що без знання англійської в Data Science ніяк. Саме тому, якщо твій рівень англійської нижче В1, слід спочатку підтягнути його та паралельно вивчати теоретичні матеріали з обробки даних.

Насамкінець хотіла б відзначити, що особисто для мене Kaggle дійсно стала провідником у світі Data Science та своєрідною соціальною мережею професіоналів у галузі аналізу даних. Саме серед людей, які мають мету, схожу на твою, стає простіше не втрачати мотивації, коли стикаєшся з труднощами.

Знання та навички, отримані під час користування платформою, однозначно стали ключовими, які допомогли мені пройти на стажування з Big Data Engineering у компанії EPAM Systems.

P.S. Користування курсами та участь у змаганнях Kaggle абсолютно безкоштовні, потрібна лише твоя мотивація.

Автор: студентка 4-го курсу Амірханян Мері.