Data Science – co to takiego?

Data Science realnie wkracza w nasze życie

Chcąc zgłębiać tajniki Data Science należałoby, na samym początku, podjąć próbę zdefiniowania zagadnienia. W związku z tym, że zagadnienie jest dość nowym, jeszcze nie do końca zbadanym, istnieje jego wiele definicji. Ciężko jednoznacznie określić jakie są ramy, granice. Mamy niepowtarzalną okazję obserwować jak na naszych oczach ewoluuje nowa dziedzina nauki, techniki, życia…

Z pewnością możemy stwierdzić, iż to dziedzina multidyscyplinarna – osoba zajmująca się tą tematyką, powinna być ciekawa świata. Przydatną może okazać się tak naprawdę każda tzw. miękka jak i twarda: z jednej strony należy być dociekliwym, spostrzegawczym, cierpliwym i inteligentnym, jednak tak samo ważne są znajomość programowania, matematyki czy wiedza dziedzinowa przetwarzanych danych.

Zysk popularności

Przed przystąpieniem do głębszej analizy zagadnienia warto zaważyć, że Data Science zyskuje coraz większą popularność. W 2017 roku na Politechnice Wrocławskiej po raz pierwszy otwarto ten kierunek dając nowe możliwości studentom. Możliwość zgłębiania wiedzy w tym obszarze mamy również na Politechnice Warszawskiej, Wyższej Szkole Biznesu w Dąbrowie Górniczej, Uniwersytecie Warszawskim, Uniwersytecie im. Adama Mickiewicza w Poznaniu i wielu, wielu innych.

Dodatkowo, na rynku pracy pojawia się coraz więcej ofert pracy, w których stanowisko jest jednoznacznie określone jako “Data Scientist”. Nie chcąc faworyzować konkretnych firm, korporacji zaznaczę tylko, że wśród nich można znaleźć renomowane instytucje finansowe, telekomunikacyjne, informatyczne, medyczne.

Definicja

Tyle słowem wstępu. Przejdźmy do meritum. W języku polskim pojęcie “Data Science” jest tożsame z pojęciem “danologia”. Co prawda “…Polacy nie gęsi…” jednak czysto subiektywnie uważam, że niektóre próby przełożenia pojęć wywodzących się z języka obcego na nasz język ojczysty, nie do końca są trafione. Być może jest to spowodowane, tym że to nowe pojęcie, jeszcze trochę obce, nieznane. Nie wiem.

Chcąc zbadać etymologię pojęcia “danologia” moje próby zakończyły się fiaskiem, nie udało mi się znaleźć takich informacji. Jako ciekawostkę, podkreślę, że na dzień przygotowywania tego artykułu internetowa wersja słownika języka polskiego nie posiada takiego hasła.

Hasło to pojawia się w niektórych polskojęzycznych publikacjach, jednak co ciekawe – dziś polska wersja WIKIPEDII nie posiada hasła “Danologia” ani “Data Science”, możemy jednak przeczytać anglojęzyczny artykuł.

Jak podaje Marcin Szeliga w swojej książce “DATA SCIENCE I UCZENIE MASZYNOWE”, a także źródła internetowe (choćby wspomniana WIKIPEDIA) – termin “datalogy” (pol. danologia) został po raz pierwszy użyty przez przez Petera Naura w 1960 r. określając w ten sposób metody automatycznego przetwarzania danych przy wykorzystaniu komputerów. Możemy zatem stwierdzić, że “danologia” to nauka o danych – “dano-” – pochodzące od słowa “dane” oraz “-logia” – łac. λόγος – logos – „rozum”, „słowo”. Takie wytłumaczenie jest lakonicznym, nie wyjaśnia właściwie nic.

Czym zajmuje się data Science

Możemy powiedzieć, że data science zajmuje się analizowaniem, przetwarzaniem i opracowywaniem dostępnych danych cyfrowych, zgromadzonych wcześniej na nośnikach pamięci masowej. Najczęściej są to ogromne zbiory usystematyzowanych danych przechowywanych, np. w postaci tabel(CSV, XLS), baz danych(Oracle, SQLite, NoSQL), plików tekstowych, strumieni danych,etc. Data science dostarcza zasady, procesy i techniki pozwalające zrozumieć badane zjawisko. Należy mieć na uwadze, że danologia pomaga w zrozumieniu źródła danych zarówno człowiekowi jak i (zazwyczaj) polepsza wyniki algorytmów, które je wykorzystują. Poznajemy strukturę i typ danych – umożliwi nam to prawidłowe zaprojektowanie procedur walidacji i oceny poziomu jakości.

Opracowanie danych

Podczas etapu przygotowywania danych dokonywane są standaryzacja i normalizacja wartości (zagadnienie statystyki polegające na przetworzeniu danych pierwotnych do małego, zadanego przedziału i określenie wartości granicznych – minimalnej i maksymalnej). Rekordy z brakującymi danymi mogą zostać wzbogacone wyliczonymi atrybutami lub całkowicie pominięte. Zgodnie z filozofią data science zgromadzone dane muszą być wartościowe. Zazwyczaj niepożądane są te atrybuty, które posiadają stan nieokreślony – odpowiednik “NULL” z SQL, chyba że w zadanym zbiorze źródłowym wartość NULL niesie mimo wszystko jakąś informację .

Chcąc postawić granice między takimi pojęciami jak Big Data, Data Science, Machine Learning możemy zauważyć, że:

  • Big Data – bardziej kojarzona jest ze sprzętowym aspektem gromadzenia danych, daje narzędzia dostępu i pracy na danych;
  • Data Science – zapewnia techniki umożliwiające poznanie danych oraz przygotowanie ich do dalszego efektywnego wykorzystania;
  • Machine Learning – Łączy dwie poprzednie dziedziny. Dodatkowo wykorzystuje skomplikowane algorytmy, które korzystają z dostarczonych im danych i prezentują zbadane wnioski.

Oczywiście należy mieć na uwadze, że to bardzo zgrubne przedstawienie problematyki. Ma ono na celu nakreślenie obszarów po których się poruszamy. Każdy z nich to temat prac naukowych, dogłębnych badań i analiz.

Podsumowanie

Podsumowując, bez zbędnego rozpisywania jeśli miałbym wskazać rzeczową definicję Data Science, brzmiała by ona tak:

Data Science – zautomatyzowane opracowywanie zbiorów danych (dążąc do jak najwyższej jakości merytorycznej i strukturalnej), w celu optymalnego wykorzystania ich w procesach uczenia maszynowego, dzięki dogłębnej analizie i zrozumieniu danych.

Dodaj komentarz