Ibis Data Lake je softversko rešenje za implementaciju Data lake okruženja po referentnoj arhitekturi i najboljim praksama razvijenim od strane razvojnog centra kompanije Ibis Instruments koji se bavi Big data tehnologijama od 2014. godine. U Ibis Data Lake je ugrađena najbolja industrijska praksa i najbolja iskustva stečena u velikom broju produkcionih data lake implementacija urađenih od strane Ibis Instrumentsa.

Šta je Data Lake?

Data Lake je sabirno mesto za prikupljanje i čuvanje struktuiranih i nestruktuiranih podataka. Podaci se mogu smeštati u svom izvornom obliku bez potrebe da se transformišu na bilo koji način. Nakon smeštanja, moguće je praviti različite vrste upita, pretraga i obrada podataka koristeći alate za analitiku, obradu u realnom vremenu i algoritme mašinskog učenja. Na ovaj način, kompanije mogu dobiti kvalitetnije informacije iz podataka koje već imaju, a koje do sada nisu mogle da koriste u svom izvornom obliku.

Data Lake ili Data WareHouse

Data Warehouse je baza optimizovana za analizu relacionih podataka koji dolaze iz transakcionih Sistema i niza poslovnih aplikacija. Struktura podataka je unapred definisana i optimizovana za pretragu SQL upitima.

Data Lake je proširenje koncepta Data Warehouse-a jer pored struktuiranih skladišti i nestruktuirane podatke čiji su izvori mobilne aplikacije, IoT senzori ili socijalne mreže. Oni se pretražuju na drugi način, koristeći mašinsko učenje, algoritme za pretragu teksta, Big data analitiku.

Zašto je potreban Data Lake

Organizacije koje dobijaju kvalitetne informacije i zaključke iz svih svojih podataka ostvaruju značajnu prednost u odnosu na svoju konkurenciju. Ovakve organizacije ostvaruju rast prihoda analizirajući podatke iz logova, web sajt klikova, socijalnih mreža, itd.. One na ovaj način mogu brže da uoče trendove i reaguju na promene.

 

Ibis Data Lake

Ibis Data Lake donosi:

  • Implementaciju Data lake-a po referentnoj arhitekturi i najboljim praksama
  • Konfiguraciju i tjuniranje sistema po najboljim praksama
  • Obuku za korišćenje sistema

Omogućuje cost-eficient način za smeštanje velikih količina podataka koji se tipično ne smeštaju na DWH, uključujući struktuirane, polu struktuirane i nestruktuirane podatke, njihovu obradu putem map-reduce algoritama i pristup podacima putem SQL-like interfejsa.

Data Lake sa slojevima za integraciju podataka, smeštanje podataka na Hadoop file sistemu (HDFS file sistem, HBase big data baza podataka i Kudu) i slojem za obradu podataka i pristup istima omogućuje organizacijama da uspostave landing zonu za sirove podatke i da realizuju prvu fazu uspostavljanja data lake-a – centralizaciju skladištenja podataka.

Pored standardnog seta funkcionalnosti u okviru Ibis data lake postoji i dodatak pre-integrisanog sloja za data analitiku koji uključuje set alata za mašinsko učenje, data mining i statističku obradu podataka koji su smešteni na big-data sloju rešenja.

Ibis Data Lake donosi sledeće data science komponente:

  • R-Studio
  • Python
  • Knime-open source
  • Jupiter

Pored dodatnih data science komponenti postoji i napredni modul za integraciju podataka NiFi, koji omogućuje moćan i jednostavan interfejs za data integracije – ETL.

Data Science dodatak stvara tehničke preduslove da se u organizaciji formira značajan data-science tim koji može efikasno da se bavi data analizom i eksperimentisanjem sa podacima, sa ciljem pronalaženja skrivenih vrednosti u njima.

Pored data science modula postoji i komponenta za analitičku obradu strimova podataka u realnom vremenu. Komponente koje to omogućavaju su: Apache Flink i Kafka. One omogućavaju organizacijama uspostavljanje kompletnog data-processing okruženja usklađenog sa lambda arhitekturom koja predstavlja standard za ovakva okruženja.

Ibis Data Lake Architecture

Data-Lake-grafikon-1

Data
ingestion/
integration

Data
storing (Data lake)

Data access and
processing

Data analytics

Data visualisation
(not included) in Ibis license,
may be purchased separately

Hadoop distribucije

Ibis Data Lake je agnostičan sa stanovišta Hadoop distribucije pa se može implementirati na nekoj od dostupnih distribucija:

U slučaju odabira komercijalne distribucije Hadoopa, neophodno je nabaviti dodatne licence za istu, a Ibis može opciono da ih ponudi, s obzirom da ima partnerstvo sa vodećim vendorima na ovom polju poput Cloudera-e.

Data lake se implementira u on-premise ili kao Cloud/hibridna opcija, a takođe se može implementirati i kao cloud-native rešenje putem cloud servisa nekog od Cloud provajdera, poput: Microsoft Azure, IBM Softlayer, Oracle Cloud, … U ovom slučaju cloud servisi se dodatno licenciraju I mogu biti takođe opciono ponuđeni od strane Ibis Instrumentsa.

grafika-vezija-3-700x595px

Koristimo "cookies" kako bismo unapredili funkcionalnost našeg veb sajta. Pritiskom na bilo koji link na ovoj stranici prihvatate korišćenje "cookies".

Ibis