Waarom Splunk en Google zo bizar snel zijn? MapReduce

Altijd al willen weten hoe het toch mogelijk is dat Google binnen een halve seconden miljoenen resultaten op je scherm kan toveren? Ook zo verbaast over de snelheid waarmee Splunk over enorme hoeveelheden data kan beschikken en aan je terug kan geven? MapReduce is het antwoordt. Een techniek die Google al langer gebruikt en Splunk sinds de koppeling met Hadoop.

Wat is MapReduce?

MapReduce is een model voor het gedistribueerd afhandelen van data geïntroduceerd door Google in 2004. Het fundamentele concept van MapReduce is opgesplitst in twee delen; een map functie die de ruwe data opsplitst in statistieken en een reduce functie die alle statistieken samenvoegt tot een antwoordt. Een oneindig aantal map functies kan tegelijkertijd draaien zonder communicatie naar elkaar. Op het moment dat alle data door de map functie is gegaan kan de reduce functie gedraaid worden om alle data te combineren tot een resultaat.

Voor batch pr0cessing op grote schaal en het snel ophalen van data, veelgebruikt in zoekmachine-technologie, is MapReduce de snelste, meest kosteneffectieve en meest schaalbare oplossing voor het teruggeven van resultaten. De meeste big data oplossingen van nu zijn gebaseerd op dit model.

MapReduce talen en frameworks.

Google heeft zijn eigen implementatie van MapReduce gemaakt. Er is ook een open source implementatie die heel erg in populariteit toeneemt genaamd Hadoop. Om makkelijk door de hoeveelheden data heen te zoeken hebben zowel Google als Yahoo een eigen laag bovenop MapReduce gebouwd. Bij Google heet deze Sawzall en bij Yahoo Pig. Splunk heeft natuurlijk zijn eigen zoektaal die we al kennen.

Hunk. Splunk bovenop Hadoop en NoSQL!

Als je al gebruik maakt van Hadoop of NoSQL is het lastig om zonder andere tools de data te analyseren op een manier dat je er ook echt iets mee kunt. Hunk helpt je daarbij door als een soort patch op Hadoop of NoSQL te gaan zitten. Hiermee krijg je de krachtige tools van Splunk tot je beschikking op je bestaande data.

Splunk-HUNK

Conclusie

Big Data maakt dat je enorme hoeveelheden data tot je beschikking hebt. Niets is vervelender dan weer heel veel tijd verliezen omdat je niet door de grote hoeveelheden data heen komt. Splunk helpt je daarbij door met de voor jou bekende zoektaal bovenop data te gaan zitten. Hunk is daar nog een aanvulling op door een soort laag bovenop Hadoop en NoSQL te plaatsen waarmee je ook deze data kunt ontsluiten. Wil je meer weten over Splunk of Hunk? Laat het vooral weten.

Over Coen Meerbeek

Splunk consultant @ Blue Factory, eigenaar en oprichter @ BuzzardLabs, basketbalspeler en Xbox-gamer. Lees meer van Coen op Launchers.nl en Twitter.

Laat wat van je horen

*