Delta Lake avec Apache Spark
Il existe différent format de fichier pour stocker la donnée : parquet, avro, csv. Connaissez-vous le format Delta Lake ? Découvrons les fonctionnalités de ce format.
Sommaire
Le DevFest est un évènement sur deux jours qui réunit toute la communauté de développeurs autour de conférences orientées sur le web et le cloud computing. Les sujets sont variés. Cela passe par du Web, Mobile et par toutes les technologies back avec du Cloud, Big Data, Machine Learning, DevOps, et enfin des sujets plus ouverts à la découverte.
Chaque année un nouveau thème est choisi. Cette année c'était le thème de l'espace. C'est donc tout naturellement que la fusée Eleven Labs et les astronautes nantais ont assisté au DevFest.
Trois astonautes étaient présents : Marie, Thierry et Carl. Chacun a pu assister à différents talks, selon leur intérêt pour les sujets présentés. Voici leurs retours !
La Cybersécurité est souvent associée aux failles et attaques, à la confidentialité, et à la disponibilité des infrastructures. Mais les catastrophes naturelles restent négligées comme risques majeurs dans nos métiers.
Cette conférence, qui était orientée sur la sécurité et l'alerte aux populations m'a beaucoup intéressé puisque qu'elle parlait de scénarios catastrophe qui pourraient arriver n'importe quand. Le problème est que nous ne sommes pas préparés, ni même informés.
Cela m'a permis de découvrir le monde de la radio amateure et des moyens simples pour commencer à expérimenter. Par exemple, avec un récepteur TNT en USB il est possible d'écouter les avions, d'intercepter des messages en clair, etc.. C'est donc bien du hacking au sens premier et non celui qui est médiatisé. Un autre exemple de hack, c'est l'ajout d'un récepteur FM pour diffuser une alerte dans les détecteurs d'incendie.
Cette conférence, bien que non axée sur le web, était intéressante et permet d'ouvrir ses connaissances sur d'autres domaines.
Git est l'outil de versionning le plus utilisé dans le monde. Mais bien souvent, il est utilisé de manière basique sans une vraie compréhension de son fonctionnement interne. Et dès qu'une personne est "experte", elle est très souvent solicitée pour répondre à des questions récurrentes.
La conférence m'a beaucoup intéressé car elle n'a pas fait qu'une liste de commandes git. Elle a fait la démonstration d'un projet fictif très proche du réel. Il y a eu des explications et des schémas simples et faciles à comprendre.
Excellent talk Git Dammit, quelques bonnes commandes pour un repo propre. #DevFestNantes pic.twitter.com/Etsf7kTFFT
— Anthony Manach (@tonicfx) 19 octobre 2018
Voici quelques commandes et concepts que j'ai appris :
Fix du commit A au milieu de la branche
git commit --fixup A
crée un commit de fixupgit rebase -i A~ --autosquash
git rebase avec le commit de fixupSupprimer un commit
git reset head~ --soft
= bouge le HEAD sur le commit précédentgit reset head~ --mixed
= bouge le HEAD et l'index sur le commit précédentgit reset head~ --hard
= bouge le HEAD et l'index et le working directory sur le commit précédentBranche de tracking = miroir de la branche sur le repo distant en mode read only.
Faire un rebase à partir d'un commit sur la branche master
git rebase ${SHA1}~ --onto master
Faire un cherry-pick sans commiter
git cherry-pick -n
Ajouter les modifications dans plusieurs commits
git add -p
Les slides de la conférence sont sur Github: Git dammit talk
Guillaume Laforge, developer advocate chez Google, nous a parlé de Google Cloud et notamment de l'offre Serverless de Google.
L'avantage du serverless c'est que l'on ne s'occupe pas des serveurs. Notre provider Cloud s'en charge pour nous, et nous pouvons nous concentrer sur le développement de notre application en elle même. C'est aussi avantageux au niveau des coûts et de la scalabilité des serveurs. Google nous propose 2 options :
La présentation est concentrée sur les nouveautés de ces 2 offres, avec une application que l'on a pu tester en live.
Retrouvez la présentation ici et les slides ici.
Cette présentation nous a donné envie de tester ELM. Vous imaginez ? Finies les exceptions runtime, les problèmes de compatibilité entre navigateurs, etc. !
Say goodbye to runtime exceptions with ELM by @JoGrenat #DevFestNantes pic.twitter.com/zFNUniPWfz
— Marie Gautier (@marie_minasyan) 18 octobre 2018
Le speaker commence par nous raconter son histoire sur le JavaScript, pour expliquer comment le language a évolué. Et il dit qu'ELM réunit tous les avantages du JS moderne. ELM est un language fonctionnel qui complile le code en JavaScript. Jordane fait ensuite une démo d'une application simple 'Pile ou Face', développée sous nous yeux. Et c'est très réussi.
Nous vous invitons à regarder la vidéo de cette présentation sur youtube.
C'est toujours un plaisir pour les astronautes d'aller à la rencontre de leurs collègues ! Cela nous a permis d'apprendre de nouvelles choses et d'ouvrir d'autres horizons, et ce dans un cadre détendu et accueillant. La mission spaciale est accomplie !
La fusée Eleven-Labs a également posé son camp de base à cet évènement.
#EXPEDITION 🚀
— Eleven Labs (@Eleven_Labs) 18 octobre 2018
Les portes sont ouvertes : Nos astronautes sont à bord du #DevFestNantes ! Nous sommes prêts pour 2 journées de conférences, rencontres & échanges.#Cloud #DevOps #Web #Mobile #BigData pic.twitter.com/RiQ6mIAapR
Vous pouvez retrouver toutes les conférences en vidéo sur Playlist Youtube DevFest Nantes.
Auteur(s)
Thierry T.
Super Data Boy
Carl Ogren
Développeur JavaScript @ TheFork. Je suis passionné par les technologies Web depuis plus de 10 ans.
Marie Minasyan
Astronaute Raccoon @ ElevenLabs_🚀 De retour dans la Galaxie.
Vous souhaitez en savoir plus sur le sujet ?
Organisons un échange !
Notre équipe d'experts répond à toutes vos questions.
Nous contacterDécouvrez nos autres contenus dans le même thème
Il existe différent format de fichier pour stocker la donnée : parquet, avro, csv. Connaissez-vous le format Delta Lake ? Découvrons les fonctionnalités de ce format.
Dans le domaine de la data, la qualité de la donnée est primordiale. Pour s'en assurer, plusieurs moyens existent, et nous allons nous attarder dans cet article sur l'un d'entre eux : tester unitairement avec Pytest.
Le domaine de la data est présent dans le quotidien de chacun : la majorité de nos actions peut être traduite en données. Le volume croissant de ces données exploitables a un nom : "Big Data". Dans cet article, nous verrons comment exploiter ce "Big data" à l'aide du framework Apache Spark.