Thierry T.

Thierry T.

Super Data Boy


Articles et tutoriels écrits par l'auteur

Delta Lake avec Apache Spark

Delta Lake avec Apache Spark

Il existe différent format de fichier pour stocker la donnée : parquet, avro, csv. Connaissez-vous le format Delta Lake ? Découvrons les fonctionnalités de ce format.

Comment tester son script Apache Spark avec Pytest ?

Tester son script Apache Spark avec pytest

Dans le domaine de la data, la qualité de la donnée est primordiale. Pour s'en assurer, plusieurs moyens existent, et nous allons nous attarder dans cet article sur l'un d'entre eux : tester unitairement avec Pytest.

Un long couloir fait à partir de données

Démarrer avec Apache Spark étape par étape

Le domaine de la data est présent dans le quotidien de chacun : la majorité de nos actions peut être traduite en données. Le volume croissant de ces données exploitables a un nom : "Big Data". Dans cet article, nous verrons comment exploiter ce "Big data" à l'aide du framework Apache Spark.

Construction d'une plateforme Data, retour d'expérience (REX)

Construction d'une plateforme Data, retour d'expérience (REX)

Les besoins en analyse de données sont grandissants. Avec quelques outils, il est possible de faire des extractions, de la transformation et de la visualisation très rapidement. Cependant, pour assurer la pérénnité et l'évolutivité de ces analyses, il est nécessaire de monter une plateforme dédiée et d'industrialiser les différents processus. C'est le sujet de cet article.

Explorer la donnée pour optimiser ses coûts d'électricité

Explorer la donnée pour optimiser ses coûts d'électricité

Et si on mettait en pratique quelques réflexes d'analyse de données, pour faire de meilleurs choix au quotidien ? On pourrait peut-être ainsi mieux sélectionner son forfait chez notre fournisseur d'électricité par exemple...

Découverte de IPython, un shell interactif avancé pour Python

Découverte de IPython, un shell interactif avancé pour Python

IPython est un shell interactif pour Python, qui permet d'avoir des fonctionnalités plus avancées que le shell par défaut. Il est également au coeur des notebooks Jupyter qui sont des outils très utilisés dans l'analyse de données (BigData)

Organiser son pipeline Gitlab CI avec les templates

Organiser son pipeline Gitlab CI avec les templates

Lorsqu'il y a plusieurs services à maintenir et à déployer, le code des pipelines des différents services est très souvent copié-collé. Nous verrons dans cet article comment mutualiser le code !

Git rebase

Git rebase

Aujourd'hui, nous utilisons tous git pour gérer le code source des projets, que ce soit pour notre usage personnel ou professionnel.

Retour sur la mission spatiale au devfest Nantes

Retour sur la mission spatiale au devfest Nantes

Retour sur la mission spatiale au devfest Nantes. Trois astronautes ont pu assister à différents talks, selon leur intérêt pour les sujets présentés. Voici leurs retours !

Renforcer la confidentialité d'une API avec sapient-bundle

Renforcer la confidentialité d'une API avec sapient-bundle

Avec la popularisation et la simplicité de la mise en place du protocole HTTPS, la sécurisation de données sur internet apparaît comme à la portée de tous. Il reste néanmoins critique d’être conscient des failles qui existent encore. Avec libsodium, nous allons renforcer la confidentialité des échanges de données en toute simplicité.

OpenPGP - Stockage sur le long terme de clefs

OpenPGP - Stockage sur le long terme de clefs

Une problématique courante avec les clefs secrètes est leur stockage. Ces clefs doivent être stockées dans un lieu sûr, sur un support durable, tout en restant accessibles en cas de besoin. C'est ce que nous allons voir dans cette article.