Pandas 2.0 : quelles nouveautés pour les data scientists ?

Panda 2.0 dans Visual Studio Code

La version 2.0 de Pandas a été officiellement lancée en avril 2023. Pandas est une librairie pour Python très utilisée au sein de la communauté des data scientists pour sa vaste gamme de fonctionnalités et sa polyvalence. De la saisie/sortie  au nettoyage en passant par la transformation, il est difficile de penser à la manipulation des données sans utiliser import pandas as pd, n’est-ce pas ?

Mais qu’apporte cette nouvelle version de Pandas ? Voici un aperçu des principales nouveautés :

  1. Performance, vitesse et efficacité mémoire : L’une des principales innovations de cette version est l’introduction du backend Apache Arrow pour les données de pandas. Cela permet des opérations de données plus rapides et plus efficaces en termes de mémoire, en particulier pour les grands ensembles de données.

  2. Types de données Arrow et indices Numpy : Au-delà de la simple lecture des données, cette version offre des améliorations pour une série d’autres opérations, en particulier celles impliquant des opérations sur des chaînes de caractères.

  3. Gestion simplifiée des valeurs manquantes : Dans cette version, il est désormais possible de gérer les valeurs manquantes sans changer le type de données d’origine.

  4. Optimisation Copy-On-Write : Pandas 2.0 ajoute également un nouveau mécanisme de copie paresseuse qui retarde la copie des DataFrames et des objets Series jusqu’à ce qu’ils soient modifiés.

  5. Dépendances optionnelles : Lors de l’utilisation de pip, la version 2.0 offre la flexibilité d’installer des dépendances optionnelles, ce qui est un plus en termes de personnalisation et d’optimisation des ressources.

Conclusion sur Panda 2.0

En conclusion, cette nouvelle version de Pandas apporte une grande flexibilité et une optimisation des performances avec des modifications subtiles mais cruciales “sous le capot”. Ces innovations sont comme de l’eau dans le désert pour les data scientists chevronnés qui avaient l’habitude de contourner les limitations des versions précédentes.

 

Note : Cet article est une synthèse d’un article. Pour plus de détails, veuillez consulter l’article original.