Alteryx - Types de données "String": Comment se décider?



Dans Alteryx, il y a deux manières de définir une chaîne :

  • Longueur fixe (String et WString) : pour le cas d'une chaîne dont la longueur est fixe et constante (ex: un code pays sur 2 caractères "FR" pour France, "UK" pour United Kingdom)

  • Longueur variable (V_String et V_WString) : pour le cas d'une chaîne dont la longueur est variable tout en étant limitée (ex. un libellé pouvant aller jusqu'à 50 caractères)

Il faut donc privilégier les types String ou WString pour représenter un code car c'est une option économique pour le système. En effet, dans le cas d'une chaîne à longueur variable, le système doit gérer la longueur effective de la chaîne pour connaître la position du champ suivant, ce qu'il n'a pas à faire dans une chaîne fixe.

Historiquement les chaînes à longueur variable ont été introduites pour économiser l'espace vide en fin de chaîne.

Mais alors pourquoi deux sous-types à chaque fois ?

Le W de WString et V_WString signifie Wide pour large ou étendu.

Il faut comprendre qu'un caractère est encodé historiquement sur un octet, ce qui permet 256 possibilités. C'est le fameux code ASCII (American Standard Code for Information Interchange - Code américain normalisé pour l'échange d'information).

Or l'anglais (UK/US) n'a pas de lettre accentuée contrairement au français ou aux langues européennes en général. Les langues comme le japonais, chinois, etc. utilisent plus de 256 symboles. Il a donc fallu les encoder sur plus d'un octet: sur deux octets, voire trois. C'est ce qui a donné lieu à l'UNICODE. Dans cette norme d'encodage des caractères, la norme UTF-8 est la plus connue et utilisée. Elle assure la compatibilité avec les codes ASCII.

Ce qu'il faut donc retenir, c'est que si vous utilisez abusivement du WString ou du V_WString, vous perdrez de l'efficacité en volume et en performance. Le pire étant V_WString.

Pour finir, il faut commencer par bien étudier les données du fichier à manipuler. Pour ce faire, vous pouvez utiliser l'outil Alteryx "Champs Automatiques". Cependant, il est recommandé d'utiliser cet outil uniquement dans les phases de découvertes et d'analyses d'une source de données et non en mode "RUN", pour éviter des potentiels problèmes de performance.



Après une première exécution, vous obtiendrez, dans l'onglet "Résultat" du Designer, les informations sur les longueurs optimales et les types à définir dans l'outil "Sélectionner".



Il n'y a plus qu'à reporter dans l'outil "Sélectionner":



Attention toutefois, vous devez rester maître de vos décisions: l'outil vous donne juste une indication.


Conseil : Si le nombre d'enregistrement de la source de donnée est trop volumineux, cette analyse peut être longue. Dans ce cas, limitez le nombre d'enregistrements en effectuant un échantillonnage, par exemple avec l'outil "Echantillon":




N’hésitez pas à poster vos questions/remarques !

A bientôt pour un autre article !



BICHIOU Mokhtar

Consultant BI

Paris

8 vues0 commentaire

Posts récents

Voir tout