Les données sont un sujet sensible, et vous en serez naturellement beaucoup concerné en tant que data scientist. Voici quelques règles que vous devriez toujours suivre.
Les données sont extrêmement précieuses et leur exploitation est facilement l'une des meilleures pratiques pour la plupart des organisations aujourd'hui. Mais connaître les normes de l'industrie à ce sujet est nécessaire pour que les scientifiques des données ne se trompent pas avec les données à mesure que les gens en apprennent davantage sur leur valeur.
En tant que tels, les scientifiques des données doivent adopter des pratiques sûres et éthiques et adopter des pratiques standardisées. Au lieu de considérer uniquement la valeur des données, il est sage de remettre en question les méthodes d'obtention et de traitement des données à quelque fin que ce soit. Ainsi, voici neuf codes de conduite que tout data scientist devrait suivre.
1. Respecter les règlements
Les scientifiques des données doivent connaître les réglementations en matière de protection des données qui s'appliquent à certains emplois. Sinon, vous risquez d'enfreindre la loi sans le savoir et de vous mettre en danger ainsi que les autres. Ces connaissances sont donc cruciales pour garantir un travail éthique et prévenir les dommages involontaires.
En tant que tel, vérifiez les lois applicables avant de vous engager dans toute activité. De plus, ne vous contentez pas d'observer les règlements pour suivre les règles; aussi chercher à les comprendre plus en profondeur. Pour bien respecter les réglementations, vous devez savoir pourquoi elles ont été placées et contre quoi elles protègent.
Quelques lois notables sur la protection de la vie privée sont le règlement général sur la protection des données de l'UE (RGPD) et le California Consumer Privacy Act (CCPA). D'autres incluent HIIPA, DPA, PIPEDA, LGPD et de nombreuses réglementations spécifiques à l'industrie.
2. Respecter la vie privée
Les adresses, les e-mails et les identifiants sont des identifiants qui ne doivent pas être publics car ils présentent de réels risques pour les personnes. Par conséquent, assurez-vous de rendre ces détails aussi confidentiels que possible.
Si elles sont exposées, les victimes pourraient souffrir d'usurpation d'identité ou de fraude. Ils pourraient également être victimes de chantage par des personnes menaçant de divulguer leurs informations confidentielles. De plus, les professionnels peuvent subir des atteintes à leur réputation et du harcèlement en ligne une fois que leurs préférences personnelles sont rendues publiques. Ceux-ci peuvent affecter leurs relations, leurs opportunités de carrière et leur statut social.
Donc, dans cet esprit, recherchez et sélectionnez des moyens efficaces d'améliorer identités en ligne sécurisées et anonymiser les données. Par exemple, vous pouvez remplacer des caractères, supprimer des identifiants directs ou généraliser. Cela protège les données sensibles des cybercriminels tout en aidant les organisations avec vos découvertes.
3. Éliminer les biais
Les scientifiques des données s'appuient sur les statistiques pour être aussi objectifs que possible. Pourtant, malgré ces efforts, le biais persiste parce que la notion selon laquelle des données plus importantes sont plus précises est l'une des plus Mythes courants de la science des données.
Il y a du vrai là-dedans, mais malheureusement, les données volumineuses contiennent parfois des éléments et des statistiques inutiles ou faux. Ainsi, plutôt que de vous concentrer uniquement sur les chiffres, assurez-vous que vos données sont propres et représentatives.
Le nettoyage ou le filtrage des données avant utilisation sont d'excellentes méthodes de lutte contre les biais. Par exemple, vous pouvez vérifier les erreurs ou utiliser un échantillonnage stratifié pour garantir des données représentatives.
4. Ne pas fabriquer ou inventer des résultats
La fabrication est une forme d'inconduite en matière de données et de recherche frauduleuse qui consiste à inventer des conclusions et à les déclarer comme vraies.
Par exemple, un spécialiste des données peut signaler qu'un médicament s'est avéré n'avoir aucun effet secondaire pour la plupart des membres d'un certain groupe d'âge. Ces découvertes seraient fabriquées s'il n'y avait pas d'expériences médicales initiales et de données collectées pour les étayer.
La fabrication a des conséquences graves et négatives pour les scientifiques des données et ceux qui comptent sur leur travail. Cela pourrait détruire votre crédibilité, entacher la réputation de votre organisation, nuire au public ou vous exposer à des risques juridiques.
5. Ne pas falsifier ou manipuler des preuves
La falsification est la manipulation de la réalité, des données collectées pour répondre à un agenda. Alors que les fabricants inventent des résultats à partir de données inexistantes pour étayer leurs affirmations, les falsificateurs s'efforcent de réfuter des données réelles et existantes pour des raisons personnelles. Pour y parvenir, ils peuvent altérer l'équipement de recherche, modifier ou omettre entièrement des données.
La falsification peut nuire au public en fournissant de fausses informations affectant la prise de décision dans divers secteurs. Par exemple, une étude sur un médicament falsifié pourrait exposer les gens à des risques inutiles, à des traitements inefficaces ou à des effets secondaires nocifs. Cela peut également entraîner une perte d'argent, de temps ou de matériel qui aurait pu être utilisé à d'autres fins.
La fabrication et la falsification sont des pratiques peu scrupuleuses avec des effets pervers et de nombreuses sanctions. Ceux-ci peuvent inclure des amendes, la révocation des titres de compétences, la perte de financement de la recherche ou l'incarcération.
6. Afficher la transparence
La transparence pour les scientifiques des données signifie être honnête sur les méthodes appliquées pour collecter, analyser et présenter les données. Les data scientists doivent être ouverts et prêts à partager leurs pratiques avec d'autres data scientists et participants à l'étude.
De plus, vous devez obtenir le consentement des participants à l'étude car la publication des résultats sans consentement éclairé peut manquer de respect ou nuire aux participants de diverses manières. Ils peuvent violer leur dignité, leur vie privée et leur autonomie ou les exposer à des risques nuisibles et inutiles résultant de l'étude.
La transparence renforce la confiance avec ceux qui s'appuient sur vos données pour obtenir des informations. Il garantit également la qualité des données en permettant à d'autres d'examiner vos résultats.
De plus, l'ouverture entre les scientifiques des données favorise la collaboration et l'apprentissage. Vous pouvez contribuer à favoriser l'innovation en partageant votre processus et en communiquant meilleures méthodes de visualisation de données et des techniques de science des données à des pairs tout en apprenant d'eux.
7. Collectez des données en toute sécurité
Les scientifiques des données doivent confirmer la sécurité des méthodes utilisées pour collecter, analyser et stocker les données. Cela empêche les violations de données potentielles qui peuvent affecter les scientifiques des données et les participants à l'étude.
Les violations de données compromettent la sécurité personnelle, sapent la confiance du public et exposent l'incompétence organisationnelle, entraînant des pertes financières considérables pour l'entreprise. Ces pertes pourraient être des poursuites judiciaires de la part des victimes de violation de données, moins de clients, etc.
À la lumière de cela, vous devez effectuer des recherches pour trouver le les solutions de sécurité des données les plus efficaces et les appliquer. Par exemple, vous pouvez sécuriser les connexions avec le cryptage TLS/SSL ou utiliser des proxys rotatifs. En outre, vous pouvez appliquer des mesures de contrôle d'accès et créer des sauvegardes en cas d'attaque. Lorsque vous trouvez des solutions, n'oubliez pas de les partager avec d'autres pour assurer une sécurité maximale.
8. Utiliser les algorithmes de manière responsable
Les algorithmes ne sont pas seulement des outils d'analyse de données. Ce sont de puissantes influences sur la vie, les comportements et les opportunités des gens. Cependant, bien qu'ils aident à résoudre des problèmes et à faire des prédictions innovantes, ils sont également imparfaits.
S'ils ne sont pas soigneusement conçus, testés ou déployés, les algorithmes ont des impacts sociaux et éthiques qui peuvent nuire à certains groupes de personnes. Ils introduisent également des biais s'ils sont formés sur des données qui reflètent des préjugés existants et peuvent être imprévisibles. Ainsi, les data scientists doivent les concevoir et les utiliser de manière responsable.
Choisissez toujours les algorithmes appropriés, testez leurs performances et expliquez leur fonctionnement. Assurez-vous également d'identifier les sources potentielles de biais et de mettre en œuvre des mécanismes qui mettent à jour ou corrigent si nécessaire.
9. Considérez les implications à long terme de votre travail
Votre travail en tant que data scientist aura un impact significatif sur de nombreux aspects de la société. Alors, considérez toujours comment vos modèles affectent les gens.
Par exemple, essayez de vous demander si votre travail peut perpétuer les préjugés et les inégalités ou compromettre la vie privée à l'avenir. Ensuite, répondez adéquatement à ces préoccupations.
Notez qu'une perspective tournée vers l'avenir est plus importante que toute méthode corrective, et penser aux jours à venir est l'un des moyens les plus efficaces de prendre des décisions éthiquement judicieuses.
Vous devez être éthique en tant que Data Scientist
En tant que data scientist, vous recevez un pouvoir qui s'accompagne d'une responsabilité proportionnelle. Vos compétences sont rares, vous êtes donc à l'avant-garde de la prise de décision organisationnelle.
Vos décisions affectent tout, des plans d'affaires de l'entreprise aux systèmes de justice pénale. Donc, vous ne devriez pas les faire à la légère. Soyez toujours honnête, éthique et méticuleux dans votre travail pour protéger les gens des dilemmes éthiques existants dans votre secteur et dans d'autres domaines technologiques.