Les membres de l’équipe Smals Research

Smals Research partage les résultats de ses études, notamment via les articles qu’elle publie sur son blog. Voici un aperçu des dernières parutions. Nous vous les présentons dans la langue de leurs auteurs.

Dédoublonnage et couplage : comment ça marche ?

Posté le  par Vandy Berten

Comment lier des données avec celles provenant d’autres sources ? Comment détecter les doublons dans des listes et des bases de données ? Dans cet article, Vandy décrit très clairement comment ces questions peuvent être abordées en vue de permettre ensuite de procéder à l’analyse des données.

Lire l’article

Web3 in Wonderland

Posté le  par Kristof Verslype

Dans cet article, Kristof passe en revue les principales caractéristiques du Web3. Il porte un regard critique sur cette nouveauté qui fait l’objet d’un battage médiatique.

Lire l’article

De vier gezichten van EDA

Posté le  par Koen Vanderkimpen

L’architecture pilotée par les événements (EDA, Event Driven Architecture) ne peut plus être rayée de l’architecture logicielle moderne. Mais quand utilisez-vous effectivement l’EDA ? Dans cet article de blog, nous mettons en lumière les 4 principales formes d’EDA.

Lire l’article

ChatGPT: een eerste indruk vanuit de publieke sector

Posté le  par Joachim Ganseman

Sur les médias sociaux, nous voyons passer un flot presque sans fin d’exemples impressionnants et d’applications créatives de ChatGPT (agent conversationnel utilisant l’intelligence artificielle). Qu’est-ce que cela signifie pour le secteur public ? Dans quels domaines peut-on s’attendre à ce que cela ait un impact ?

Lire l’article

Opportuniteiten voor het verbeteren van de klantenondersteuning

Posté le  par Bert Vanhalst

Partout, les centres de contact sont mis sous pression pour traiter les demandes des clients, des citoyens et des entreprises aussi efficacement que possible. Les délais d’attente peuvent parfois être élevés. Dans cet article, Bert décrit un certain nombre d’opportunités pour rendre les opérations des centres de contact plus efficaces.

Lire l’article

Typologie des anomalies, un cadre pour l’action : le cas du machine learning

Posté le 18/10/2022 par Isabelle Boydens et Gani Hamiti

Egalement publié par ITdaily le 22/12/2022

“If your data is bad, your machine learning tools are useless” (Thomas C. Redman).

Il ne faut donc pas sous-estimer l’importance d’une bonne qualité des données dans le contexte du machine learning ! Les méthodes et techniques introduites par Smals Research pour détecter les anomalies et améliorer la qualité des bases de données sont également applicables aux données que nous utilisons pour former et tester les modèles de machine learning.

Lire l’article

De weg richting kwantumresistente standaarden

Posté le  par Kristof Verslype

Egalement publié par ITdaily le 03/01/2023

Comme nous l’avons expliqué en détail dans de précédents articles de blog, de puissants ordinateurs quantiques seraient capables de casser la cryptographie moderne à clé publique dans un avenir proche. Le National Institute for Standards & Technologies (NIST) a donc lancé une procédure de standardisation en 2016. En juillet 2022, le NIST a annoncé qu’il avait sélectionné les quatre premiers algorithmes : un pour les mécanismes d’encapsulation de clés (KEM) et trois pour les signatures numériques. Qu’est-ce que cela signifie en pratique ?

Lire l’article

Benaderingen voor het bouwen van conversationele toepassingen – custom assistant

Posté le  par Bert Vanhalst

Dans un précédent article de blog, nous avons évoqué l’arrêt des actions conversationnelles de Google et ce que cela signifie exactement. Nous avons donné trois alternatives pour fournir une application conversationnelle. Dans cet article de blog, nous nous penchons sur la troisième alternative, celle de « custom assistant ».

Lire l’article

Benaderingen voor het bouwen van conversationele toepassingen

Posté le 13/09/2022 par Bert Vanhalst

Depuis un certain temps déjà, il est possible de parler à son ordinateur, son smartphone ou son enceinte intelligente. Les assistants virtuels comme Alexa, Google Assistant et Siri offrent la possibilité de poser des questions aisément, en mains libres ou en appuyant sur un bouton. Bien que la voix semble l’interface la plus naturelle, on constate que le grand public n’utilise pas (encore ?) massivement cette forme d’interaction. Dans ce blog, nous examinons les options disponibles aujourd’hui pour fournir une interface vocale.

Lire l’article

Améliorer le Machine Learning avec des données graphes

Posté le 06/09/2022 par Vandy Berten

Dans cet article, Vandy explique de manière brève et didactique comment fonctionne le machine learning traditionnel et comment l’analyse de données graphes peut offrir de nouvelles perspectives. Il aborde un certain nombre de techniques qui permettent d’intégrer les résultats de l’analyse graphique dans les données utilisées pour construire les modèles d’apprentissage machine.

Lire l’article

Ecosysteem Architectuur: een Voorbeeld in de Sociale Sector

Posté le 19/07/2022 par Koen Vanderkimpen

In een vorige blog bespraken we hoe een aantal principes rond APIs en Event Driven Architecture de architectuur van een applicatie-ecosysteem konden sturen. Het wordt nu tijd om deze zaken in een voorbeeld te gieten om alles iets duidelijker te maken (deze blog wordt best gelezen met de vorige blog vers in het geheugen). Vandaag zullen we het hebben over een fictieve « arbeidsmotor bij de sociale zekerheid », binnen een ecosysteem rond werken, loon, prestaties, arbeidsrelaties, enz.

Lire l’article

Introduction aux systèmes de recommandation

Posté le 28/06/2022 par Katy Fokou

« Recommended for you…« , « Customers who bought this item also bought…« , « You may also like…« 

Nous retrouvons fréquemment ces messages lors de nos achats en ligne, quand nous consultons un article sur un site internet, quand nous écoutons de la musique ou que nous regardons un film sur des plateformes de streaming. Les systèmes de recommandation font partie de notre quotidien mais leur utilisation ne se limite pas nécessairement au commerce en ligne.

Lire l’article

Honey, I scraped the kids – over taalmodellen en privacy

Posté le 17/06/2022 par Joachim Ganseman

Taalmodellen, die gebruikt worden voor applicaties zoals automatische vertaling, chatbots, en het genereren van teksten, worden steeds groter. […] Enorme taalmodellen moeten worden getraind met enorme datasets. […] Veel van die datasets zijn met eenvoudige webscraping scripts verzameld. Of dat allemaal wel mag volgens copyright- en privacywetgevingen allerhande, is een ingewikkelde vraag met een nog ingewikkelder antwoord.

Lire l’article

Bedreigen kwantumcomputers moderne cryptografie?

Posté le 10/05/2022 par Kristof Verslype

L’articke de Kristof a été publié le 20/10/2022 par ITdaily

Hoe hard moeten we ons zorgen maken dat kwantumcomputers de moderne cryptografie zullen ondergraven? Als we bepaalde schreeuwerige persberichten die een crypto-apocalypse prediken, mogen geloven, is het hoogtijd voor bestiale paniek. […]

In 2020 schreef ik uitgebreid over de kwantumcomputers ([1], [2]) en de dreiging die ervan uitgaat op de moderne cryptografie ([3], [4]). Ondertussen is het tijd voor een korte update op dat vlak. De stellingen van toen blijven onverkort geldig, maar kunnen nu wel concreter gemaakt worden.

Lire l’article

Natural Language Processing – Calcul de similarité entre deux textes

Posté le 21/04/2022 par Katy Fokou

Une grande quantité de documents est traitée tous les jours dans les administrations. […] L’un des besoins exprimés par les clients est de disposer d’un système de filtrage de documents dans le cadre de l’analyse de dossiers. L’implémentation d’un système de filtrage s’appuie, entre autres, sur la recherche sur le contenu (information non-structurée).

Typiquement, la recherche se fait à partir d’une requête introduite par un utilisateur sur des contenus indexés. Un cas particulier de la recherche sur le contenu est de retrouver des documents dont le contenu est similaire. Ceci permet de retrouver et de consulter les traitements de dossiers portant sur des sujets similaires.

C’est ce dernier scénario que nous allons aborder ci-dessous en présentant une expérience que nous avons réalisée sur le calcul de similarité entre deux textes.

Lire l’article

Autocorrélation spatiale : qui se rassemble se ressemble ?

Posté le 12/04/2022 par Vandy Berten

Lorsque l’on s’intéresse à la situation socio-économique d’un pays, on est souvent amené à comparer des indicateurs pour savoir s’ils sont corrélés. Existe-t-il, par exemple, une corrélation entre le niveau d’éducation et le revenu ?

Il peut également être révélateur d’évaluer à quel point un indicateur d’un territoire (une commune, un quartier…) est corrélé à la valeur de ce même indicateur dans les territoires voisins. C’est ce qu’on appelle l’autocorrélation spatiale : sachant qu’une commune a un salaire moyen élevé, à quel point ses communes voisines ont-elles une chance d’avoir également un salaire élevé ?

Dans cet article, accompagné d’un notebook Python, nous allons montrer plusieurs méthodes permettant d’évaluer cette dépendance spatiale. Pour ce faire, nous allons récolter une série d’indicateurs à propos des 581 communes de Belgique, disponibles en open source sur https://statbel.fgov.behttps://data.belgium.be ou encore https://www.census2011.be.

Lire l’article

Data scrambling: synthetische data in de praktijk

Posté le 23/03/2022 par Joachim Ganseman

In dit artikel kijken we naar de praktische bekommernissen als we tools voor synthetische data inzetten: wat komt een data professional die hiermee aan de slag moet zoal tegen?

Lire l’article

Ecosysteem Architectuur

Posté le 28/02/2022 par Koen Vanderkimpen

Bij het software bouwen, maken we meestal geen op zichzelf staande programma’s meer. We bouwen vandaag eerder Applicatie Ecosystemen. Wanneer we dus een stuk software schrijven, mogen we niet zomaar de ontwikkeling lokaal optimaliseren, maar moeten we ook continu rekening houden met het grotere geheel. In deze blog maken we een verkenning van een aantal zaken waar we rekening mee moeten houden bij het bouwen van een ecosysteem, en van concrete principes die we kunnen toepassen bij het uitbouwen van een erbij passende modulaire architectuur.

Lire l’article

Uitdagingen bij gedecentralizeerde digitale portefeuilles

Posté le 26/01/2022 par Kristof Verslype

L’article de Kristof a été publié le 15/04/2022 par ITdaily

In oktober 2021 kondigde de Staatssecretaris voor Digitalisering Mathieu Michel (MR) aan dat hij voor elke Belg tegen 2023 een digitale portefeuille wil, wat voortvloeit uit een Europese regulering. […] Europa doet echter geen uitspraak over de onderliggende technologie. Dit kunnen de individuele lidstaten zelf bepalen. Er zijn inderdaad verschillende – al dan niet hybride – mogelijkheden, waaronder benaderingen gebaseerd op blockchain technologie. Dit artikel wil een bijdrage leveren aan het debat door een aantal uitdagingen te formuleren, die vooral voor de – nieuwere, nog relatief ongekende – gedecentraliseerde blockchain systemen pertinent zijn.

Lire l’article

Identiteitsverificatie op afstand

Posté le  par Bert Vanhalst

L’article de Bert a été publié le 28/04/2022 par ITdaily

[…] In bepaalde situaties is het niet mogelijk of wenselijk voor iemand om zich fysiek te presenteren voor een identiteitsverificatie. De vraag is dan of die procedure ook van op afstand kan uitgevoerd worden, op een betrouwbare manier. Men spreekt dan over remote identity proofing of remote identity verification. Hoe gaat het in zijn werk?

Lire l’article

Governance volgens Mattheus

Posté le  par Joachim Ganseman

L’article de Joachim a été publié le 12/05/2022 par ITdaily

Automatisering, zelfs digitalisering, is niet zomaar vrijblijvend, en al zeker niet bij overheden. Governance, vrij vertaald als deugdelijk bestuur, is een vaag begrip, maar het belang ervan illustreren we in dit artikel aan de hand van enkele voorbeelden.

Lire l’article

Data Quality Tools : retours d’expérience et nouveautés

Posté le  par Isabelle Boydens, Isabelle Corbesier et Gani Hamiti

[…] Depuis plus de 10 ans, Smals a acquis un “Data Quality Tool” professionnel, toujours parmi les leaders du marché à l’heure actuelle, dans le cadre de son Data Quality Competency Center. Depuis lors, plus de trente projets d’envergure ont mobilisé cet outil dans le cadre de la sécurité sociale belge et en dehors de celle-ci.Nous proposons ici, sur la base de l’expérience acquise  : 

  • de rappeler et d’illustrer les fonctionnalités les plus usitées de l’outil, ainsi que quelques bonnes pratiques;
  • d’annoncer plusieurs nouveautés qui sont autant d’extensions de l’outil dans le courant de l’année 2021.

Lire l’article

Lire aussi  l’article scientifique édité à Paris par le Courrier des Statistiques (Paris, INSEE, juillet 2021): « Un service au cœur de la qualité des bases de données. Présentation d’un prototype d’ATMS* », Isabelle Boydens, Professeur, Université libre de Bruxelles et Data Quality Expert, Smals, Gani Hamiti, Data Quality Analyst, et Rudy Van Eeckhout, Database R&D, Smals.

* ATMS : Anomalies & Transactions Management System

 

Voorbij aan REST: Event-Driven APIs

Posté le  par Koen Vanderkimpen

We hadden het op de Smals Research blog reeds uitvoerig over het gebruik van APIs als bouwsteen voor herbruikbare softwareRESTful APIs hebben uiteraard heel wat voordelen, maar toch moeten we opletten dat we ze niet altijd en overal gaan inzetten. Er zijn namelijk ook nadelen verbonden aan deze manier van werken. Met deze blog willen we er op wijzen dat asynchrone, Event-Driven communicatie tussen de systemen soms een veel beter resultaat oplevert, dan het zuivere gebruik van RESTful APIs.

Lire l’article

IA: L’éthique en pratique

Posté le  par Katy Fokou

Dans un blog précédent, nous avons démontré l’importance d’adopter les principes d’éthique by design dans les projets d’intelligence artificielle dans le secteur public. […] Le but de ce blog n’est pas de fournir une description complète des méthodologies et technologies à adopter pour une IA éthique mais plutôt de décrire quelques bonnes pratiques et outils qui permettent d’intégrer l’éthique dans un projet d’IA.

Lire l’article

Privacybevorderende technologieën voor de publieke sector

Posté le  par Kristof Verslype

Het wordt steeds makkelijker om grote hoeveelheden persoonsgegevens te verzamelen en te verwerken. Dit creëert enerzijds heel wat opportuniteiten, zoals het doen van statistische analyses ter verbetering van de gezondheidszorg. Tegelijkertijd moet echter rekening gehouden worden met de privacy van de burger, wat een juridische basis vindt in de GDPR. Met traditionele aanpakken en technologieën kan het omslachtig tot zelfs onmogelijk zijn om functionele noden en privacyvereisten met elkaar in balans te brengen. De behoefte naar meer geavanceerde technologieën groeit dan ook. Privacybevorderende technologieën, of privacy-enhancing technologies (PETs), kunnen hier een uitweg bieden en laten met behulp van cryptografie en/of statistiek zaken toe die zelfs intuïtief onmogelijk kunnen lijken.

Lire l’article

Peut-on toujours atteindre une maternité en 30 minutes ? (partie 2)

Posté le  par Vandy Berten

Dans notre article précédent, nous avons montré comment il était possible de calculer la zone accessible dans un délai donné à partir d’un ensemble de points de départ (ou d’arrivée), comme une maternité, un départ SMUR ou un centre de vaccination Covid. […] Dans cet article, nous présenterons deux types de graphiques permettant de comparer objectivement deux scénarios (sous les hypothèses simplificatrices présentées dans notre article précédent). Le premier s’intéressera à la couverture territoriale, le second à la couverture populationnelle.

Lire l’article

Reactive: het Akka framework

Posté le  par Koen Vanderkimpen

In een vorige blog gaven we reeds een uitvoerige inleiding van het “Reactive” paradigma. Vermits dit toch wel een belangrijke en invloedrijke zaak geworden is binnen de developer wereld, lijkt het ons nuttig om hier op terug te komen en wat dieper in te gaan op een voorbeeld van een Reactive framework: het Akka framework, één van de pioniers binnen de Reactive beweging.

Lire l’article

Smals KG Checklist: déterminer si un graphe de connaissances peut résoudre un problème concret

Posté le  par Christophe Debruyne

Cette contribution se situe dans une série d’articles sur les graphes de connaissances (les « knowledge graphs » en anglais). Nous vous présentons le Smals KG Checklist, un outil qui vous aide à déterminer si un graphe de connaissances serait utile, voire indispensable, pour résoudre un problème dans votre organisation. Le Smals KG Checklist a été présenté au sein du SEMANTiCS 2021, un congrès scientifique et industriel autour des graphes de connaissances.

Lire l’article

Peut-on toujours atteindre une maternité en 30 minutes ?

Posté le par Vandy Berten

Peut-on, de partout en Belgique, atteindre une maternité en moins de 30 minutes en voiture ? Si certaines maternités fermaient, quel en serait l’impact ? Le gouvernement Bruxellois a décidé de ne pas ouvrir de centre de vaccination Covid dans le sud-est de Bruxelles (Watermael-Boitsfort et Auderghem) : quel est l’impact en termes d’accessibilité ? C’est le type de question auxquelles nous allons tenter de répondre dans ce blog (et le suivant).

Lire l’article

De AI als auteur: een blik op Natural Language Generation

Posté le  par Joachim Ganseman

Cet article a été publié sur ITdaily le 26/10/2021

In deze blogpost kijken we naar twee categorieën van NLG systemen. De eerste moet het hebben van templates en grammaticale regels, en geeft een strikt deterministische output. De tweede is gebaseerd op machine learning met een scheut randomness, en benadert zo meer wat we “creatief schrijven” zouden kunnen noemen.

Lire l’article

Webinar by Smals Research: Natural Language Generation (october 28, 2021)

Secure multiparty computation – Calcul collectif sur des données sensibles distribuées

Posté le 08/06/2021 par Kristof Verslype
Cette année, Kristof se penche sur les technologies améliorant la confidentialité (« privacy enhancing technologies »). Dans le cadre de cette étude, il a publié un nouvel article sur le calcul multipartite sécurisé (Secure multiparty computation, SMC).

Le SMC permet d’effectuer des calculs de manière distribuée, sans partie centrale, et sans que les parties concernées aient accès aux données utilisées. Pendant longtemps, le SMC a été une question purement académique, mais ces dernières années, les choses changent.

Dans son article, Kristof évoque brièvement un certain nombre de cas où le SMC est utilisé aujourd’hui dans la pratique. Il donne un aperçu de ce que le SMC pourrait signifier dans un contexte gouvernemental.

Le groupe de recherche « COSIC » de la KU Leuven (Computer Security and Industrial Cryptography), travaille lui aussi activement avec le SMC.
Lire la suite (en néerlandais) sur le blog de Smals Research*

Vers une intelligence artificielle plus éthique

Posté en français le 31/05/2021 par Katy Fokou sur le blog de Smals Research
Publié en néerlandais le 16/06/2021 sur le site ITdaily sous le titre : Technologie en ethiek: kunnen we AI vandaag vertrouwen?
Dans ce nouvel article, Katy revient sur le risque de partialité que peuvent présenter de nombreux modèles d’IA. Les préjugés éthiques des algorithmes d’IA peuvent conduire à des décisions erronées ou à une discrimination involontaire à l’égard de certaines catégories de personnes.

L’Union européenne a élaboré un cadre pour une « IA éthique » et la Commission européenne a publié, en avril, une proposition pour un cadre juridique fondé sur les risques en matière d’IA. Katy explique brièvement les deux initiatives. Elle poursuit en explorant les origines des préjugés dans les algorithmes d’IA et les moyens de les prévenir.

En bref, il est nécessaire d’adopter une « éthique dès la conception » si l’on veut que l’IA puisse véritablement se développer et être digne de confiance aujourd’hui et à l’avenir.
Lire la suite sur le blog de Smals Research*

Virtual Knowledge Graphs

Posté le 11/05/2021 par Christophe Debruyne
Dans le cadre de son étude sur les ‘Knowledge Graphs’, Christophe Debruyne a approfondi le concept de ‘Virtual Knowledge Graph‘. Les graphes de connaissance virtuels permettent d’accéder, de manière presque transparente, aux données d’une db relationnelle sous la forme d’un graphe.

Christophe étudie les limites et les performances des graphes de connaissance virtuels. Il compare deux produits (Ontop et Stardog) à une approche traditionnelle de graphe de connaissance.

Cette technologie est encore en pleine évolution mais elle offre déjà aujourd’hui la possibilité d’intégrer, dans un graphe de connaissance, des bases de données existantes avec d’autres sources.
Lire l’article (en néerlandais) sur le blog de Smals Research*

La jointure spatiale, la clé de l’analytique géographique

Posté le 27/04/2021 par Vandy Berten
La plupart de nos clients disposent d’informations géographiques : adresses de citoyens, d’institutions, de chantiers, etc. Ces infos ne sont pas toujours suffisamment exploitées.

Pourtant, leur potentiel est énorme pour de nombreux secteurs : prévention de la fraude, optimisation de l’affectation des inspecteurs, localisation d’entités telles que les hôpitaux, analyse d’impact en cas de fermeture / délocalisation de services, qualité des données, visualisation, statistiques, etc. Du point de vue analytique, un élément clé pour travailler avec ces données géographiques est la jointure spatiale.

Dans son article, Vandy explique le fonctionnement de la jointure spatiale et applique cette technique. Il démontre que les techniques d’analyse classiques sont insuffisantes lorsque l’on veut exploiter des données géographiques. Il passe en revue les avantages de la jointure spatiale qui permet d’enrichir une collection de données, mais aussi de mettre en évidence des erreurs ou des imprécisions.
Lire la suite sur le blog de Smals Research*

Eventual Consistency – un principe encore peu exploité

Posté le 12/04/2021 par Koen Vanderkimpen
L’Eventual Consistency peut jouer un rôle de taille dans l’augmentation de la disponibilité des applications et systèmes. Le principe est surtout connu pour son application dans les bases de données NOSql, leur permettant de continuer à fonctionner même lors d’une panne réseau. Elle n’est toutefois pas encore suffisamment exploitée.

Dans son article de blog, Koen Vanderkimpen explique en quoi consiste exactement l’Eventual Consistency et dans quel contexte elle est appliquée utilement.

Il propose en outre quelques exemples issus de trois secteurs différents et indique pourquoi l’Eventual Consistency peut également être utile dans les applications gouvernementales.
Lisez l’article dans son intégralité (en néerlandais) sur le blog de Smals Research*

Le Natural Language Processing en néerlandais

Posté le 31/03/2021 par Joachim Ganseman sur le blog de Smals Research
Publié le 22/06/2021 sur ITdaily : NLP en Nederlands: waarom wereldtalen een streepje voor hebben
Dans cet article de blog, Joachim aborde les problématiques liées au traitement du langage naturel en néerlandais. Problématiques auxquelles nous sommes hélas confrontés dans nos projets autour de l’intelligence artificielle.

Les progrès spectaculaires que nous observons en anglais ne se retrouvent pas dans les langues « mineures » comme le néerlandais. Heureusement, il existe des solutions qui permettent de contourner les problèmes. Dans un avenir proche, nous pouvons espérer des améliorations dans la reconnaissance correcte du néerlandais.
Lire la suite (en néerlandais) sur le blog de Smals Research*

SHACL : Contrôles logiques et de forme avec les technologies de graphes de connaissances

Posté le 18/03/2021 par Christophe Debruyne
SHACL permet de contrôler et de valider des données indépendamment du code de programmation ou du système de base de données sous-jacent. Il s’agit d’une évolution récente dans le domaine des graphes de connaissances. Des outils sont déjà disponibles.

Dans cet article, Christophe décrit SHACL et propose quelques exemples qui illustrent comment l’utiliser pour valider des données. Il aborde également les possibilités d’application de cette technologie, notamment dans le domaine de la gestion et de la qualité des données.
Lire la suite (en néerlandais) sur le blog de Smals Research*

L’intelligence artificielle dans le secteur public

Posté en français le 25/02/2021 par Katy Fokou sur le blog de Smals Research
Depuis quelques années, l’intelligence artificielle (IA) suscite un énorme engouement. Cependant, malgré les avantages évidents qu’elle peut apporter pour le fonctionnement des services publics et pour les citoyens, elle est mieux implantée dans le secteur privé que dans le public.
Publié en néerlandais le 30/03/2021 sur le site ITdaily sous le titre :
Is artificiële intelligentie de toekomst voor onze overheidssector?

Dans son article, Katy Fokou explique l’importance de l’IA pour le secteur public. Elle évoque les applications possibles et précise les points d’attention.
Lire la suite sur le blog de Smals Research*

Le web scraping : utile pour l’eGov ?

Posté le 26/01/2021 par Vandy Berten
Le web scraping, parfois appelé web crawling ou web harvesting, reprend toutes les techniques d’extraction de contenu sur des sites web. Il a recours à différents outils : scripts, programmes, plugins… Le but ? Utiliser le contenu extrait dans un autre contexte.
Lire la suite sur le blog de Smals Research*

Differential Privacy

Posté le 12/01/2021 par Christophe Debruyne
Le Differential Privacy (DP) est une méthode qui consiste à injecter un bruit (notion mathématique) spécifique dans des données ou dans une réponse à une requête. Le but est d’empêcher que l’on puisse savoir si les données d’une personne spécifique sont présentes. Le DP permet ainsi de préserver la vie privée.

Malgré l’introduction du bruit, les propriétés statistiques des données d’origine sont, en gros, préservées. Bien que complexe, le DP peut être intéressant pour le partage de données statistiques ou même, pour la Business Intelligence (BI). Cet article explique le concept de DP. Il cite un certain nombre d’applications. Il est illustré par un exemple qui utilise un outil injectant le DP dans des requêtes SQL.
Lire la suite (en néerlandais) sur le blog de Smals Research*

Data Quality : “Anomalies & Transactions Management System”; prototype & work in progress

Posté le 08/12/2020 par Isabelle Boydens
En 2019, Smals Research annonçait le lancement d’un proof of concept relatif à la mise en place d’un service générique d’ATMS (Anomalies & Transactions Management System). Les auteurs du présent article rappellent les principales motivations en termes de qualité des données et de retour sur investissement.

Ils précisent les spécifications fonctionnelles. Ils illustrent leurs propos sur la base de use cases. Ils évoquent également les avancées sur le plan technique, de même que les perspectives de développement ultérieur.

Cet article est une contribution collective d’Isabelle Boydens (Data Quality Expert chez Smals Research), de Gani Hamiti (Data Quality Analyst chez Smals, Databases Team) et de Rudy Van Eeckhout (Databases R&D chez Smals, Databases Team).
Lire la suite sur le blog de Smals Research*

Lire d’autres articles sur le blog de Smals Research

* Ces articles sont des contributions personnelles de leurs auteurs. Ils ont été écrits en leur nom propre et ne prennent pas position au nom de Smals.

Plus d’infos sur l’équipe Smals Research


Comments are closed.