Regard d’un jeune éditeur de logiciel de veille sur la technologie et l’IA

Le 6 Avril 2023, par Bertrand Coty interview

Interview avec Valéry Mainjot, CEO de Cikisi.
Cikisi est une startup du « B2B SaaS » développant et commercialisant une solution de veille et d’intelligence de marché dédiée aux grandes entreprises de l’industrie et des services. Cikisi équipe plusieurs entreprises du CAC 40 et du BEL-20.

Valéry Mainjot

Valéry, quels facteurs influencent les choix technologiques de votre produit ?

La mission de Cikisi est d’optimiser toutes les étapes de la séquence de travail d’une cellule de veille, depuis la collecte de l’information brute jusqu’au partage de ses livrables au sein de son organisation.

La technologie est bien entendu le principal moyen pour remplir notre mission. Si une technologie permet de développer une fonctionnalité améliorant la productivité de nos utilisateurs, alors nous étudions la faisabilité technique de son intégration dans notre solution. Ensuite, nous réalisons une analyse de rentabilité afin de nous assurer que les coûts d’exploitation additionnels facturés au client seront bien inférieurs aux économies qu’il dégagera de son gain de productivité. Si ce n’est pas le cas, nous restons en veille et attendons une diminution du coût d’exploitation de cette technologie.

Certaines technologies vont donc au-delà de l’automatisation et du gain de productivité, en apportant de nouvelles capacités et donc une nouvelle proposition de valeur. Parfois, nos clients ne sont cependant pas disposés à voir le prix de leurs licences augmenter en échange de l’intégration de certaines technologies.

Nous faisons donc avant tout des choix économiques pragmatiques afin de rester compétitifs, offrir un bon retour sur investissement à nos clients tout en assurant un modèle économique rentable à nos investisseurs.

Cikisi a toujours fait le choix d’une stricte rigueur dans le cadre de la maitrise technologique et ceci dans le but de rester totalement indépendant et donc pérenne. Ainsi, nous n’avons jamais sous-traité les opérations de collecte et de traitement de l’information, car elles sont le cœur de notre outil. Nos fonctionnalités et plus globalement nos algorithmes sont tous programmés par notre équipe R&D, en faisant si nécessaire appel à des technologies « en sources ouvertes », libres d’utilisation commerciale.

Que signifie selon vous la notion d’indépendance pour un logiciel ?

L’indépendance d’un logiciel repose sur deux piliers. Le premier est l’indépendance technologique. Si l’on sait pallier l’arrêt d’un service par le recours à un autre, c’est déjà une bonne chose. C’est le cas des services de traduction par exemple. Mais ce n’est pas toujours possible et sur notre marché plusieurs outils d’analyse des réseaux sociaux ont disparu à la suite de changements majeurs opérés sur les services API de ces réseaux sociaux, tels que Facebook Graph. On doit donc s’assurer d’avoir toujours un plan B. « Si ton produit repose exclusivement sur des tweets, tu as intérêt à t’assurer qu’Elon Musk ne durcira jamais l’accès à ceux-ci ».

Le second est l’indépendance économique. Nombreuses sont les startups de la Tech dont le modèle économique a été mis en péril à la suite de changements tarifaires abrupts de services Web dont elles dépendaient. L’annonce récente de l’augmentation drastique du service Bing Search API accentue encore la fragilité économique des moteurs de recherche Web qui dépendent de MicroSoft pour leurs résultats et conforte la pertinence de notre décision de développer notre propre moteur de recherche dès 2017.

Aujourd’hui de nombreuses solutions intègrent déjà des fonctionnalités alimentées exclusivement par un service tel que ChatGPT, sans avoir la moindre visibilité sur l’évolution tarifaire de ce service et donc aucune certitude de la viabilité économique de ces fonctionnalités sur le moyen terme.

Vous avez mentionné ChatGPT, à ce sujet l’intelligence artificielle conversationnelle apporte-t-elle de nouvelles perspectives pour les acteurs de la veille et de l’intelligence de marché ?

Clairement l’utilisation de l’intelligence artificielle au sein des outils de veille et d’intelligence de marché va devenir de plus en plus fréquente.

Néanmoins il ne faut pas utiliser l’intelligence artificielle à tout prix et à tout vent, sous prétexte que c’est la mode, permet de faire du marketing ou d’attirer des investisseurs.

Nous sommes agnostiques en termes de technologies. L’optimalisation du travail de nos utilisateurs peut être le fruit d’automatisations, d’exécutions d’algorithmes reposant sur des métadonnées, des statistiques, des règles machines ou humaines et donc sans faire appel spécialement à l’intelligence artificielle.

Nous utilisons l’intelligence artificielle lorsqu’elle s’avère nécessaire et notamment dans des tâches liées à la compréhension de la langue telles que l’extraction des mots-clés, des entités nommées ou la contextualisation d’un contenu textuel. Dans le domaine d’un contenu de type image, nous l’utilisons par exemple pour détecter un visage.

Notre équipe travaille actuellement à l’implémentation d’un modèle de langage de grande taille (LLM – Large Language Model) et celui-ci remplacera le modèle actuel avant la fin de l’année. Il nous permettra d’ajouter de nouvelles capacités à notre module d’exploration des données, telles que les cartographies relationnelles. Mais ce n’est qu’un exemple parmi tant d’autres, dont la contextualisation de contenus et la réalisation de résumés.

Inversement, que devraient craindre les éditeurs de logiciels de l’avènement le l’intelligence artificielle ?

Il ne faut en effet pas être manichéen et si l’intelligence artificielle représente des opportunités, elle génère également sa dose de menaces pour les éditeurs de logiciels.

L’évolution récente de l’intelligence artificielle conversationnelle telle que ChatGP amène sa dose de nouvelles capacités, mais va par exemple également lancer d’énormes défis aux outils d’analyse des réseaux sociaux. Depuis plusieurs années, les réseaux sociaux sont pollués par les trolls, les faux commentaires et les robots d’automatisation de séquences. Aujourd’hui, nous pourrions lire des conversations entières sur les réseaux sociaux, alliant subtilement textes et images, générées exclusivement par des robots programmés par des acteurs différents. Il va dès lors devenir de plus en plus difficile pour les outils de veille des réseaux sociaux d’identifier la réelle expression du consommateur au travers de toute cette information « non humaine ».

Vu notre profil de clients, la veille sur les réseaux sociaux n’est pas un segment sur lequel nous nous sommes spécialisés. Par contre, dans notre segment de l’intelligence de marché, les questions relatives à la sécurité informationnelle nous concernent davantage. Les données de nos clients doivent en effet être strictement protégées. Faire appel de façon régulière à des services tiers qui ne seraient pas hébergés sur nos serveurs et dont nous n’aurions pas le contrôle, reviendrait à faire courir un risque à nos clients.

Concrètement quels seraient les risques encourus par vos clients dans le cas où Cikisi ferait appel à un service tel que ChatGPT ?

Le premier serait l’exploitation de ces informations à des fins de guerre économique, d’espionnage industriel ou de lobbying. À la demande d’un gouvernement ayant un droit d’accès à ces informations (exemple : Data Act) ou à la suite d’une violation de données (Data Breach). La simple sélection d’un ou de plusieurs articles, soient-ils même accessibles publiquement sur le Web, relève de la confidentialité, car au travers de cette sélection il est possible d’identifier les centres d’intérêt stratégiques de nos clients. Et c’est d’autant plus vrai si l’on transmet une requête, quelle que soit sa forme, de la requête booléenne classique à la question ouverte.

Le second risque est lié à la possible exploitation des données internes et sensibles de nos clients pour l’apprentissage du service utilisé, ce qui revient à indirectement divulguer publiquement des informations sensibles. Les grands groupes actifs dans des domaines stratégiques tels que l’énergie, la finance, la santé et la défense ont certainement déjà pris des mesures pour ne pas utiliser des services tiers tels que ChatGPT. Par contre il n’est pas certain que toutes ces entreprises aient déjà étudié de près la dépendance de leurs outils vis-à-vis des technologies de recherche et de traitement de l’information de MicroSoft, Google ou OpenAI.

Il faut donc être prudent et faire la juste balance entre le gain d’un côté et le risque de l’autre. Tout comme il faut être conscient des limitations de ces nouvelles technologies.

Justement, quelles sont selon vous les limites de services comme ChatGPT ? Pourraient-ils remplacer les solutions de veille ?

La veille stratégique consiste à mettre en place les méthodes et ressources permettant aux membres d’une organisation d’être en possession le plus vite possible des nouveaux éléments rendus publics en rapport avec un sujet d’intérêt stratégique. Et l’intelligence artificielle générative ne peut prédire l’avenir.

A titre d’illustration, j’ai demandé à ChatGPT de me décrire les activités de deux sociétés connues sur le marché de la veille sociale, ce qu’il a fait correctement. Ensuite je l’ai demandé si ce serait une opportunité pour la première de faire l’acquisition de la seconde, chose à laquelle le modèle ne savait pas répondre. Or cette acquisition a bien eu lieu en 2022, une date ultérieure à l’entraînement du modèle. J’ai ensuite demandé à ChatGPT de me parler tout simplement de Cikisi et il m’a avoué ne pas connaître notre société. Je lui ai ensuite demandé de me dire qui était à la tête de Danone et il m’a indiqué qu’il s’agissait d’Emmanuel Faber, ce qui n’est plus le cas. Une information vraie dans le passé peut ne plus l’être aujourd’hui. L’horodatage des liens entre les données est primordial pour construire la connaissance.

L’intelligence artificielle générative représente donc une avancée majeure pour rédiger automatiquement une réponse à une question, mais toujours sur base d’un état de la connaissance acquise. Si celle-ci n’est pas exhaustive ou n’est pas mise à jour, inévitablement vous n’obtiendrez pas les bonnes réponses à vos questions.

Pour savoir rédiger un texte sur des domaines très divers, ChatGPT aurait été entraîné sur 1 milliard de documents, ce qui est inférieur à la taille actuelle de l’index de Cikisi pourtant très orienté « business » et gonflant tous les jours de millions de nouvelles références. Ceci n’assure donc pas l’exhaustivité. En outre ces documents avaient été publiés en 2021 ou antérieurement, ce qui n’assure pas la validité temporelle de l’information.

À ce jour, il n’est pas économiquement et techniquement possible d’entrainer de tels modèles quotidiennement sur base de toutes les nouvelles informations disponibles sur le Web.   Dans le futur cela sera certainement techniquement possible avec les progrès des calculateurs et les récentes annonces de NVIDIA sont réjouissantes à ce sujet. Mais il restera encore la barrière économique.

Autrement dit, l’intelligence artificielle permet d’améliorer les capacités d’analyse des outils de veille, mais elle ne peut pas remplacer ceux-ci.

Et si MicroSoft Bing apportait l’exhaustivité et la mise à jour de la connaissance, OpenAI les modèles d’intelligence artificielle et NVIDIA la capacité de mettre à jour ces modèles, aurait-on « réponse à tout » ?

L’exhaustivité et la mise à jour des données solutionneraient une grosse partie du problème, mais il resterait encore à s’assurer de la qualité du modèle.
À ce jour, aucun modèle ne s’est avéré parfait. Les réponses données par certains modèles peuvent être erronées et beaucoup d’internautes se sont d’ailleurs récemment amusés avec celles-ci.

Il s’avère aujourd’hui qu’il est plus simple de créer quelque chose de crédible, dont la construction répond à des principes et des codes que d’identifier la vérité.
Et si une réponse dépourvue de sens peut s’avérer facile à détecter, il est plus difficile de déceler les biais dans des réponses crédibles. En utilisant un service tiers sur lequel vous avez très peu de contrôle, il est préférable de ne pas prendre le résultat pour vérité absolue.

En outre, certains modèles d’intelligence artificielle générative ne vous retournent pas non plus les données, les sources ayant permis de rédiger telle ou telle phrase, d’affirmer tel fait. Il est donc impossible de vérifier la véracité ou la validité temporelle d’une information., ce qui est primordial dans notre métier.

À mon humble avis, nous allons avoir besoin encore longtemps de veilleurs et d’analystes humains!

Certains décrient la pollution causée par l’intelligence artificielle, doit-on s’en inquiéter ?

Il y a en effet lieu de regarder l’évolution de nos logiciels au travers du prisme écologique.   Le mode digital pollue énormément. Le stockage, le traitement et le transfert des données du Web et des réseaux sociaux y contribuent fortement. Il est certain que les entreprises qui les éditent ou les utilisent ont une responsabilité écologique.

L’entraînement des modèles de langage de grande taille nécessite de plus en plus de capacités de calcul et donc de ressources électriques. Et ceci même si à charge de calcul équivalente les processeurs fabriqués consomment de moins en moins d’énergie.

Et il en est de même de l’exploitation de ces modèles. L’industrie de l’intelligence artificielle émet donc clairement de plus en plus de quantités de CO2.
Certains experts ont déjà estimé qu’une recherche Google émettait jusqu’à 10 grammes de CO2, la navigation sur une page d’un site web entre 0,1 et 10 grammes. Une requête réalisée à ChatGPT devrait être bien supérieure.

À l’heure de la RSE et de la lutte contre le réchauffement climatique, certaines organisations mettront peut-être en balance leur gain de productivité et l’augmentation de leur empreinte carbone. Chez Cikisi nous connaissons nos émissions de CO2 par utilisateur et sommes en mesure d’affirmer qu’employer notre solution n’est pas qu’économiquement rentable, c’est aussi bénéfique pour l’environnement.

Sources
- https://karmametrix.com/web-sustainability/the-carbon-footprint-of-chatgpt/
- https://www.bigtechwire.com/2023/02/17/microsoft-shocks-developers-by-increasing-the-pricing-of-bing-search-apis-by-up-to-10x/
- https://www.fredzone.org/bing-une-augmentation-x10-du-prix-421542
- https://www.lecho.be/entreprises/technologie/utiliser-chatgpt-en-entreprise-un-veritable-jeu-d-equilibriste/10454737.html
- https://www.monde-economique.ch/confidentialite-et-securite-des-donnees-du-cloud-sommes-nous-a-labri/
- https://towardsdatascience.com/the-carbon-footprint-of-chatgpt-66932314627d

Nouveau commentaire :

Le JDE promeut la liberté d'expression, dans le respect des personnes et des opinions. La rédaction du JDE se réserve le droit de supprimer, sans préavis, tout commentaire à caractère insultant, diffamatoire, péremptoire, ou commercial.