Vous êtes ici

Comment faire... - Mardi 19 Septembre 2023

Recherche d’information avec l’IA : première approche (Partie 2) : Les agents conversationnels

(Partie 1 : recommandations et moteurs de recherche)

Arrivés sur le devant de la scène fin 2022 avec la sortie grand public de ChatGPT3.5, puis 4 au printemps 2023, les agents conversationnels sont des outils basés sur l’analyse de grand corpus de documents et les probabilités statistiques pour la génération de textes (GPT est l’acronyme de Generative Pre-trained Transformer). On parle plus globalement d’IA génératives, notamment en ce qui concerne les contenus autres que le texte : code informatique, formules mathématiques, images, vidéos, etc.

Vue la polyvalence de l’outil pour traiter du texte, il peut servir à “chaque étape de la veille, qu’il s’agisse de l’identification des besoins, du sourcing, ou de l’analyse.” Par exemple, l’outil peut, à travers une analyse sémantique, résumer un ou plusieurs textes et en extraire les idées forces pour générer des mots-clés, qui permettront ensuite de chercher d’autres documents. L’outil peut également donner les bases d’une étude de marché par le repérage de concurrents, l’identification de leurs caractéristiques, la rédaction de profils, etc.

Voici pour compléter un aperçu d’autres outils, dérivés ou inspirés de ChatGPT, pouvant être utiles à une recherche d’information, sous forme d’application web ou d’extension de navigateurs : 

Capture d'écran d'une conversation avec LegiGPT

L’outil ChaptGPT 4 est accessible gratuitement, mais après création d’un compte Microsoft, via l’outil Bing Chat : Aller pour cela sur bing.com/new avec le navigateur Edge.

Les interroger à l’aide de prompts

Les agents conversationnels s'interrogent à l’aide de prompts, c’est-à-dire de consignes, formulées le plus exactement possibles. Plus le contexte de la recherche d’information est défini précisément dans la consigne donnée à l’IA, plus sa réponse sera pertinente. Par exemple, spécifiez le profil de la personne demandeuse, son niveau de connaissance et de compréhension du sujet abordé. Indiquez quel format de restitution est souhaité pour gagner du temps ensuite sur la mise en forme de l’information.

 

Usages de l’I.A générative pour “produire” de l’information

Au-delà de la recherche d’information sous forme de textes, chiffres ou images, les IA dites génératives peuvent également bien sûr être employées pour produire des contenus du même type. Cette pratique ne va pas sans poser de nombreux problèmes éthiques liés pour les plus évidents à la propriété intellectuelle et à l’intégrité académique. S’il est par exemple admis que l’IA ne peut être citée comme un auteur au sens propre du terme, cela ne dispense pas de la citer en tant qu’aide à la rédaction pour son mémoire, article, thèse… La direction de l’information scientifique et technique du CIRAD (Centre de coopération internationale en recherche agronomique pour le développement) l’explicite ainsi :

“Le Committee on Publication Ethics (COPE) a rédigé une note de position (Authorship and AI tools - COPE position statement, version 1, 13/02/2023) soulignant que ces outils ne sont pas assimilables à des auteurs, que ces derniers doivent décrire comment ils les emploient et qu’ils restent responsables du contenu de leur publication, quelle que soit la manière dont ils l’ont produit.”

Images

De nombreux problèmes de droit d’auteur se posent potentiellement, mais le cadre est évolutif : il n’y a pas de personne au sens juridique qui crée du contenu, donc pas d’auteur, mais pas non plus d’usages commerciaux rendus possibles par une licence libre ou une cession de droits. L’usage des contenus générés par IA devrait donc être toléré dans un but non lucratif dans un premier temps, sauf si l’outil prévoit le contraire, notamment dans le cadre d’un usage payant professionnel. Il y a également une problématique de plagiat en cascade potentielle : l’outil peut enfreindre le droit d’auteur en “s'entraînant” sur un corpus d’oeuvres protégés dont il reproduit ensuite les traits trop distinctement en mettant à disposition de ses usagers des images relevant d’un “vol de style”.

Textes (dont traductions)

Une bonne pratique est de ne pas utiliser un générateur de texte sans le mentionner, ou en trop grande quantité, car ce serait enfreindre l’éthique académique, comme vu ci-dessus. Cela signifie qu’on doit citer là aussi l’emploi d’un outil de traduction automatique, même pour un texte ensuite retouché.

Synthèse vocale 

Cet usage de l’intelligence artificielle pour l’analyse automatique du langage permet de passer des textes écrits à l’oral et réciproquement et peut-être utile aussi bien pour retranscrire des entretiens que pour faciliter l’accès à des contenus textuels divers. Tout texte copié dans un outil gratuit sur le web tel par exemple TTSreader est cependant susceptible d’être réutilisé par les concepteurs de cet outil pour l’améliorer, il faut donc veiller à la protection des données personnelles et données sensibles. Consultez attentivement les CGU de chaque outil à ce sujet.

Capture d'écran du menu de sélection de la langue sur TTS reader

Quelques questions éthiques

Au-delà même des potentielles atteintes au droit d'auteur ou à l’éthique académique, les outils générateurs de textes posent des problèmes en termes de qualité des informations fournies. Par exemple ChatGPT ne mentionne pas ses sources dans ses réponses, tout en se basant sur un corpus limité et non mis à jour au-delà de 2021. Il peut “inventer des faits” ce qui permet à des personnes mal intentionnées de répandre la désinformation sous un air de véridicité très achevé. Le Learning Center de l’ESSEC se positionne en véritable ressource pour vous aider à affronter ces écueils.

La recherche et la production d’information avec des outils basés sur l’intelligence artificielle est en effet un domaine en pleine évolution, à surveiller tant sous l’angle des outils et pratiques que des réglementations et des évolutions sociales au sens large.

Pour aller plus loin, Semantic Scholar et Typeset.io sont deux outils de recherche assistée par l'IA qui peuvent être utilisés pour la formulation de mots-clés ou l'anayse des résultats. 

 

Sources

Notez ce contenu