Mais aussi cool que cela puisse paraître, cela ne signifie pas que l’IA est soudainement aussi intelligente qu’un avocat.
L’arrivée de GPT-4, la mise à niveau d’OpenAI vers un logiciel de chatbot qui a captivé l’imagination du monde entier, est l’un des lancements technologiques les plus médiatisés de l’année. Certains craignaient que son étrange capacité à imiter les humains ne soit dévastatrice pour les travailleurs, utilisée comme une machine chaotique “deep fake”, ou inaugurant l’ère des ordinateurs intelligents.
Je ne le vois pas de cette façon après avoir utilisé GPT-4 pendant quelques jours. Bien qu’elle soit passée d’un étudiant D à un étudiant B en répondant à des questions de logique, l’IA n’a pas franchi le seuil de l’intelligence humaine. D’une part, lorsque j’ai demandé à GPT-4 d’adapter sa capacité d’écriture “créative” améliorée pour créer le paragraphe d’ouverture de cette colonne dans mon propre style (Jeffrey A. Fowler), il n’a pas réussi à tomber sur celui qui a échoué. Je fronce les sourcils.
Mais GPT-4 ajoute le défi de découvrir comment les nouvelles forces et faiblesses de l’IA pourraient changer le travail, l’éducation et même les relations humaines. Je suis moins préoccupé par le fait que l’IA devienne trop intelligente que par la façon dont l’IA pourrait être stupide ou biaisée d’une manière que nous ne savons pas expliquer ou contrôler, même si nous nous précipitons pour l’intégrer dans nos vies.
Ce ne sont pas que des questions théoriques. OpenAI est tellement confiant dans GPT-4 qu’il l’a introduit aux côtés de produits commerciaux qui l’utilisent déjà pour enseigner la langue sur Duolingo et enseigner aux enfants sur Khan Academy.
N’importe qui peut utiliser GPT-4, mais pour l’instant, il nécessite un abonnement mensuel de 20 $ à ChatGPT Plus d’OpenAI. Il s’avère que des millions de personnes utilisent déjà la version GPT-4. Microsoft a reconnu cette semaine qu’il renforçait le chatbot Bing, que le géant du logiciel a ajouté à son moteur de recherche en février. Les entreprises ne l’ont tout simplement pas révélé jusqu’à présent.
Alors quoi de neuf? OpenAI affirme qu’en optimisant son “apprentissage en profondeur”, les plus grands progrès de GPT-4 ont été dans le raisonnement logique et la collaboration créative. GPT-4 a été formé sur des données d’Internet qui remontent à septembre 2021, ce qui signifie qu’il est légèrement plus à jour que son prédécesseur, GPT-3.5. Et bien que GPT-4 ait toujours du mal à générer des informations de manière aléatoire, OpenAI indique qu’il est 40 % plus susceptible de fournir des réponses factuelles.
GPT-4 a également acquis la capacité surprenante d’interpréter le contenu des images, mais OpenAI le bloque pendant qu’il passe un contrôle de sécurité.
À quoi ressemblent ces évolutions à l’usage ? Les premiers utilisateurs ont soumis GPT-4 à toutes sortes de tests colorés, à commencer par la façon dont faire de l’argent lui demander de coder un plugin de navigateur qui génère des sites Web parler pirate. (Qu’est-ce que vous en faites? Envoyez-moi un e-mail.)
Permettez-moi de partager deux de mes tests qui aident à montrer ce que cette chose peut et ne peut pas faire en ce moment.
On va commencer par le test qui m’a le plus impressionné, en regardant le GPT-4, qui est presque aussi simple que le LSAT.
J’ai essayé 10 exemples de questions de raisonnement rédigées par le Law School Admissions Board sur l’ancien et le nouveau ChatGPT. Ce ne sont pas des questions factuelles ou par cœur, ce sont en quelque sorte des casse-tête à choix multiples qui vous racontent tout un tas de faits différents et vous demandent ensuite de les trier.
Lorsque je les ai parcourus avec GPT-3.5, il n’a obtenu que 6 réponses correctes sur 10.
Ce qui se passe? Dans les énigmes pour lesquelles seul GPT-4 est correct, ses réponses montrent qu’il se concentre sur le lien entre les faits présentés et la conclusion qu’il est censé étayer. GPT-3.5 est distrait par des faits non pertinents.
OpenAI indique qu’un certain nombre d’études montrent que GPT-4 “démontre des performances de niveau humain” sur d’autres références professionnelles et académiques. Le GPT-4 a obtenu un score dans le 90e centile à l’examen uniforme du barreau, contre le 10e centile sur la version précédente. Il a obtenu le 93e rang au test de lecture et d’écriture SAT, et même le 88e centile au LSAT complet.
Nous cherchons toujours à comprendre ce que cela signifie. Mais un test comme le LSAT prend des informations bien organisées, ce à quoi les machines excellent. Certains chercheurs affirment que ces types de tests ne sont pas utiles pour évaluer les améliorations de mise à la terre d’un véhicule.
Mais GPT-4 semble être amélioré dans sa capacité à suivre des instructions complexes impliquant de nombreuses variables, ce qui peut être difficile ou chronophage pour le cerveau humain.
Alors, que pouvons-nous faire à ce sujet? Depuis que le LSAT l’a fait, j’ai appelé une société de logiciels juridiques appelée Casetext, qui a eu accès à GPT-4 au cours des derniers mois. Il a décidé qu’il pouvait désormais vendre l’IA pour aider les avocats, et non les remplacer.
Le raisonnement logique de l’IA “signifie qu’elle est prête pour une utilisation professionnelle dans des affaires juridiques graves” d’une manière que les générations précédentes ne l’étaient pas, a déclaré le PDG Jake Heller. Comme quoi? Il dit que son produit, appelé CoCounsel, a pu utiliser GPT-4 pour traiter de grandes piles de documents juridiques et identifier les sources potentielles d’incohérence.
Un autre exemple. GPT-4 peut interroger les directives des clients – les règles de ce qu’ils paieront et ne paieront pas – pour répondre à des questions telles que s’ils couvriront les frais d’un stagiaire universitaire. Même si les lignes directrices n’utilisent pas ce mot exact “stagiaire”, l’AI de l’avocat peut comprendre qu’un stagiaire serait également couvert par l’interdiction de payer pour une “formation”.
Mais que se passe-t-il si l’IA comprend mal ou manque une conclusion logique importante ? La société affirme avoir constaté une confusion avec GPT-4, en particulier lorsque les mathématiques sont impliquées. Mais Heller a déclaré que les parajuristes faisaient aussi des erreurs, et il ne voit le GPT-4 que comme un moyen d’ajouter plus de parajuristes. “Vous ne l’attribuez pas aveuglément”, a-t-il déclaré. “Votre travail consiste à être le décideur final.”
Ma préoccupation. Lorsque des partenaires humains font des erreurs, nous savons comment leur apprendre à ne pas le faire. La gestion de l’IA est au mieux une nouvelle compétence difficile, et au pire quelque chose que nous avons vu des chatbots d’IA comme Bing de Microsoft et My AI de Snapchat lutter de manière embarrassante et potentiellement dangereuse.
Pour tester les capacités créatives de GPT-4, j’ai essayé quelque chose de plus proche en me remplaçant en tant que chroniqueur avec une opinion sur tout ce qui concerne la technologie.
Lorsque ChatGPT est arrivé pour la première fois, une grande partie des préoccupations du public concernait à juste titre son impact sur le monde de l’activité humaine, qui comprend des mots allant de la narration à la thérapie. Les étudiants et les professionnels l’ont trouvé pour aider ou compléter des devoirs.
Mais pour de nombreux professionnels de la création, l’écriture par IA ne semblait pas si bonne. L’auteur-compositeur Nick Cave a déclaré qu’essayer d’utiliser ChatGPT pour écrire son style était “une moquerie grotesque de ce que signifie être humain”.
Dans GPT-4, OpenAI revendique des capacités améliorées pour mieux générer, éditer et itérer sur les tâches d’écriture créative et technique. Il dispose d’un nouveau réglage de “température” que vous pouvez ajuster à la créativité des réponses. Il peut également prendre des instructions sur le style et le ton, car il peut prendre en charge des invites allant jusqu’à 25 000 mots. En théorie, vous devriez pouvoir partager tout un tas de vos écrits et dire que cela correspond.
C’était donc mon défi créatif pour GPT-4 ; Écrivez un paragraphe d’introduction pour cette colonne qui ressemble à moi ou à quelque chose que j’aimerais écrire.
Pour ce faire, j’ai rassemblé un long échantillon de mes chroniques récentes pour enseigner à GPT-4 comment je sonne. Pour que cela fonctionne, j’ai utilisé la version commerciale de GPT-4 qu’OpenAI vend aux entreprises, car le ChatGPT public ne peut pas encore accepter autant de texte.
L’invite en haut de mon exemple d’écriture disait:
Dans la colonne technologie du Washington Post, écrivez un simple paragraphe d’ouverture sur l’arrivée d’une nouvelle version de ChatGPT qui fonctionne sur GPT-4. Les lecteurs devraient comprendre qu’un outil d’intelligence artificielle a acquis une capacité remarquable à résoudre des énigmes logiques à partir du LSAT. Cela devrait correspondre à Jeffrey A. Le style d’écriture de Fowler basé sur les exemples suivants de ses colonnes pour le Washington Post.
Lors de dizaines de tests, les résultats offerts par GPT-3.5 m’ont frappé comme suit :
Bienvenue dans un futur où l’homme et la machine sont désormais engagés dans une bataille d’esprit qui ferait frémir même Sherlock Holmes. Alors que la dernière itération de ChatGPT d’OpenAI, l’incroyable progéniture de la famille GPT-4, fait sa grande entrée, elle apporte avec elle une nouvelle capacité étonnante à résoudre des énigmes logiques extraites directement des pages du LSAT. Oui, vous avez bien lu, cher lecteur. l’examen même qui a laissé d’innombrables aspirants avocats aux prises avec les limites de leur cerveau fait maintenant face à un digne adversaire sous la forme de l’intelligence artificielle qui rend A apte.
Mes résultats de GPT-4, qui avait accès à 6000 mots de mes colonnes pour imiter mon style, étaient meilleurs. Mais pas beaucoup. Par exemple, c’est ce qu’il a produit avec le réglage “température” au milieu;
Préparez-vous à être surpris par la prochaine évolution de l’intelligence artificielle. ChatGPT, une idée originale d’OpenAI, a subi une transformation remarquable. Exploitant la puissance de GPT-4, la dernière itération de ChatGPT peut désormais résoudre des énigmes logiques directement à partir du LSAT, ce qui est encore plus génial que de débattre d’Elon Musk ou de proposer une délicieuse recette de boeuf stroganoff. Amoureux de la technologie et passants désorientés, préparez-vous. le monde est sur le point de changer.
J’espère bien que ce n’est pas comme moi. (Je n’aime même pas le boeuf stroganoff). Au cours de nos plus de 30 expériences, il a produit des phrases telles que : Tour de montagnes russes avec GPT-4, où les sauts logiques et les acrobaties abondent.”
Mon entrée GPT-4 a atteint son maximum à une invite de 6 000 mots, j’ai donc directement demandé à OpenAI de m’aider à exécuter la même invite, mais de copier mon style avec 25 000 mots de ce que j’ai écrit. Le résultat, avec la “température” fixée à 2 à 0,2, semble plus raisonnable, mais toujours pas digne du haut de cette colonne ;
ChatGPT a toujours été bon pour simuler une conversation humaine. Mais avec l’avènement du GPT-4, l’outil d’IA a fait un grand bond en avant. il peut maintenant résoudre des énigmes logiques du LSAT. C’est vrai, le test était utilisé pour les admissions à la faculté de droit. Alors que l’IA continue de se développer à un rythme effréné, cela vaut la peine de se demander : Que peuvent faire d’autre ces systèmes ?
Le plus troublant a peut-être été la façon dont GPT-4 a tiré des conclusions et des faits qui ne faisaient pas partie de mon invite. Lors de nos différents tests, il a été écrit “Écartez-vous, les gens” (yikes !) Et que le GPT-4 est “adaptatif, intuitif et plus humain que jamais”.
L’expérience m’a fait réfléchir. Quel est le problème que nous essayons de résoudre en développant les capacités créatives de l’IA ? J’apprécie que les outils d’écriture d’IA puissent aider les personnes qui ne sont pas des écrivains professionnels à se lancer dans des documents commerciaux, des rapports de recherche et même de la correspondance personnelle.
Mais développer la capacité de contrôler et même d’imiter le style revient à essayer de singer les artistes. Évidemment, je n’ai pas peur de perdre mon travail d’écrivain au GPT-4. Redemandez-moi dans GPT-5.
Dylan Friedman a contribué à ce rapport.