In het constant veranderende landschap van belastingen is innovatie essentieel om voorop te blijven lopen. Een van de nieuwste hulpmiddelen voor belastingprofessionals is Generatieve AI (GenAI), in het bijzonder taalmodellen zoals GPT-4. De effectiviteit van deze modellen in de fiscaliteit hangt echter sterk af van één cruciaal element: de manier waarop gebruikers hun prompts formuleren, oftewel ‘prompt engineering’. Maar wat houdt prompt engineering precies in, en waarom is het zo belangrijk binnen de fiscaliteit?
Prompt engineering in de fiscaliteit: een vak apart
Prompt engineering is het proces waarbij specifieke en genuanceerde instructies of prompts worden geformuleerd om de best mogelijke antwoorden van GenAI-modellen zoals GPT-4 te krijgen. Dit is bijzonder relevant in de fiscaliteit, waar nauwkeurigheid, precisie en traceerbaarheid van groot belang zijn. Door zorgvuldig te bepalen hoe we taken aan AI delegeren, kunnen we de kwaliteit van de resultaten aanzienlijk verbeteren, wat ze waardevol(ler) maakt voor belastingprofessionals in diverse domeinen.
Experiment om de effectiviteit van prompt engineering te meten
Om de impact van prompt engineering op fiscaal gerelateerde taken te kwantificeren, hebben we een experiment uitgevoerd met specialisten uit verschillende belastingafdelingen binnen EY: directe belastingen, indirecte belastingen, loonbelasting, internationale belastingen, compliance en transfer pricing. Deze specialisten leverden ons typische taken uit hun praktijkgebieden aan, waarbij we ons richtten op vijf hoofdtaken waar GenAI bij kan ondersteunen: het genereren van fiscale teksten, het samenvatten van fiscale documenten, het classificeren van zaken voor fiscale doeleinden, het vertalen van fiscale teksten en het uitvoeren van fiscaal onderzoek.
In de eerste fase voerden we deze taken uit met behulp van een veilige GenAI-oplossing gebaseerd op GPT-4, waarbij we de specialisten vroegen om de gegenereerde antwoorden te beoordelen volgens een ISO-standaard voor datakwaliteit. Vervolgens herhaalden we het experiment, waarbij we diverse prompt engineering technieken toepasten, zoals Few Shot, Persona, Audience, Output/Instructie, Template en Chain-of-Thought prompt technieken.
Gemiddelde kwaliteitsverbetering van 14%
De resultaten waren veelzeggend: prompt engineering verbeterde de kwaliteit van de antwoorden op fiscale vragen en taken aanzienlijk, met een gemiddelde kwaliteitsverhoging van 14%. De ‘rapportcijfers’ van de antwoorden schoot volgens onze collega’s van een 7,4 naar bijna een 8,5.
Toen we de resultaten uitsplitsten per fiscale toepassing, bleek dat prompt engineering de grootste impact had op de kwaliteit van antwoorden bij fiscaal onderzoek, met een kwaliteitsverbetering van 28%. Dit wijst erop dat prompt engineering vooral effectief is in situaties die complexe redeneringen en synthese van informatie vereisen. Aan de andere kant bleek de verbetering in de kwaliteit bij het samenvatten van fiscale teksten bescheiden, met slechts 1% verbetering. Dit suggereert dat taalmodellen al vrij bekwaam zijn in het condenseren van informatie.