De impact van prompt engineering in GenAI en belastingen

Leer hoe prompt engineering precisie in de fiscaliteit brengt en uw belastingtaken transformeert.

Met bijdrage van Bas Pelk

In het kort:

Prompt engineering kan de kwaliteit van GenAI-output in de fiscaliteit gemiddeld met 14% verbeteren.
Technieken zoals Few Shot en Persona prompts leiden tot nauwkeurigere antwoorden.
Zelfs zonder prompt engineering toont GPT-4 sterke prestaties in belastingtaken.

In het constant veranderende landschap van belastingen is innovatie essentieel om voorop te blijven lopen. Een van de nieuwste hulpmiddelen voor belastingprofessionals is Generatieve AI (GenAI), in het bijzonder taalmodellen zoals GPT-4. De effectiviteit van deze modellen in de fiscaliteit hangt echter sterk af van één cruciaal element: de manier waarop gebruikers hun prompts formuleren, oftewel ‘prompt engineering’. Maar wat houdt prompt engineering precies in, en waarom is het zo belangrijk binnen de fiscaliteit?

Prompt engineering in de fiscaliteit: een vak apart

Prompt engineering is het proces waarbij specifieke en genuanceerde instructies of prompts worden geformuleerd om de best mogelijke antwoorden van GenAI-modellen zoals GPT-4 te krijgen. Dit is bijzonder relevant in de fiscaliteit, waar nauwkeurigheid, precisie en traceerbaarheid van groot belang zijn. Door zorgvuldig te bepalen hoe we taken aan AI delegeren, kunnen we de kwaliteit van de resultaten aanzienlijk verbeteren, wat ze waardevol(ler) maakt voor belastingprofessionals in diverse domeinen.

Experiment om de effectiviteit van prompt engineering te meten

Om de impact van prompt engineering op fiscaal gerelateerde taken te kwantificeren, hebben we een experiment uitgevoerd met specialisten uit verschillende belastingafdelingen binnen EY: directe belastingen, indirecte belastingen, loonbelasting, internationale belastingen, compliance en transfer pricing. Deze specialisten leverden ons typische taken uit hun praktijkgebieden aan, waarbij we ons richtten op vijf hoofdtaken waar GenAI bij kan ondersteunen: het genereren van fiscale teksten, het samenvatten van fiscale documenten, het classificeren van zaken voor fiscale doeleinden, het vertalen van fiscale teksten en het uitvoeren van fiscaal onderzoek.

In de eerste fase voerden we deze taken uit met behulp van een veilige GenAI-oplossing gebaseerd op GPT-4, waarbij we de specialisten vroegen om de gegenereerde antwoorden te beoordelen volgens een ISO-standaard voor datakwaliteit. Vervolgens herhaalden we het experiment, waarbij we diverse prompt engineering technieken toepasten, zoals Few Shot, Persona, Audience, Output/Instructie, Template en Chain-of-Thought prompt technieken.

Gemiddelde kwaliteitsverbetering van 14%

De resultaten waren veelzeggend: prompt engineering verbeterde de kwaliteit van de antwoorden op fiscale vragen en taken aanzienlijk, met een gemiddelde kwaliteitsverhoging van 14%. De ‘rapportcijfers’ van de antwoorden schoot volgens onze collega’s van een 7,4 naar bijna een 8,5.

Toen we de resultaten uitsplitsten per fiscale toepassing, bleek dat prompt engineering de grootste impact had op de kwaliteit van antwoorden bij fiscaal onderzoek, met een kwaliteitsverbetering van 28%. Dit wijst erop dat prompt engineering vooral effectief is in situaties die complexe redeneringen en synthese van informatie vereisen. Aan de andere kant bleek de verbetering in de kwaliteit bij het samenvatten van fiscale teksten bescheiden, met slechts 1% verbetering. Dit suggereert dat taalmodellen al vrij bekwaam zijn in het condenseren van informatie.

Wat betreft de verschillende kenmerken uit de ISO-standaard voor datakwaliteit, zagen we de meest significante verbetering in de traceerbaarheid van de antwoorden, met een kwaliteitsstijging van 50%. Dit toont aan dat de GenAI-oplossing veel beter werd in het uitleggen van hoe bepaalde conclusies werden bereikt, wat cruciaal is in de fiscaliteit, waar de redenering achter beslissingen even belangrijk kan zijn als de beslissingen zelf. De kleinste verbetering in kwaliteit werd opgemerkt bij de correctheid en precisie van de antwoorden, met een toename van 6%. Dit suggereert dat GenAI al sterk presteert in het genereren van nauwkeurige en precieze inhoud.

Ook de effectiviteit van de verschillende prompt engineering technieken was opmerkelijk. Few Shot prompts leverden de grootste kwaliteitsverbetering op, met een stijging van 23%, gevolgd door Persona prompts met een toename van 22%. Deze technieken, die het model instrueren om te reageren als een specifieke expert of op basis van enkele voorbeelden, verhogen duidelijk de relevantie en nauwkeurigheid van de gegenereerde inhoud.

Gereedheid van modellen

Hoewel het duidelijk is dat het toepassen van prompt engineering technieken voordelen biedt binnen de fiscaliteit, was het effect minder groot dan we aanvankelijk hadden verwacht. Dit suggereert dat taalmodellen zoals GPT-4 al behoorlijk competent zijn in het uitvoeren van fiscale taken wanneer ze dezelfde instructies krijgen die een menselijke belastingadviseur zou ontvangen, zonder extra prompt engineering. Dat blijkt ook wel uit het rapportcijfer 7,4 dat GPT-4 al kreeg in het originele experiment. Dit beschouwen we als een positieve ontwikkeling, aangezien dit kan betekenen dat deze modellen snel kunnen worden geïntegreerd in de fiscaliteit zonder veel extra training.

Door het omarmen van prompt engineering kunnen we het potentieel van GenAI binnen de fiscaliteit nog beter benutten, waardoor efficiëntie en nauwkeurigheid in ons vakgebied naar nieuwe hoogten kunnen worden gebracht.

Inzichten

Actuele onderwerpen

Uitgelicht

Diensten

Uitgelicht

Sectoren

Casestudy's

Werken bij EY

Uitgelicht

Over ons

Top nieuws

De impact van prompt engineering in GenAI en belastingen

Leer hoe prompt engineering precisie in de fiscaliteit brengt en uw belastingtaken transformeert.

Prompt engineering in de fiscaliteit: een vak apart

Experiment om de effectiviteit van prompt engineering te meten

Gemiddelde kwaliteitsverbetering van 14%

Prompt engineering in de fiscaliteit: een vak apart

Experiment om de effectiviteit van prompt engineering te meten

Gemiddelde kwaliteitsverbetering van 14%

Gereedheid van modellen

Samenvatting