Tworzenie wysokiej jakości syntetycznych zbiorów danych dotyczących przypadków podatkowych na potrzeby oceny sztucznej inteligencji podatkowej w USA
W jaki sposób Shaip stworzył 2,000 realistycznych przypadków podatkowych w USA, wykorzystując zeznania podatkowe na szczeblu federalnym i stanowym, dokumenty pomocnicze, przepływy pracy w stylu CPA, walidację przez ekspertów z dziedziny finansów oraz kontrolę anonimizacji na potrzeby testowania sztucznej inteligencji w zakresie podatków w przedsiębiorstwach.
Przegląd projektu: Syntetyczny zbiór danych podatkowych do oceny sztucznej inteligencji
Wraz ze wzrostem możliwości systemów sztucznej inteligencji w dziedzinie podatków, jakość danych ewaluacyjnych staje się kluczowym czynnikiem różnicującym. Klient potrzebował obszernego zbioru danych realistycznych indywidualnych przypadków podatkowych, obejmujących federalne wymogi dotyczące składania zeznań podatkowych oraz różnice na poziomie stanowym w Kalifornii, Teksasie, Nowym Jorku, Illinois i na Florydzie. Każdy przypadek musiał odzwierciedlać rzeczywiste procesy pracy biegłych rewidentów (CPA) i zawierać kompletny monit o przyjęcie zgłoszenia, dokumentację źródłową, uzgodnione formularze podatkowe, podsumowania i etykiety trudności.
Firma Shaip została zaangażowana w zaprojektowanie gotowego do produkcji systemu do generowania zbiorów danych 2,000 w pełni uzgodnionych spraw podatkowych, z możliwością skalowania operacyjnego Przypadki 5,000 W miarę rozszerzania się potrzeb programu. Zbiór danych musiał obejmować ostatnie lata podatkowe, odzwierciedlać zrównoważoną złożoność w średnio i średnio złożonych przypadkach oraz utrzymywać ścisłe kontrole jakości w zakresie spójności, anonimizacji, formatowania i unikania duplikatów.
Kluczowe wskaźniki zbioru danych
Objętość zbioru danych
2,000 spraw podatkowych
Skalowalność
Możliwość rozszerzenia do 5,000 przypadków
Dokumentów potwierdzających
7-15 dokumentów na sprawę
Przepustowość dostaw
300-400 zestawów danych tygodniowo
Wyzwania związane z oceną sztucznej inteligencji podatkowej
- Zadbano o to, aby każdy przypadek odzwierciedlał realistyczny przebieg pracy w stylu CPA, z wewnętrznie spójnymi opisami podatników, dokumentami źródłowymi i ostatecznymi zeznaniami podatkowymi.
- Obsługa logiki podatkowej specyficznej dla pięciu stanów przy jednoczesnym zachowaniu spójności z formularzami i podsumowaniami federalnymi.
- Przygotowywanie średnio i średnio złożonych scenariuszy podatkowych obejmujących HSA, dochody w wielu stanach, formularze K-1, formularze ACA, załącznik C, zyski kapitałowe i konta zagraniczne.
- Przestrzeganie ścisłych standardów integralności, formatowania i kompletności danych, w tym dostarczanie wyłącznie w formacie PDF i odrzucanie plików niekompletnych, zduplikowanych lub strukturalnie niespójnych.
- Ochrona prywatności poprzez syntetyczne lub zanonimizowane zbiory danych z zabezpieczeniami uniemożliwiającymi identyfikację osób trzecich oraz wieloetapowym przeglądem.
Rozwiązanie Shaipa w zakresie syntetycznych danych podatkowych
Strategia danych
Shaip zorganizował zaangażowanie wokół produkcji 2,000 realistycznych indywidualnych przypadków podatkowych, każdy zaprojektowany do użytku ewaluacyjnego i testowego. Przepływ pracy został opracowany z myślą o obsłudze przyszłego skalowania Przypadki 5,000 bez uszczerbku dla spójności i jakości. Sprawy zostały zaprojektowane tak, aby reprezentować ostatnie pięć lat podatkowych, z silniejszym uwzględnieniem ostatnich okresów rozliczeniowych.
Projektowanie obudowy i modelowanie wlotu
W każdym przypadku klient wypełniał szczegółowy kwestionariusz, obejmujący dane osobowe, status podatkowy, osoby na utrzymaniu, zatrudnienie, wynagrodzenie w akcjach, dochód emerytalny, dochód z formularza 1099, formularze K-1, dochód z wynajmu, dochód zagraniczny, odliczenia, kredyty, historię zgodności z przepisami oraz wymogi stanowe. Dzięki temu każdy scenariusz odzwierciedlał etap gromadzenia informacji w rzeczywistym postępowaniu podatkowym.
Tworzenie pakietu dokumentów
Aby każdy zestaw plików był realistyczny i gotowy do oceny, do każdego przypadku dołączono pakiet dokumentów pomocniczych, takich jak formularze W-2, 1099-INT/DIV/B, 1099-R, 1099-NEC/MISC, K-1, 1095-A, formularze odsetek od kredytu hipotecznego, rachunki za podatek od nieruchomości, wyciągi maklerskie, umowy najmu, wyciągi bankowe, potwierdzenia wydatków firmowych i zapisy HSA/IRA.
Przygotowanie i uzgadnianie zwrotów
Każdy zestaw danych zawierał ukończony federalne i stanowe formularze zeznań podatkowych, w tym formularz 1040 i obowiązujące harmonogramy, a także formularze zgłoszeniowe stanowe i powiązane dokumenty kredytowe lub vouchery, jeśli są wymagane. Skrócone podsumowania dla kadry kierowniczej uwzględniają dochód brutto (AGI), dochód podlegający opodatkowaniu, łączny podatek, płatności, zwrot lub saldo należne, kary i efektywną stawkę podatku, z polami podsumowania na poziomie stanowym.
Struktura złożoności
Przypadki podzielono na określone poziomy trudności, kładąc nacisk na: Poziom 2 (średni) & Poziom 3 (średnio złożony) Scenariusze obejmowały sytuacje związane ze składaniem zeznań w wielu stanach, działalność HSA, dochody z załącznika C, zyski kapitałowe, raportowanie ACA, konta zagraniczne oraz logikę podatkową opartą na formularzu K-1.
Kontrola jakości i akceptacji
Firma Shaip dostosowała dostawę do rygorystycznych wymogów jakościowych, obejmujących spójność logiczną, mapowanie pól podatkowych, kompletność dokumentów, zgodność strukturalną z amerykańskimi szablonami podatkowymi oraz gotowość do ostatecznego audytu. Przepływ pracy uwzględniał również kryteria odrzucenia dotyczące nieprawidłowych plików PDF, brakujących danych finansowych, zduplikowanych zestawów danych i niedopasowanego rozmieszczenia pól.
Prywatność i zgodność
Wszystkie dane zostały zaprojektowane w sposób syntetyczny lub odpowiednio zanonimizowane, bez rzeczywistych danych osobowych i z wieloetapową procedurą deidentyfikacji. Dzięki temu zbiór danych mógł spełniać potrzeby testowe przedsiębiorstw, zachowując jednocześnie zasady prywatności.
Zakres syntetycznego zbioru danych podatkowych
| Komponent zbioru danych | Zakres |
|---|---|
| Objętość sprawy | Przypadki 2,000 |
| Skalowalność | Możliwość rozszerzenia do 5,000 przypadków |
| geografia | Kalifornia, Teksas, Nowy Jork, Illinois, Floryda |
| Dokumenty na sprawę | 7–15 dokumentów |
| Poziomy trudności | Skupienie na poziomie 2 i poziomie 3 |
| Formularze federalne | 1040, Załączniki 1–3, A, B, C, D, E, SE i obowiązujące formularze |
| Formy stanowe | Odpowiednie formularze deklaracji stanowych, harmonogramy, kredyty i vouchery |
| Podsumowanie wyników | Podsumowania podatków federalnych i stanowych |
| Format dostawy | Tylko PDF |
| Tygodniowa przepustowość | 300–400 zestawów danych |
Wynik: Zestaw danych do oceny gotowej do wdrożenia w przedsiębiorstwie sztucznej inteligencji podatkowej
- Stworzono ramy dla 2,000 rzetelnych spraw podatkowych przeznaczony do wewnętrznej oceny i testowania
- Ustanowiono gotowość operacyjną do skalowania produkcji do Przypadki 5,000
- Umożliwiono realistyczne testowanie modeli w ramach federalnych i pięciostanowych przepływów pracy podatkowych
- Ustrukturyzowano każdy przypadek tak, aby odzwierciedlał prawdziwą logikę przyjmowania, dokumentacji, składania i podsumowania w stylu CPA
- Wbudowane rygorystyczne kontrole dotyczące anonimizacji, uzgadniania, kompletności i formatowania plików PDF
Podsumowując, to zaangażowanie pokazuje, jak Shaip może pomóc zespołom zajmującym się sztuczną inteligencją podatkową wyjść poza ogólne przykłady i wykorzystać zbiory danych ewaluacyjnych klasy korporacyjnej, które odzwierciedlają rzeczywistą złożoność sprawozdawczości, wnioskowanie wielodokumentowe i zachowania podatkowe specyficzne dla danej jurysdykcji. Rezultatem jest solidniejsza podstawa do benchmarkingu modeli, zapewnienia jakości (QA) i wewnętrznej walidacji produktów.
Shaip wniósł strukturę, rygor i skalowalność do niezwykle złożonej inicjatywy dotyczącej danych podatkowych. Ich umiejętność przełożenia złożonych federalnych i stanowych wymogów dotyczących sprawozdawczości na realistyczne, uzgodnione zbiory danych przypadków stworzyła solidny fundament dla naszych procesów oceny AI.
— Szef rozwiązań w zakresie sztucznej inteligencji podatkowej