Definicja
Rozpoznawanie jednostek nazwanych (NER) to zadanie przetwarzania języka naturalnego, które identyfikuje i klasyfikuje jednostki w tekście, takie jak osoby, organizacje, lokalizacje, daty lub produkty.
Cel
Celem jest uporządkowanie niestrukturalnego tekstu poprzez wyodrębnienie kluczowych jednostek. Wspiera wyszukiwanie, wyodrębnianie informacji i budowanie grafów wiedzy.
Znaczenie
- Podstawy wyszukiwania informacji i przetwarzania języka naturalnego.
- Błędy rozprzestrzeniają się na aplikacje niższego rzędu.
- Domenowe NER (np. medyczne, prawne) wymagają niestandardowych zestawów danych.
- Związane z zadaniami takimi jak łączenie encji i ekstrakcja relacji.
Jak to działa
- Zbierz i wstępnie przetwórz tekst.
- Adnotacje do zestawów danych przy użyciu kategorii jednostek.
- Szkolenie modeli na opisanych przykładach (CRF-y, transformatory).
- Przewiduj jednostki w niewidzianym tekście.
- Sprawdź dokładność za pomocą danych testowych.
Przykłady (świat rzeczywisty)
- spaCy: biblioteka NLP typu open source z wbudowanym NER.
- Stanford CoreNLP: udostępnia narzędzia do rozpoznawania jednostek nazwanych.
- Finansowe NLP: wyodrębnia nazwy firm z raportów.
Odniesienia / Dalsza lektura
- Jurafsky i Martin. Przetwarzanie mowy i języka. Stanford.
- Lample i in. „Architektury neuronowe do rozpoznawania jednostek nazwanych”. ACL.
- Transformery NER z przytulającymi się twarzami.
- Czym jest rozpoznawanie jednostek nazwanych (NER)