În ultimele săptămâni lucrez din greu la proiectul Entitizer - un serviciu de recunoaștere a entitităților populare în text.
Proiectul nu are pretențiile unui serviciu Named-Entity recognition (NER) veritabil. Însă, dacă ai nevoie să extragi entitițile(persoane, localități, organizații, etc.) dintr-o știre, de exemplu, atunci poate fi o alegere foarte bună.
Plusurile proiectului:
- Recunoaște bine variațiile unui nume: Ana Carp, Anei Carp, etc.
- Este foarte rapid: ~100 ms
- Folosește puține resurse
- va funcționa în limbi mai puțin populare: română, bulgară, cehă, poloneză, etc.
Cum funcționează
Entitizer face următorii pași:
Învață entități:
- Colectează entități din știri/texte;
- Identifică entitățile cu ajutorul wikidata/wikipedia;
- Salvează entititățile învățate;
Identitifică entitățile învățate în text