Articol

Entitizer - un serviciu simplu Named-Entity recognition

vineri, 4 mai 2018

În ultimele săptămâni lucrez din greu la proiectul Entitizer -
un serviciu de recunoaștere a entitităților populare în text.

Proiectul nu are pretențiile unui serviciu Named-Entity recognition (NER) veritabil.
Însă, dacă ai nevoie să extragi entitițile(persoane, localități, organizații, etc.)
dintr-o știre, de exemplu, atunci poate fi o alegere foarte bună.

Plusurile proiectului:

  • Recunoaște bine variațiile unui nume: Ana Carp, Anei Carp, etc.
  • Este foarte rapid: ~100 ms
  • Folosește puține resurse
  • va funcționa în limbi mai puțin populare: română, bulgară, cehă, poloneză, etc.
demo entitizer.com
Demo Entitizer

În prezent, Entitizer este la etapa de învățare: zilnic învață noi entități din știrile
din R. Moldova și de pe Wikipedia.

Cum funcționează

Entitizer face următorii pași:

  1. Învață entități:
  • Colectează entități din știri/texte;
  • Identifică entitățile cu ajutorul wikidata/wikipedia;
  • Salvează entititățile învățate;
  1. Identitifică entitățile învățate în text

Codul este pe Github la Textactor și Entitizer.