Tag: Entitizer

Entitizer - un serviciu simplu Named-Entity recognition

vineri, 4 mai 2018

În ultimele săptămâni lucrez din greu la proiectul Entitizer - un serviciu de recunoaștere a entitităților populare în text.

Proiectul nu are pretențiile unui serviciu Named-Entity recognition (NER) veritabil. Însă, dacă ai nevoie să extragi entitițile(persoane, localități, organizații, etc.) dintr-o știre, de exemplu, atunci poate fi o alegere foarte bună.

Plusurile proiectului:

  • Recunoaște bine variațiile unui nume: Ana Carp, Anei Carp, etc.
  • Este foarte rapid: ~100 ms
  • Folosește puține resurse
  • va funcționa în limbi mai puțin populare: română, bulgară, cehă, poloneză, etc.

demo entitizer.com

Demo Entitizer

În prezent, Entitizer este la etapa de învățare: zilnic învață noi entități din știrile din R. Moldova și de pe Wikipedia.

Cum funcționează

Entitizer face următorii pași:

  1. Învață entități:

    • Colectează entități din știri/texte;
    • Identifică entitățile cu ajutorul wikidata/wikipedia;
    • Salvează entititățile învățate;
  2. Identitifică entitățile învățate în text

Codul este pe Github la Textactor și Entitizer.