
AMS – Preverenie kriminálnej aktivity osôb
Počet generovaných dát každý deň exponenciálne rastie. Do roku 2025 dosiahneme hodnotu 463 exabajtov, z ktorých milióny budú tvoriť spravodajské články.
Orientovať sa v takom množstve dát môže byť veľmi náročné a častokrát nenájdeme práve to, čo hľadáme. Takmer v každej firme je pri nábore nových zamestnancov samozrejmosťou preverenie negatívnej histórie fyzickej alebo právnickej osoby prostredníctvom medializovaných informácií. Takýto spôsob overovania však môže znamenať nekonečné scrollovanie výsledkov na Google.
V roku 2032 prepustia z väzby Scotta Tuckera, ktorý dostal 16 rokov za spáchanie viacerých trestných činov (vydieranie, podvody, pranie špinavých peňazí a ďalšie). Scott bol dlhoročný zákazník americkej spoločnosti US Bancorp, ktorá za úmyselné zlyhanie pri programe boja proti praniu špinavých peňazí musela zaplatiť pokutu 613 miliónov dolárov. Spoločnosti môžu v budúcnosti predísť pokute pri potenciálnej spolupráci so Scottom pomocou jednoduchého vyhľadávania na našom portáli, ktorý umožňuje previerku kriminálnej aktivity fyzických a právnických osôb za pomoci verejne dostupných internetových médií. Pozrite si výsledky, ktoré sú na portáli zobrazené po zadaní kľúčového slova Scott Tucker.
Okrem vyhľadávania na základe mena osoby, poskytujeme rozšírené vyhľadávanie, kde si používateľ môže zvoliť rozsah rokov, v rámci ktorých boli články publikované, krajiny pôvodu článkov a kľúčové slová, ktoré majú články obsahovať. História článkov k dnešnému dňu siaha 6 rokov dozadu. Momentálne pokrývame články z viacerých krajín Európskej únie, Spojených štátov a Veľkej Británie a pomaly sa rozrastáme ďalej. Kľúčové slová sú rozdelené do 11-tich kategórií, pričom každá z nich obsahuje názvy v priemere desiatich trestných činov.

Našou odpoveďou na neustále rastúci spravodajský svet je sťahovanie približne 15 000 článkov každý deň, čo spolu do dnešného dňa tvorí viac ako 2 mil. článkov.
Ak používateľ natrafí na zaujímavý článok, môže si ho uchovať pomocou funkcie „pdf report“, ktorá poskytuje možnosť vygenerovať si obsah článkov vo formáte pdf. Pred využitím tejto funkcie je potrebné si založiť účet. Zabezpečili sme, aby zmazané články, prípadne nefunkčné odkazy, neobmedzili požadované vyhľadávanie. V prípade, že používateľ natrafí na neplatný odkaz, môže si obsah článku zobraziť priamo na našom portáli v sekcii „archive“.
Technická stránka
Naším základným modulom je Scraper, ktorý riadi sťahovanie a ukladanie článkov z rôznych zdrojov. Do Mongo databázy zapisujeme iba články, ktoré obsahujú kľúčové slová a rovnako je tomu aj pri následnom indexovaní v module ElasticSearch. S rôznymi jazykmi článkov sme sa vysporiadali prekladom kľúčových slov do príslušných jazykov. Systém má oddelenú logiku aplikácie od REST API, ku ktorej poskytujeme priamy prístup k článkom pre náročných používateľov.

Do databázy ukladáme komprimované články, ktorých relevantný obsah predtým extrahujeme. Aktuálne stiahnutých viac ako 2 mil. článkov zaberá približne 50 GB.
Vyhodnotenie relevancie článkov v tomto stave riešenia nechávame na používateľa. Náš projekt ale ponúka nekončiaci priestor na jeho vylepšenie, kam spadá aj koncept nepretržitého učenia (continuous learning). Používatelia by hodnotili relevanciu článkov a model umelej inteligencie by tak neustále dostával nové vstupy a mohol sa zlepšovať. Implementácia neurónovej siete za účelom rozpoznania pomenovanej entity (named entity recognition) by mohla poskytnúť mapu prepojení rozpoznaných entít. Používateľ by si mohol zobraziť, s kým/čím sa hľadaná osoba v článkoch spája (ľudia, lokality, organizácie, …).
Náš tím AMS tvoria perspektívni ľudia, ktorých záujmy pokrývajú rôzne oblasti informatiky. Sme študenti Fakulty informatiky a informačných technológií STU v Bratislave v zložení Jakub Hlavačka, Dominik Horváth, Jakub Müller, Táňa Poláková, Dávid Silady a Adam Šípka pod vedením Ing. Richard Marko, PhD.