ArticoleRO – KEEP

Învățarea automată și lupta împotriva fraudei

15 martie 2018

Ați auzit cu siguranță de Machine Learning sau Deep Learning? Dar despre ce anume vorbim? Și cu ce pot contribui aceste tehnici la lupta împotriva fraudei?

Ce sunt Machine Learning și Deep Learning?

Învățarea automată este o ramură a inteligenței artificiale care se bazează în principal pe construirea automată a modelelor statistice folosind cel mai mare corpus de învățare posibil. Învățarea automată este peste tot în zilele noastre, chiar și în mod discret: fie că este vorba de filtrul de spam din căsuța de e-mail, de motoarele de recomandare de pe site-urile de cumpărături sau de motoarele de căutare. etc.

Învățarea profundă este o subramură a acestei discipline, care utilizează ca modele așa-numitele rețele neuronale „profunde”, adică rețele neuronale foarte complexe cu multe straturi. Această abordare, care a devenit populară recent datorită disponibilității unei puteri de calcul cu costuri reduse, în special datorită plăcilor grafice recente (GPU: unități de procesare grafică), oferă rezultate excelente, în special în cazul imaginilor.

Domeniu de aplicare

Netheos utilizează învățarea automată într-o varietate de moduri pentru a procesa documentele de identitate. În special, am antrenat rețele pentru a clasifica documente, folosind o mulțime de exemple de documente de identitate. Acest lucru ne permite să clasificăm documentele în mod automat, cu un nivel ridicat de încredere și, mai ales, să le respingem pe cele al căror aspect este prea îndepărtat de cel prezent în datele de instruire. Principalul avantaj este că sistemul învață singur elementele care trebuie să fie prezente într-un document, fără a fi nevoie să le precizeze în prealabil în mod arbitrar (cunoscute sub numele de „invarianți”). Ca urmare, sistemul este ușor de adaptat: orice nou tip de document poate fi integrat cu ușurință, este doar o chestiune de reînvățare și de integrare a noilor caracteristici.

De asemenea, Netheos utilizează Deep Learning într-un mod mai precis de data aceasta, pentru extragerea datelor și pentru a verifica autenticitatea monedelor (compararea elementelor de securitate). Și în acest caz, ideea este de a aduna un corpus mare de date de referință, care este utilizat pentru a antrena o rețea neuronală, de data aceasta concentrându-se pe elemente pre-selecționate în funcție de tipul de document. De exemplu, această abordare ne permite să atingem un nivel de performanță mult mai ridicat decât software-ul OCR convențional, în special în cazul imaginilor de calitate scăzută. Vedem din ce în ce mai multe imagini realizate cu smartphone-uri în condiții precare (iluminare slabă, zgomot, distorsiuni de perspectivă etc.).

Detectarea fraudelor

Abordările de mai sus reprezintă ceea ce se numește învățare „supravegheată”, în sensul că datele utilizate pentru învățare trebuie să fie etichetate corect în prealabil (de exemplu, imaginile trebuie să fie sortate corect în funcție de tipul de document). În ceea ce privește detectarea fraudei, nu avem acces la un corpus de date corect redactate, deoarece, prin definiție, nu știm a priori dacă un fișier este o fraudă, iar timpul dintre procesarea fișierului și detectarea fraudei poate fi foarte lung. În plus, acestea sunt (din fericire) evenimente relativ rare și, prin urmare, sunt slab reprezentate în datele de instruire. Prin urmare, folosim o abordare nesupravegheată. De data aceasta, scopul este de a identifica punctele anormale care se abat prea mult de la medie: acest lucru este cunoscut sub numele de detectarea anomaliilor. Acest tip de sistem este utilizat în special pentru sistemele de plată electronică, permițând băncii dumneavoastră să blocheze, de exemplu, plățile suspecte care se abat de la obiceiurile dumneavoastră de cumpărare.

Algoritmii de învățare automată sunt deosebit de potriviți pentru lupta împotriva fraudei, deoarece principalul lor avantaj este că pot fi adaptați rapid la alte tipuri de documente sau căi de acces, în comparație cu abordările logice tradiționale pre-conectate, care necesită o sarcină complet nouă pentru fiecare situație nouă. Mai mult, aceste abordări, care nu au idei preconcepute cu privire la relevanța datelor, permit exploatarea la maximum a datelor disponibile, în timp ce un „sistem expert” se bazează pe intuiție, care poate proveni din mediul de afaceri, dar care ar putea trece cu vederea anumite elemente care sunt totuși relevante.

Cu toate acestea, este important să nuanțăm această concluzie subliniind faptul că, în mod evident, cunoașterea afacerii este cea care determină aplicarea tuturor acestor algoritmi.

Aflați mai multe despre Netheos

Solicitați o demonstrație

Florent

Cercetător de date | Data Scientist la Netheos, sunt interesat de toate aspectele legate de Machine Learning și folosesc acest blog pentru a vă împărtăși cercetările mele.