Il Text Mining e la sua importanza nell’OSINT

Il mondo del World Wide Web è in continua espansione ed i dati raccolti al suo interno sono innumerevoli e svariati. E’ possibile dire che oramai la quantità di informazioni presenti sul Web è tale da presentare un disordine informatico dovuto al fatto che spesso la qualità dell’informazione è bassa, non dettagliata o esauriente.  

Per poter svolgere una ricerca adeguata si deve quindi:

  1. comprendere la richiesta effettuata dalla persona o ente commissionante;
  2. fissare dei criteri di ricerca attraverso l’utilizzo di parole chiave, sinonimi, sentenze esplicative, e/o operatori booleani;
  3. studiare i risultati della ricerca ottenuta in base al tipo di fonte che riporta tale informazione, la provenienza, il background;
  4. leggere ed analizzare le notizie rapidamente, comprendere gli elementi rilevanti ed i passaggi utili per stilare un report;
  5. ed infine essere concisi, diretti e chiari nel stilare la propria analisi.

Si è visto in precedenza come l’Open Source Intelligence (OSINT), conosciuta anche come Analisi delle Fonti Aperte, sia divenuta una disciplina fondamentale nel mondo della sicurezza, dell’economia, del giornalismo investigativo e della ricerca accademica (Introduzione all’OSINT ed al lavoro dell’analista di fonti aperte) che vede tra le proprie difficoltà principali la capacità di leggere ed analizzare i risultati ottenuti in maniera rapida ed esauriente.

Per superare questo ostacolo è possibile avvalersi di uno dei principali sistemi tecnologici che caratterizzano l’Open Source Intelligence: il Text Mining. Con questo termine si indica l’analisi e la comprensione automatica dei testi attraverso un software preposto che permette di categorizzare ed indicizzare i concetti espressi da cui viene creata una mappa visuale pesata delle relazioni intercorrenti fra questi elementi interrogabile attraverso domande oppure navigabile visivamente.

Il Text Mining è la diretta applicazione delle tecniche di Data Mining alle informazioni testuali, dove con Data Mining si intende la disciplina che coniuga l’informatica, la matematica, la statistica e permette di automatizzare molte funzioni di analisi di informazioni che, se eseguite da un solo uomo, impiegherebbero tempo, personale e risorse economiche notevoli.

Il Text Mining si compone di quattro fasi:

  1. pre-processing linguistico: i documenti vengono preparati attraverso un processo di normalizzazione in cui vengono risolte le ambiguità semantiche della lingua, vengono effettuati il riconoscimento e la lemmatizzazione delle espressioni e l’indicizzazione automatica dei documenti. In questo modo l’informazione viene strutturata per poter essere elaborata attraverso metodi informatici.
  2. mining: in questa fase avviene l’estrazione di conoscenza vera e propria e l’acquisizione di dati derivanti dai testi evitando quindi ripetizioni di informazioni
  3. clustering: i testi vengono raggruppati a seconda dell’argomento trattato per permettere una rapida consultazione e ricerca
  4. visual portrayal: è la rappresentazione visiva iconografica a livelli multipli che delinea l’immagine nitida e definita della conoscenza estratta dalle informazioni sottoposte ad elaborazioni

La possibilità di avvalersi di software di Text Mining rappresenta per l’analista delle fonti aperte uno strumento necessario per ottimizzare e rendere maggiormente efficace ed approfondito il proprio lavoro. Se pur con diverse limitazioni in merito alla loro capacità di analisi e selezione dei risultati, il mondo del Web offre attualmente diverse soluzioni freeware nel campo del Text Mining e del Data Mining.


*Per maggiori informazioni in merito al mondo dell’OSINT ed alle sue possibili applicazioni è possibile consultare gli approfondimenti di ASRIE Associazione nella categoria Intelligence. E’ possibile approfondire le tematiche inerenti il mondo dell’Intelligence e dell’Analisi delle Fonti Aperte, tra cui anche il Text Mining, partecipando al Corso in Open Source Intelligence organizzato dall’Associazione: per maggiori informazioni è possibile contattare la Segreteria all’indirizzo di posta elettronica info@asrie.org