Un algoritmo in grado di predire quali saranno i trend topic di Twitter con un anticipo medio di un’ora e mezza rispetto al momento di esplosione dell’argomento: è la proposta del professor Devavrat Shah e dello studente Stanislav Nikolov, che sarà presentata ufficialmente in occasione dell’ Interdisciplinary Workshop on Information and Decision in Social Networks previsto nel mese di novembre presso il MIT di Boston.
L’algoritmo formulato da Shah e Nikolov si colloca in un filone di ricerca, potenzialmente molto promettente dal punto di vista commerciale, che si preoccupa di individuare capacità previsionali nei social network. Nel caso specifico, se l’intuizione dei due studiosi dovesse essere confermata dalla comunità accademica e dall’uso quotidiano della piattaforma di microblogging, potrebbero emergere novità interessanti riguardanti gli annunci pubblicitari connessi agli argomenti più discussi: Twitter potrebbe decidere, ad esempio, di fissare una tassa aggiuntiva in riferimento a tutti quei topic in procinto di essere diffusi largamente dai cinguettii .
Nello specifico , l’algoritmo individuato da Shah e Nikolov agisce comparando nel tempo i cambiamenti occorsi nei tweet prodotti su un singolo argomento rispetto alle variazioni individuate nel campione dell’esperimento. I campioni con statistiche simili a quelle del nuovo topic avranno più peso nel prevedere se il nuovo argomento rappresenterà una tendenza oppure no. Il peso ponderato nei diversi campioni, dunque, viene combinato in modo da fornire una stima probabilistica rispetto alla possibilità che il nuovo argomento possa rientrare tra i più cinguettati. Nella fase sperimentale, il training set considerato presentava dati appartenenti a duecento topic di tendenza e altri duecento relativi ad argomenti poco trattati. L’algoritmo testato ha restituito il 95 per cento di accuratezza e il 4 per cento di previsioni errate .
A differenza dell’ apprendimento automatico , che ricerca diversi parametri per calcolare tendenze e relazioni, il sistema elaborato presso il MIT riconosce essenzialmente modelli statistici. Se, dunque, lo schema di una nuova discussione assomiglia a quelli presenti nei dati archiviati, il topic è visto come tendenza più probabile. Più in generale, il calcolo proposto potrebbe inaugurare un nuovo approccio nell’ambito dell’analisi statistica, che potrebbe essere applicato, in teoria, a una molteplicità di eventi che si ripetono regolarmente nel tempo: dalla durata della corsa di un autobus alla vendita dei biglietti nelle sale cinematografiche, passando per i prezzi fissati sui capitali azionari.
Cristina Sciannamblo