Entre el febrer i el juliol de 2021, l’Ariadna Moreno i el Nil Crespo van realitzar l’experience Linking News to Tweets, amb l’ajuda de la Nora Wieczorek i la Montse Brufau a l’equip d’Intel·ligència Artificial.

 

Idea i objectius

Es va decidir dur a terme aquest projecte per ajudar a aportar informació contextualitzada a les xarxes socials, a més a més d’ajudar a la premsa digital a augmentar i promoure la seva presència en aquests mitjans.

Així doncs, l’objectiu d’aquesta experience era desenvolupar un algoritme basat en el processament del llenguatge natural, on tenint un article d’un diari digital, et pugui retornar tweets rellevants amb uns continguts similars als de l’article. És a dir, s’extreu la informació més important de l’article, es busca aquesta informació a Twitter i s’ordenen els tweets tenint en compte la seva similitud amb el context de l’article i també la seva rellevància i repercussió a Twitter.

 

Desenvolupament del projecte

El projecte ha constat de diferents passos, que es poden resumir en el següent esquema:

Extracció de paraules clau

El primer pas en la realització del projecte es va basar en el desenvolupament d’un algoritme d’extracció de paraules clau o keywords dels articles. Per poder dur a terme aquesta tasca es van provar diversos algorismes:

  • TF-IDF (Term Frequency – Inverse Document Frequency)
  • Text Rank
  • Yake! (Yet another keyword extractor)
  • Topic Rank
  • Multipartite Rank
  • Mètode simple desenvolupat amb la llibreria Spacy

 

Finalment es va optar per fer una combinació dels mètodes amb millors resultats, agafant les keywords que apareixen més en els diferents mètodes, i fent una neteja de paraules relacionades, quedant-nos amb les més simplificades.

 

Cerca a l’API de Twitter

Un cop obtingudes les keywords, el següent pas és fer la cerca a Twitter. Per poder executar aquesta tasca, es va crear un compte de desenvolupador a l’API de Twitter i es va configurar la cerca perquè retornés tweets amb la informació de rellevància i repercussió, com poden ser el nombre de likes, followers, replies…

 

Càlcul de la rellevància dels tweets

Per poder calcular la rellevància dels tweets, es va decidir que l’usuari final pogués decidir la importància que li donava a la repercussió del tweet. Per tant, es van desenvolupar dos mètodes que es combinen i que l’usuari pot configurar per donar-li més importància a un o a l’altre. Els mètodes són els següents:

  • Visibilitat del tweet: En aquest cas es puntua cada tweet basant-nos en els likes, retweets i el nombre de seguidors de l’usuari que ha escrit el tweet.
  • Rellevància contextual: La idea és puntuar el tweet segons com és de similar amb l’article inicial. Per calcular aquesta puntuació, es fa una combinació dels següents algorismes:
    • Word2Vec
    • Doc2Vec

 

Interfície d’usuari

Per ajudar en la usabilitat i la configuració del model es va desenvolupar una aplicació web des d’on es pot carregar l’article i configurar els paràmetres per obtenir el resultat desitjat. En el següent vídeo es pot veure com funciona l’aplicació (si tens problemes per visualitzar-lo, fes clic aquí):
 

 

 

Resultats

Per poder avaluar el funcionament del model, es va fer un etiquetatge manual dels tweets per a 30 articles de temàtiques diverses. En els gràfics següents podem observar que la distribució del ranking manual s’assembla a l’obtinguda amb el model i a més, la majoria de diferències són petites, amb la qual cosa, podem dir que el model funciona prou bé.

Un cop acabada l’experience i veient que els resultats són bastant bons, ens hem posat en contacte amb diversos diaris de premsa digital per presentar la nostra proposta i esperem poder aplicar el model a casos reals en el futur.

Foto capçalera: Chris J. Davis on Unsplash

Artificial Intelligence,cultura,Experiences,intel·ligència artificial,Open,Twitter,