ConvoKit è il nuovo toolkit contenente strumenti, metodi e dati esistenti ideali per lo sviluppo e la formazione di modelli di elaborazione del linguaggio naturale per interpretare e rispondere a frasi umane.
Negli ultimi anni, i ricercatori hanno sviluppato tecniche di elaborazione del linguaggio naturale (PNL) sempre più avanzate che possono essere addestrate per elaborare, interpretare e rispondere a frasi in lingue umane.
ConvoKit è un nuovo toolkit messo a punto dai ricercatori della Cornell University che contiene strumenti, metodi e dati esistenti ideali per lo sviluppo e la formazione di modelli PNL progettati per analizzare conversazioni umane e interazioni sociali.
Questo nuovo toolkit, presentato in un set di documenti che sarà mostrato alla conferenza SIGDIAL il prossimo mese, mette insieme una varietà di tecniche all’avanguardia accessibili agli utenti con diversi livelli di competenza tecnica.
Attraverso conversazioni, discutiamo, collaboriamo, empatizziamo e facciamo sentire la nostra voce
ha detto a TechXplore Caleb Chiam, uno dei ricercatori che ha sviluppato il toolkit.
I toolkit PNL esistenti, tuttavia, non sono progettati per funzionare direttamente con le strutture conversazionali. ConvoKit colma questa lacuna, poiché è progettato per rendere accessibili agli utenti gli strumenti computazionali per l’analisi conversazionale, indipendentemente dal loro background tecnico.
In ConvoKit, ogni corpus di conversazioni ha tre elementi o componenti principali, vale a dire oratori (cioè, chi sta parlando), conversazioni (cioè, lo scambio complessivo tra due o più oratori) ed espressioni (cioè, ciò che è stato detto da un oratore in diversi punti durante una conversazione). Questi tre elementi sono considerati “oggetti di prima classe”, il che significa che il toolkit ne consente l’utilizzo come unità di analisi primarie.
Un utente potrebbe, ad esempio, utilizzare ConvoKit per prevedere quali oratori hanno maggiori probabilità di imitare lo stile linguistico di altri oratori, quali conversazioni hanno maggiori probabilità di diventare “tossici” in base a come sono iniziati, o quali espressioni sono educate e quali maleducate. Ciò lo rende ideale per condurre analisi incentrate su aspetti specifici delle conversazioni.
La struttura di ConvoKit semplifica l’esplorazione delle conversazioni
ha detto Chiam che continua
Ad esempio, con queste strutture di dati, è semplice scegliere qualsiasi oratore nel set di dati e esaminare le espressioni fatte da quell’oratore e le conversazioni che hanno iniziato. Allo stesso modo, è possibile scegliere qualsiasi conversazione nel set di dati e scorrere le espressioni che formano la conversazione o gli oratori coinvolti.
Il nuovo toolkit potrebbe rivelarsi estremamente utile sia per gli sviluppatori sia per gli appassionati di tecnologia non esperti che stanno cercando di creare strumenti per l’analisi automatica delle conversazioni. ConvoKit è molto facile da usare e altamente personalizzabile, il che lo rende ideale per una varietà di applicazioni PNL.
ConvoKit è in fase di sviluppo attivo
ha detto Chiam.
Sebbene gran parte della base di codice sia stabile a questo punto, abbiamo in cantiere molti più metodi e set di dati che sono attualmente in fase di sviluppo come parte della nostra altra ricerca attiva. Inoltre, poiché si tratta di uno sforzo open source, prevediamo contributi esterni anche.
Per collaborare ecco il link del GitHub.
- ConvoKit: An open-source toolkit to aid the analysis of conversations (techxplore.com)
- ConvoKit: A Toolkit for the Analysis of Conversations (cs.cornell.edu)
- Sito ufficiale di ConvoKit (convokit.cornell.edu)
- Conferenza SIGIDIAL 2020 (sigdial.org)