Posts

Showing posts from November, 2018

CHATBOT #2 - Data pre-processing

Image
In questa sezione diamo un'occhiata a quelle che saranno le operazioni da effettuare sul nostro dataset per renderlo comprensibile al nostro modello. Si tratta del primo articolo in cui iniziamo a sporcarci le mani Quindi non perdiamo tempo e apriamo il nostro Spyder. In questa sezione vedremo le operazioni necessarie a pre-processare il nostro dataset, così da renderlo elaborabile dal nostro sistema. Per prima cosa vediamo l'importazione delle librerie che ci accingiamo a utilizzare, che saranno le seguenti: Numpy  Tensorflow  - il noto framework  open source per il Machine Learning Re - la usiamo per ripulire il testo, e, viste le dimensioni ridotte del nome, possiamo non associare ad essa nessuno shortcut. Time  Ad ognuna delle importazioni assoceremo uno shortcut. Qui sotto il codice risultante. Per assicurarvi che tutto sia OK, vi suggerisco di provare a  lanciare le importazioni dopo averle selezionate. import numpy as np import...

CHATBOT #1 - Primi passi: recupero e analisi del dataset

Image
In questa sezione esploriamo brevemente il dataset che useremo per l'addestramento del chatbot che ci apprestiamo a creare. Il corpus di conversazioni potete scaricarlo  qui . Si tratta del Cornell Movie Data Corpus, ovvero un set libero di conversazioni intrattenute da attori prese da vari film. Cliccando  qui  potete effettuare il download dell'archivio. Sono conversazioni estratte dai copioni "raw", decine di migliaia di interazioni Una volta scaricato lo zip, potete decomprimerlo in una cartella a vostra scelta, il nome del file dovrebbe essere  Personalmente mi sono creato una cartella apposita sotto C:\studio\machine-learning\chatbot. Una volta decompresso l'archivio, entrate pure nella nuova cartella  C:\studio\machine-learning\chatbot\cornell movie-dialogs corpus I dati che useremo per l'addestramento sono contenuti nei file  movie_conversations.txt movie_lines.txt Navigate liberamente negli altri file p...