LOGIBROKER



Unsupervised in Marketing

Unsupervised in marketing

L'apprendimento automatico non supervisionato, si verifica quando il risultato desiderato è sconosciuto e si desidera che un sistema impari la struttura intrinseca di un set di dati in modo che possa quindi dedurre le tendenze da esso. In questo modo, l'apprendimento non supervisionato è particolarmente utile nel mondo del marketing, un luogo in cui la segmentazione dei clienti e le attività correlate vengono utilizzate giorno dopo giorno.

Mentre l'apprendimento supervisionato utilizza le etichette per assegnare le definite categorie prefissate, quello non supervisionato cerca di individuare categorie con molti meno dati, diventando effettivamente uno strumento molto più potente. Con esso, le aziende possono scoprire tendenze che altrimenti non sarebbero state in grado di cogliere.

Con l'apprendimento automatico non supervisionato, i dati possono essere analizzati e raggruppati in insiemi organizzati di informazioni senza alcuna etichettatura preventiva. In effetti non si ha sempre set di dati completi sul comportamento dei clienti. Si possono controllare i dati che si hanno, analizzarli e scoprire statistiche e conoscenze "nascoste" al loro interno.

L'apprendimento senza supervisione è utile per i team di data science che non sanno cosa cercano nei dati. Può essere utilizzato per cercare somiglianze e differenze sconosciute nei dati e creare gruppi corrispondenti. 
Il metodo fornito non richiede l'etichettatura dei dati di addestramento, risparmiando tempo speso per le attività di classificazione manuale.
I dati senza etichetta sono molto più facili e veloci da ottenere.
Un tale approccio può trovare modelli sconosciuti e quindi utili intuizioni nei dati che non potrebbero essere trovati altrimenti.
Riduce la possibilità di errori umani e distorsioni, che potrebbero verificarsi durante i processi di etichettatura manuale .

L'apprendimento non supervisionato può essere affrontato attraverso diverse tecniche come il clustering, le regole di associazione e la riduzione della dimensionalità.


Algoritmi di clustering: per il rilevamento delle anomalie e la segmentazione del mercato
Di tutte le tecniche di apprendimento non supervisionato, il clustering è sicuramente quello più comunemente usato. Questo metodo raggruppa dati simili in cluster non definiti in anticipo. Un modello ML trova da solo eventuali modelli, somiglianze e/o differenze all'interno di una struttura di dati non categorizzata. Se esistono gruppi o classi naturali nei dati, un modello sarà in grado di individuarli.
 Non esiste un modo giusto o sbagliato per eseguire il raggruppamento poiché non è stata impostata alcuna attività in anticipo. Questa è l'intera bellezza del clustering: aiuta a svelare varie intuizioni aziendali che non si sapeva esistessero.
 
Rilevamento anomalie. Con il clustering è possibile rilevare qualsiasi tipo di outlier nei dati. 

Segmentazione dei clienti e del mercato. Gli algoritmi di clustering possono aiutare a raggruppare persone con tratti simili e a creare profili di customer  per campagne di marketing e targeting più efficienti.

Tipi di clustering

Il clustering esclusivo o il clustering "hard" è il tipo di raggruppamento in cui un dato può appartenere solo a un cluster.

Il clustering sovrapposto o il clustering "soft" consente agli elementi di dati di essere membri di più di un cluster con diversi gradi di appartenenza.

Il clustering probabilistico può essere utilizzato per risolvere problemi di clustering "soft" o di stima della densità e calcolare la probabilità di punti dati appartenenti a cluster specifici.

Il clustering gerarchico mira, come suggerisce il nome, a creare una gerarchia di elementi di dati in cluster. Per ottenere i cluster, gli elementi di dati vengono scomposti o uniti in base alla gerarchia.
 
K-means è un algoritmo per il clustering esclusivo, noto anche come partizionamento o segmentazione. Mette i punti dati nel numero predefinito di cluster noto come K . Fondamentalmente, K nell'algoritmo K-means è l'input poiché dici all'algoritmo il numero di cluster che desideri identificare nei tuoi dati. Ogni elemento di dati viene quindi assegnato al centro del cluster più vicino, chiamato centroidi. Questi ultimi fungono da aree di accumulo dei dati.

Fuzzy K-means è un'estensione dell'algoritmo K-means utilizzato per eseguire il clustering sovrapposto. A differenza dell'algoritmo K-means, fuzzy K-means implica che i punti dati possono appartenere a più di un cluster con un certo livello di vicinanza a ciascuno.
La vicinanza è misurata dalla distanza da un punto dati al centroide del cluster. Quindi, a volte potrebbe esserci una sovrapposizione tra diversi cluster.


Modelli di miscela gaussiana (GMM)

Gaussian Mixture Models (GMM) è un algoritmo utilizzato nel clustering probabilistico. Poiché la media o la varianza sono sconosciute, i modelli assumono che ci sia un certo numero di distribuzioni gaussiane, ciascuna rappresentante un cluster separato.


Clustering gerarchico

L'approccio di clustering gerarchico può iniziare con ogni punto dati assegnato a un cluster separato. Due cluster più vicini tra loro vengono quindi uniti in un unico cluster. La fusione continua in modo iterativo finché non rimane un solo cluster in alto. Tale approccio è noto come bottom-up o agglomerativo .

.
Regole dell'associazione: per motori di raccomandazione personalizzati

Una regola di associazione è un metodo di apprendimento non supervisionato basato su regole volto a scoprire relazioni e associazioni tra diverse variabili in set di dati su larga scala. Le regole presentano la frequenza con cui un determinato elemento di dati si verifica nei set di dati e quanto sono forti e deboli le connessioni tra i diversi oggetti.

Sistemi di raccomandazione. Il metodo delle regole di associazione è ampiamente utilizzato per analizzare i panieri di acquirenti e rilevare le correlazioni di acquisto tra categorie. Un ottimo esempio sono i consigli "Comprati spesso insieme" di Amazon. L'azienda mira a creare strategie di up-selling e cross-selling più efficaci e fornire suggerimenti sui prodotti in base alla frequenza di particolari articoli che si trovano in un carrello.

Marketing mirato. Qualunque sia il settore, il metodo delle regole di associazione può essere utilizzato per estrarre regole per aiutare a costruire strategie di marketing mirate più efficaci. Ad esempio, un'agenzia di viaggi può utilizzare le informazioni demografiche dei clienti e i dati storici sulle campagne precedenti per decidere i gruppi di clienti a cui rivolgersi per la nuova campagna di marketing.

Ad esempio si può individuare insiemi di combinazioni di attività di viaggio in cui è probabile che determinati gruppi di turisti siano coinvolti in base alla loro nazionalità. Hanno scoperto che i turisti giapponesi tendevano a visitare siti storici o parchi di divertimento, mentre i viaggiatori statunitensi preferivano partecipare a un festival, una fiera e uno spettacolo culturale.

Tra i vari algoritmi applicati per creare regole di associazione, quelli più comunemente usati sono apriori e frequenti pattern (FP).

Algoritmi Apriori e FP-Growth

L' algoritmo apriori utilizza insiemi di elementi frequenti per creare regole di associazione. I set di articoli frequenti sono gli articoli con un valore di supporto maggiore.

Il valore di supporto rappresenta la frequenza con cui un determinato elemento di dati si verifica nei set di dati

L'algoritmo genera i set di elementi e trova le associazioni eseguendo più scansioni dell'intero set di dati.

Esempio con 4 transzioni:
transazione 1={mela, pesca, uva, banana};
transazione 2={mela, patata, pomodoro, banana};
transazione 3={mela, cetriolo, cipolla}; e
transazione 4={arance, uva}.

Il valore di supporto di mela è 3 di 4 o 75%

Il valore di supporto di uva  è 2 di 4 o 50%

Il valore di supporto di banana è 2 di 4 o 50%


Come possiamo vedere dalle transazioni, i set di articoli frequenti sono {mela}, {uva} e {banana} in base al valore di supporto calcolato di ciascuno. Gli insiemi di elementi possono contenere più elementi. Ad esempio, il valore di supporto per {mela, banana} è due su quattro o 50%.

Gli utenti stessi definiscono il supporto minimo per un particolare set di elementi.

 

La riduzione della dimensionalità è un altro tipo di apprendimento non supervisionato che utilizza una serie di metodi per ridurre il numero di caratteristiche, o dimensioni, in un set di dati. 

Quando si prepara il set di dati per l'apprendimento automatico , si potrebbe essere tentati di includere quanti più dati possibile.

Detto questo, si immagina che i dati risiedano nello spazio N-dimensionale con ogni caratteristica che rappresenta una dimensione separata. A volte, il numero di dimensioni diventa troppo alto, con conseguente riduzione delle prestazioni degli algoritmi ML e ostacolando la visualizzazione dei dati. Quindi, ha senso ridurre il numero di caratteristiche, o dimensioni, e includere solo i dati rilevanti. Ecco cos'è la riduzione della dimensionalità. Con esso, il numero di input di dati diventa gestibile mentre l'integrità del set di dati non viene persa.

Il fatto è che alcune di queste informazioni potrebbero essere inutili per la previsione, mentre alcuni dati hanno molte sovrapposizioni e non è necessario considerarli individualmente.
Algoritmo di analisi dei componenti principali

L'analisi dei componenti principali è un algoritmo applicato a fini di riduzione della dimensionalità. Viene utilizzato per ridurre il numero di funzionalità all'interno di set di dati di grandi dimensioni, il che porta a una maggiore semplicità dei dati senza perdita di precisione. La compressione del set di dati avviene attraverso il processo chiamato estrazione delle caratteristiche . Significa che le funzionalità all'interno del set originale vengono combinate in una nuova e più piccola. Tali nuove funzionalità sono note come componenti principali .

  Controindicazioni
I risultati forniti dai modelli di apprendimento non supervisionato potrebbero essere meno accurati poiché i dati di input non contengono etichette come chiavi di risposta.
Il metodo richiede la convalida dell'output da parte di persone, esperti interni o esterni che conoscono il campo di ricerca.
Il processo di addestramento è relativamente dispendioso in termini di tempo perché gli algoritmi devono analizzare e calcolare tutte le possibilità esistenti.
Il più delle volte l'apprendimento non supervisionato ha a che fare con enormi set di dati che possono aumentare la complessità computazionale.

Nonostante queste insidie, l'apprendimento automatico senza supervisione è uno strumento robusto nelle mani di scienziati dei dati, ingegneri dei dati e ingegneri dell'apprendimento automatico in quanto è in grado di portare qualsiasi attività di qualsiasi settore a un livello completamente nuovo.

 

 

comments powered by Disqus