Analisi delle preferenze degli attributi
Distribuzione delle differenze degli attributi
Nel dating online, ci sono significative differenze di genere in termini di preferenze di attributi, autopresentazione e interazione. Gli utenti di solito hanno una certa preferenza per l’età o l’altezza dei compagni. Sia per gli uomini che per le donne, quando inviano messaggi ai loro potenziali partner, calcoliamo la differenza di età come età (destinatario) – età (mittente), e la differenza di altezza come altezza (destinatario) – altezza (mittente). Le figure 1 e 2 mostrano le distribuzioni delle differenze di età e di altezza, rispettivamente. Come confronto, mostriamo anche i risultati randomizzati assumendo che gli utenti femminili (maschi) inviino casualmente messaggi agli utenti maschili (femmine).
Nella maggior parte dei tempi e dei luoghi, le donne di solito sposano uomini più anziani. La figura 1 mostra che nella moderna società cinese, in media, gli uomini preferiscono le donne due anni più giovani di loro e le donne preferiscono gli uomini due anni più vecchi di loro. Tuttavia, la gamma di differenze di età che le donne accettano è più piccola di quella degli uomini: l’età minima che le donne accettano è che gli uomini siano 11 anni più giovani di loro e l’età massima che accettano è che gli uomini siano 23 anni più vecchi di loro, mentre l’età minima che gli uomini accettano è che le donne siano 25 anni più giovani di loro e l’età massima che accettano è che le donne siano 28 anni più vecchie di loro. Se si considerano solo le distribuzioni delle differenze di età, in linea con i risultati precedenti da una serie di culture e religioni, troviamo che la gamma di età che le donne sono disposte a inviare messaggi è più stretta della gamma di età che gli uomini sono disposti a inviare. Le preferenze maschili e femminili non sono casuali; essi cercano potenziali appuntamenti con una differenza di età inferiore a quella prevista dalla selezione casuale, il che mostra la caratteristica del likes-attract.
La figura 2 mostra che generalmente la differenza di altezza per le donne che inviano messaggi agli uomini (la maggior parte sono 12 cm) sono più grandi di quella degli uomini che inviano messaggi alle donne (la maggior parte sono 10 cm) nella scelta dei potenziali compagni. In Cina, per gli uomini, la differenza di altezza ideale è che siano 10 cm più alti della persona a cui inviano il messaggio, mentre per le donne, la differenza di altezza ideale è che siano 12 cm più bassi della persona a cui inviano il messaggio. Secondo i dati degli annunci personali di Yahoo! dating, per gli utenti negli Stati Uniti, l’altezza conta anche per gli appuntamenti, soprattutto per le donne. Nella Fig. 2, la gamma di differenze di altezza per le donne è più piccola di quella degli uomini: l’altezza minima che le donne accettano è che gli uomini siano 3 cm più bassi di loro e l’altezza massima che accettano è che gli uomini siano 30 cm più alti di loro, mentre l’altezza minima che gli uomini accettano è che le donne siano 13 cm più basse di loro e l’altezza massima che accettano è che le donne siano 32 cm più alte di loro. Le femmine mostrano la caratteristica del likes-attract in termini di preferenza per l’altezza. Come è lo stesso con l’età, gli utenti cercano potenziali compagni con una differenza di altezza inferiore a quella prevista dalla selezione casuale, anche se la differenza non è così evidente come la differenza di età.
È da notare che nel sito di incontri, le caratteristiche degli utenti sono tutte auto-dichiarate. Per considerazioni di gestione dell’impressione, gli utenti possono esagerare le loro caratteristiche personali. Ad esempio, una recente ricerca sull’altezza auto-riferita online contro i dati misurati oggettivamente in giovani adulti australiani ha rivelato che l’altezza auto-riferita è significativamente sovrastimata di una media di 1,79 cm per i maschi e 1,29 cm per le femmine. Gli uomini mentono più delle donne sulla loro altezza, cosa che si riscontra anche nei daters online di New York City. Notiamo che gli utenti sembrano non aver riportato accuratamente la loro altezza fisica nel sito di incontri. Nel set di dati, le altezze medie degli utenti di sesso femminile e maschile sono 161,99 cm (\(\mathit{SD}=4,18\)) e 173,08 cm (\(\mathit{SD}=4,68\)), rispettivamente. Tuttavia, nel mondo reale le altezze medie delle femmine e dei maschi adulti in Cina sono rispettivamente 160,88 cm e 169,00 cm, il che significa che le donne e gli uomini possono esagerare la loro altezza di una media di 1,11 cm e 4,08 cm, rispettivamente. Dopo averli corretti, troviamo che le differenze di altezza reale \(10-(4.08-1.11) = 7.03{ cm}} per gli uomini, e \(12-(4.08-1.11) = 9.03{ cm}}) per le donne sarebbero significative. Tuttavia notiamo anche che nel sito di incontri, l’età media degli utenti maschi e femmine sono rispettivamente 28,73 e 28,58 anni, mentre nella popolazione adulta complessiva della Cina, l’età media degli uomini e delle donne sono rispettivamente 40,56 e 41,01 anni secondo i dati del censimento della popolazione. La popolazione degli incontri è più giovane della popolazione adulta complessiva, quindi è probabilmente più alta, e gli utenti potrebbero non esagerare la loro altezza così tanto come calcolato.
Preferenza degli attributi
Quando un utente invia un messaggio a un altro utente, la sua scelta del destinatario potrebbe non essere casuale, ma piuttosto ha qualche preferenza per alcuni attributi, come la preferenza per l’occupazione, l’istruzione, il reddito, e così via. Per caratterizzare la preferenza del mittente con attributo i per il destinatario con attributo j, sia \(m_{ij}\ il numero di messaggi inviati da utenti con attributo i a utenti con attributo j, \(m_{i}}) sia il numero totale di messaggi inviati dagli utenti con l’attributo i, \(n_{j}) sia il numero di ricevitori con l’attributo j, e n sia il numero totale di ricevitori, allora la preferenza dell’attributo è \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) indica che rispetto alla selezione casuale, i mittenti con l’attributo i hanno una preferenza per i ricevitori con l’attributo j, \(p_{ij}=0\) indica che non c’è preferenza e \(p_{ij}<0\) indica la preferenza negativa, cioè preferendo non selezionare i ricevitori con l’attributo j.
Le preferenze di impiego sono mostrate nelle figure 3 e 4 (vedere le tabelle 1 e 2 nel file aggiuntivo 1 per i significati degli attributi e il numero e la proporzione di uomini/donne per ogni impiego). Troviamo che rispetto ai maschi che inviano messaggi alle femmine, quando gli utenti femminili inviano messaggi agli utenti maschili, c’è una preferenza più forte per gli impieghi dei loro potenziali compagni. Nella Fig. 3, troviamo che le donne che sono studentesse, contabili, educatrici o in altre occupazioni non categorizzate non sono preferite dagli uomini, mentre le donne impegnate nel design sono leggermente popolari in termini di quantità relativa di messaggi ricevuti, soprattutto per gli uomini nel settore dei servizi di aviazione. Allo stesso tempo, troviamo anche che in questi dati, gli uomini impegnati nelle pulizie domestiche inviano messaggi solo a donne in contabilità e gli uomini impegnati nell’industria della traduzione inviano messaggi solo a donne che sono proprietari privati, che può essere dovuto alla piccola dimensione del campione del comportamento degli utenti rispetto a questi attributi.
Dalla Fig. 4, troviamo che le professioni più popolari per gli uomini sono l’alta direzione, la finanza, l’educazione e i proprietari privati. La maggior parte delle persone in queste quattro occupazioni hanno un reddito elevato o sono ben istruite. Gli uomini non popolari sono gli studenti di scuola, i venditori e quelli impegnati in altre occupazioni non categorizzate. Allo stesso tempo, le donne impegnate nell’industria chimica tendono a cercare uomini impegnati nell’istruzione e nella formazione, le donne impegnate nello sport tendono a cercare uomini che sono proprietari privati, e le donne impegnate nella polizia inviano messaggi solo a uomini impegnati nella finanza e nel settore immobiliare in questi dati, che possono anche essere attribuiti alla piccola dimensione del campione del comportamento degli utenti rispetto a questi attributi.
I livelli di istruzione hanno un impatto significativo sull’accoppiamento e sul matrimonio . Le preferenze per il livello di istruzione sono mostrate nelle figure 5 e 6 (vedere le tabelle 3 e 4 nel file aggiuntivo 1 per i significati degli attributi e il numero e la proporzione di uomini/donne per ogni livello di istruzione). In Cina, come negli altri paesi, anche postdoc si riferisce a una posizione piuttosto che a un risultato educativo. Tuttavia, in molti siti web cinesi, quando un utente si registra, postdoctor è anche considerato un livello di istruzione superiore al conseguimento di un dottorato. Allo stesso modo troviamo che, rispetto ai maschi che inviano messaggi alle femmine, quando le utenti donne inviano messaggi agli utenti maschi, c’è una preferenza più forte per il livello di istruzione dei loro potenziali compagni. La figura 5 mostra che gli uomini il cui livello di istruzione è inferiore al diploma di laurea tendono a cercare donne con le loro stesse qualifiche accademiche o inferiori alle loro qualifiche, gli uomini con un livello di istruzione superiore al diploma di laurea ma inferiore al dottorato tendono a cercare donne con diploma di laurea, e gli uomini con un diploma di dottorato o formazione post-dottorato tendono a cercare donne con diploma di laurea. In termini di preferenza per i livelli di istruzione, generalmente gli uomini mostrano la caratteristica likes-attract. Per gli utenti femminili che inviano messaggi agli utenti maschili, la Fig. 6 mostra che gli uomini con laurea e laurea sono popolari e, per la maggior parte delle donne, i maschi laureati sono più popolari, ma le donne laureate sono più propense a cercare potenziali compagni con laurea. In termini di preferenza per i livelli di istruzione, in genere le donne mostrano la caratteristica potenziale-attrattiva. Una ricerca su un sito tedesco di incontri online ha rivelato che la preferenza per un background educativo simile aumenta con il livello di istruzione. Le femmine sono riluttanti a comunicare con i maschi con livelli di istruzione inferiori, tuttavia non ci sono barriere per i maschi a contattare le femmine con titoli di studio inferiori.
Il livello di istruzione e il reddito sono due importanti indicatori dello status sociale ed economico di una persona. Dalle Figg. 7 e 8 (vedi Tabelle 5 e 6 nel file aggiuntivo 1 per i significati degli attributi e il numero e la proporzione di uomini/donne per ogni livello di reddito) troviamo che, in termini di livelli di reddito, c’è una preferenza meno evidente sulla selezione del potenziale compagno per gli utenti maschi rispetto a quelli femmine. Da un lato, come mostrato in Fig. 7, tutti gli uomini preferiscono ovviamente le donne il cui reddito mensile è compreso tra RMB 5000 e RMB 10.000 (il RMB è la valuta cinese, e RMB 1 = 0,145 dollari USA = 0,128 euro), mentre le donne il cui reddito è inferiore a RMB 2000 sono ovviamente escluse. Tuttavia, gli uomini non mostrano alcuna preferenza o esclusione evidente per le donne il cui reddito è superiore a 10.000 RMB. D’altra parte, come mostrato nella Fig. 8, tutte le donne non amano gli uomini che guadagnano meno di 5000 RMB, e gli uomini che guadagnano da 10.000 a 20.000 RMB sono i più popolari. In termini di preferenza per i livelli di reddito, generalmente le donne mostrano anche la caratteristica potenziale-attrattiva. Un esperimento sul campo su un sito cinese di incontri online ha trovato che gli uomini hanno visitato i profili delle donne di diversi redditi con circa gli stessi tassi, mentre per le donne, più alti sono i redditi maschili, maggiori saranno i tassi di visita dei loro profili, che è diverso dai nostri risultati.
Classificazione con regressione logistica
Punteggi di compatibilità
Nelle homepage personali degli utenti, ogni utente ha mostrato le richieste ai potenziali compagni, compresi i requisiti per 7 attributi, vale a dire età, avatar, educazione, istruzione, ecc.Cioè età, avatar, livello di istruzione, altezza, rating, luogo di residenza e stato civile (vedi Figg. 1-4 nel file aggiuntivo 1 per i requisiti di selezione di diversi attributi). Per quanto riguarda la valutazione del credito, sul sito di incontri, dopo che un utente supera l’autenticazione rapida dell’identità, o carica uno dei tre documenti (la carta d’identità, il passaporto o l’Hong Kong and Macau Pass) e supera la recensione, otterrà la prima stella, cioè una valutazione del credito pari a 1. Sulla base della prima stella, ogni volta che un nuovo documento viene caricato e approvato, può essere aggiunta un’ulteriore stella o valutazione (fino a cinque stelle, cioè membro a cinque stelle). Inoltre, anche se sulla piattaforma l’età minima degli utenti è di 18 anni, ci sono ancora pochissimi utenti che impostano il loro requisito di età minima o massima sotto i 18 anni (vedi Fig. 3 nel file aggiuntivo 1 per i dettagli). Applichiamo il concetto di punteggio di compatibilità per descrivere la corrispondenza tra gli utenti in base al fatto che un utente soddisfi o meno i requisiti di selezione di un altro utente. Quando le donne inviano messaggi agli uomini, per ogni messaggio e per ogni attributo, possiamo ottenere la proporzione di donne che soddisfano le preferenze di accoppiamento degli uomini e la proporzione di uomini che soddisfano le preferenze delle donne, cioè possiamo ottenere due vettori che includono 7 proporzioni. In base ai dati otteniamo \(\mathbf{w}_{\mathrm{FMm}}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)\), e \(\mathbf{w}_{\mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.912)\), dove \(\mathbf{w}_{\mathrm{FMm}} è la proporzione di attributi femminili che incontrano le preferenze maschili e \(\mathbf{w}_{mathrm{FMf}} è la proporzione di attributi maschili coerenti con le preferenze femminili. Allo stesso modo, quando gli uomini inviano messaggi alle donne, otteniamo \(\mathbf{w}_{mathrm{MFm}}=(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Quindi i punteggi di compatibilità delle donne che inviano messaggi agli uomini sono
e i punteggi di compatibilità degli uomini che mandano messaggi alle donne sono
dove (female attr. in male pref.) è un vettore che caratterizza se gli attributi femminili incontrano le preferenze maschili per una coppia di utenti (1 per sì e 0 per no), e allo stesso modo (attr. maschile in pref. femminile) è un vettore che caratterizza se gli attributi maschili incontrano le preferenze femminili per una coppia di utenti. Le equazioni 1 e 3 sono i punteggi di compatibilità tra una preferenza maschile e il profilo del suo compagno scelto, e le equazioni 2 e 4 sono i punteggi di compatibilità tra una preferenza femminile e il profilo del suo compagno scelto. Per una coppia di utenti, \(u_a}\ e \(u_b}\, usiamo un punteggio, cioè il punteggio reciproco, per quantificare quanto gli attributi di \(u_b}\ corrispondono alle preferenze di \(u_a}\ e quanto gli attributi di \(u_a}\ corrispondono alle preferenze di \(u_b}\. Il punteggio reciproco tra \(u_{a}}} e \(u_{b}}) è la media dei punteggi di compatibilità di questi due utenti, cioè per le donne che inviano messaggi agli uomini il punteggio reciproco è \(\mathit{rs} = (c_{\mathrm {FMm}} + c_{\mathrm{FMf}} )/2\), e per gli uomini che inviano messaggi alle donne \(\mathit{rs} = (c_{\mathrm{MFm}} + c_{\mathrm{MFf}})/2\).
Regressione logistica
Lasciamo che click sia il numero di volte che un utente viene cliccato, msg sia il numero di messaggi ricevuti da un utente, e rec sia il numero di volte che un utente viene raccomandato e mostrato nelle homepage degli altri utenti, definiamo \(\mathit{pop}_{1} = \mathit{click}/\mathit{rec}\) e \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}) che possono caratterizzare la popolarità di un utente in base alle azioni. Usiamo anche la centralità del PageRank (\(\mathit{pop}_{3}\)) per quantificare quanto focale o popolare sia un utente in una rete considerando tutte le connessioni nella rete. Le persone attraenti, come le persone con attributi demografici vantaggiosi e uno status socio-economico più elevato, tendono ad essere più esigenti delle persone medie in termini di scelta del potenziale compagno, che può essere rivelato nell’analisi delle preferenze del reddito e del livello di istruzione nella Sez. 3.1.2. Coloro che sono percepiti come attraenti dalle persone attraenti possono essere ancora più popolari/attraenti. Le variabili utilizzate nel documento e i loro significati sono riportati nella tabella 1.
Introduciamo diversi indici di centralità, come \(\mathit{pop}_{1}), \(\mathit{pop}_{2}), \(\mathit{pop}_{3}), e indegree, per valutare la loro correlazione con i comportamenti di messaggistica. È da notare che gli indici di centralità sono indicatori aggregati che descrivono la desiderabilità o la popolarità degli utenti, e gli utenti non conoscono i loro indici, né gli indici degli altri. Noi usiamo l’outdegree per caratterizzare il livello di attività degli utenti, e nel sito di incontri, gli utenti non conoscono nemmeno l’outdegree degli altri utenti. In realtà, invece di usare gli indici per identificare o selezionare partner attraenti, gli utenti si messaggeranno a vicenda sulla base di indizi più specifici, come un reddito più alto, un migliore background educativo, foto attraenti o una buona compatibilità demografica e socio-economica. Nel documento, valuteremo se gli indici sono significativamente associati ai comportamenti di messaggistica.
Supponiamo che \(p_{i}\) sia la probabilità di inviare messaggi per un utente femminile i, \(1-p_{i}\) sia la probabilità di non inviare messaggi, allora \(L_{f_{i}}=\ln(\frac_{p_{i}}{1-p_{i}})\), cioè, per tutte le donne, \ln(L_{f}=\ln(\frac{p}{1-p})\). Allo stesso modo, supponiamo che \(q_{j}) sia la probabilità di inviare messaggi per un utente maschio i, \(1-q_{j}) sia la probabilità di non inviare messaggi, allora \(L_{j}m_{j}}=\ln (\frac{q_{j}}{1-q_{j})\), cioè, per tutti i maschi, \(L_{m}= \ln(\frac{q}{1-q})\). Otteniamo modelli di regressione logistica come segue:
In questo studio, i test di multicollinearità sono condotti per trovare le variabili indipendenti tra le quali i coefficienti di correlazione sono inferiori a 0,5 (vedi le tabelle 7 e 8 nel file aggiuntivo 1 per i dettagli). I risultati della regressione logistica per le donne che inviano messaggi agli uomini sono mostrati nella tabella 2. Troviamo che quasi tutte le variabili sono significative quando si considerano solo gli attributi delle donne (modello 1), cioè gli attributi dei mittenti, ma solo l’abitazione e l’outdegree delle donne sono positivamente associati alla probabilità che le donne inviino messaggi agli uomini. Quando si considerano solo gli attributi maschili (modello 2), tranne la verifica del cellulare maschile e il rating di credito, tutti gli altri sono significativi e sono associati positivamente alla probabilità che le donne inviino messaggi. Quando si considerano gli attributi delle due parti e i punteggi di compatibilità (modello 3), tra le variabili significative, la verifica del cellulare femminile, la proprietà dell’auto, il rating di credito e i livelli di popolarità (\(\mathit{pop}_{1}}) e \(\mathit{pop}_{3}) sono associati negativamente alla probabilità che le donne inviino messaggi, mentre le altre variabili sono associate positivamente. Troviamo che, quando le donne inviano messaggi agli uomini, si preoccupano non solo di soddisfare i requisiti degli uomini, ma anche di soddisfare i loro stessi requisiti.
I risultati della regressione logistica per gli uomini che inviano messaggi alle donne sono riportati nella tabella 3. Troviamo che quando si considerano solo gli attributi femminili (modello 1), tranne la verifica del telefono cellulare femminile, il rating di credito e il grado superiore, tutte le altre variabili sono significative, ma solo la proprietà della casa femminile influenza la probabilità di inviare messaggi agli uomini in modo negativo. Quando si considerano solo gli attributi maschili (modello 2), tutte le variabili sono significative ma solo il grado superiore maschile è correlato positivamente con i comportamenti di messaggistica, gli altri sono correlati negativamente. Con tutte le variabili considerate (modello 3), tranne il rating di credito femminile, l’outdegree, e il punteggio di compatibilità tra una preferenza femminile e il profilo dell’altra parte corrispondente, tutte le altre variabili sono significative. Tra le variabili significative, la verifica del cellulare femminile, la proprietà dell’auto, la popolarità (\(\mathit{pop}_{1}}), \(\mathit{pop}_{2}) e \(\mathit{pop}_{3})), l’outdegree maschile e il punteggio di compatibilità tra una preferenza maschile e il profilo dell’altra parte corrispondente sono correlati positivamente con i comportamenti di messaggistica, mentre tutte le altre variabili sono correlate negativamente. Inoltre, analizzando il significato dei due punteggi di compatibilità, troviamo che gli uomini prestano attenzione solo al fatto che le donne soddisfino i loro requisiti quando inviano messaggi alle donne.
Come si può vedere dalle tabelle 2 e 3, per i maschi o le femmine che inviano messaggi, la popolarità dell’altra parte è significativamente associata positivamente ai comportamenti di messaggistica. Da un lato, i valori \(\mathit{pop}_{1}\) e \(\mathit{pop}_{2}\), secondo il loro metodo di calcolo, rappresentano la popolarità locale di un utente. D’altra parte, il valore \(\mathit{pop}_{3}\, cioè il PageRank, rappresenta la popolarità di un utente da una prospettiva globale.
Per le femmine che inviano messaggi ai maschi, \(\exp (0,390) = 1,477\) per i maschi \mathit{pop}_{1}\ è maggiore di \(\exp (0.146) = 1,157\) per il maschio (\mathit{pop}_{3}), e per i maschi che inviano messaggi alle femmine, \(\exp (0,462) = 1,587\) per la femmina (\mathit{pop}_{1}) è anche maggiore di \(\exp (0,141) = 1,151\) per la femmina (\mathit{pop}_{3}). Così, sia per i maschi che per le femmine, il \mathit{pop}_1} dell’altra parte è più importante del \mathit{pop}_3}. Inoltre troviamo anche che, quando le femmine inviano messaggi ai maschi, \(\exp (0.390) = 1.477\) per i maschi \(\mathit{pop}_{1}}) è inferiore a \(\exp (0.462) = 1.587\) per le femmine \mathit{pop}_{1}} quando i maschi inviano messaggi alle femmine, il che indica che rispetto alle femmine, per i maschi il \mathit{pop}_{1}} dell’altra parte è più associato ai loro comportamenti di messaggistica. Tuttavia, quando le femmine inviano messaggi ai maschi, \exp (0,146) = 1,157\) per i maschi \mathit{pop}_{3}\ è più grande di \exp (0,141) = 1.151\) per le femmine \mathit{pop}_{3}} quando i maschi inviano messaggi alle femmine, il che indica che rispetto ai maschi, per le femmine il \mathit{pop}_{3} dell’altra parte è più associato ai loro comportamenti di messaggistica.
In Cina, avere un appartamento e una macchina è un simbolo della ricchezza e dello status sociale di una persona, e in alcune regioni, sono diventati necessità per sposarsi. Quando le donne inviano messaggi agli uomini, è importante che gli uomini abbiano una casa e una macchina. Quando gli uomini mandano messaggi alle donne, non è importante per le donne avere una casa, ma è piuttosto importante per le donne avere una macchina. Troviamo che \(\exp(0.038) = 1.039\) per se l’altra parte ha una macchina quando gli uomini inviano messaggi alle donne è più piccolo di \(\exp (0.157) = 1.170\) per se l’altra parte ha una macchina quando le donne inviano messaggi agli uomini, indicando che le donne prestano più attenzione degli uomini a se l’altra parte ha una macchina.
L’outdegree di un utente quantifica l’attività dell’utente. Un’attività apparentemente elevata significa contattare molti altri utenti, tuttavia, essenzialmente, può implicare che gli utenti investono più tempo e risorse nel tentativo di trovare potenziali partner. L’outdegree è un attributo diverso per uomini e donne. Quando una donna invia un messaggio a un uomo, l’outdegree dell’altra parte è significativamente associato positivamente al comportamento di messaggistica, mentre non lo è quando un uomo invia un messaggio a una donna. Quando le donne inviano messaggi agli uomini, le misure di rete della popolarità e dell’attività degli uomini che contattano sono significativamente associate positivamente ai loro comportamenti di messaggistica, ma quando gli uomini inviano messaggi alle donne, solo le misure di rete della popolarità delle donne che contattano sono significativamente associate positivamente ai loro comportamenti di messaggistica.
Classificazione con apprendimento d’insieme
Con l’avvento dell’era dei big data, i metodi di classificazione con apprendimento d’insieme sono stati gradualmente introdotti nel campo della ricerca sui social network. Già nel 1996, Breiman ha proposto il metodo di bagging , e cinque anni dopo, ha proposto ulteriormente il metodo di Random Forest . Freund ha proposto il metodo AdaBoost nel 1997 , e con il continuo miglioramento dei classificatori di apprendimento automatico, nel 2016, Chen et al. hanno proposto un classificatore-XGBoost , che può migliorare notevolmente l’efficienza e la precisione dell’algoritmo in alcuni casi. Come applicazione, recentemente Reece et al. hanno già applicato strumenti di apprendimento automatico per identificare la depressione dalle foto di Instagram .
L’analisi di regressione ha spesso alcuni requisiti sulle variabili indipendenti, come l’assenza di multicollinearità, tuttavia i metodi di classificazione di apprendimento ensemble rilassano i vincoli sulle variabili indipendenti. In questa sezione, i metodi di classificazione di apprendimento d’insieme che includono bagging, Random Forest, AdaBoost e XGBoost sono usati per valutare l’importanza di ogni attributo nella tabella 1. Usiamo il pacchetto ‘adabag’ nel software R per eseguire i metodi AdaBoost e bagging, il pacchetto ‘randomForest’ per eseguire il metodo Random Forest e il pacchetto ‘xgboost’ per eseguire il metodo XGBoost. Per il set di dati, viene utilizzata una convalida incrociata di 5 volte per valutare le prestazioni dei classificatori, e i parametri dell’algoritmo sono scelti per ottenere un tasso di errore stabile. Il numero di messaggi che inviano e non inviano è sbilanciato nel set di dati, e il set più grande è sottocampionato in modo casuale per ottenere un set della stessa dimensione di quello più piccolo.
I tassi di errore dei quattro metodi di classificazione con apprendimento d’insieme sono mostrati nella tabella 4. Troviamo che i tassi di errore di Random Forest e AdaBoost sono i più bassi per le femmine che inviano messaggi ai maschi, mentre XGBoost è il più basso per i maschi che inviano messaggi alle femmine. La classifica dell’importanza degli attributi è mostrata nelle figure 9 e 10. La figura 9 mostra che quando le donne inviano messaggi agli uomini, i tre attributi più importanti sono i valori \(\mathit{pop}_{3}) e \(\mathit{pop}_{1}) per gli uomini, e il grado superiore per le donne. Allo stesso modo, la Fig. 10 mostra che quando gli uomini inviano messaggi alle donne, i tre attributi più importanti sono i valori di \(\mathit{pop}_{3}) e \(\mathit{pop}_{1}) per le donne, e l’outdegree per gli uomini. I fattori più importanti che predicono la decisione di inviare messaggi sia per gli uomini che per le donne sono i valori \(\mathit{pop}_{3}\) e \(\mathit{pop}_{1}\ che rappresentano la popolarità dei potenziali compagni, che sono anche significativamente associati positivamente con i comportamenti di messaggistica nella regressione logistica.
Lo scopo della classificazione con apprendimento d’insieme è diverso dall’analisi di regressione logistica. Secondo le Figg. 9 e 10, gli indici di centralità mostrano effettivamente l’importanza schiacciante, e le altre variabili mostrano la relativa mancanza di potere predittivo. Tuttavia questo non significa che le altre variabili siano inutili, e possono ancora essere significativamente associate ai comportamenti di messaggistica degli utenti nella regressione logistica.
Analisi del comportamento strategico
Il concetto di comportamento strategico deriva dall’economia, dove l’implicazione originale è che le aziende intraprendono azioni che influenzano l’ambiente di mercato per aumentare i profitti (riferendosi al tasso di risposta ai messaggi in questo studio), che è poi esteso a problemi di corrispondenza, come la corrispondenza dei compagni.
Nella nostra ricerca, il comportamento strategico si riferisce al fatto che un utente invierà un messaggio ad un altro utente in base al fatto che la sua decisione può aumentare la probabilità di risposta del messaggio. Poiché senza dati di risposta degli utenti, vorremmo utilizzare gli indici di centralità che caratterizzano la popolarità degli utenti per analizzare se gli utenti tendono a inviare messaggi a persone che sono più popolari di loro o a quelli che sono meno popolari. Studiamo il comportamento strategico degli utenti analizzando la correlazione tra gli indici di centralità. Le curve di adattamento per la correlazione con il modello additivo generalizzato mostrano che c’è una relazione non lineare o approssimativamente lineare tra gli indici di centralità degli utenti (vedi Figg. 5 e 6 nel file aggiuntivo 1 per i dettagli), quindi usiamo il coefficiente di correlazione Spearman per caratterizzare la correlazione. Come mostrato nelle tabelle 5 e 6, troviamo che nel sito di incontri uomini e donne mostrano diversi modelli di comportamento nella messaggistica nonostante il ridotto costo del rifiuto nell’ambiente di rete. Per i maschi che inviano messaggi alle femmine, esistono deboli correlazioni positive tra gli indici di centralità, che possono essere caratterizzati da piccoli coefficienti di correlazione positivi e significativi, mentre per le femmine che inviano messaggi ai maschi, esistono deboli o modeste correlazioni positive tra gli indici di centralità caratterizzati da piccoli o leggermente più grandi coefficienti di correlazione positivi e significativi. Gli uomini non mostrano un comportamento strategico in larga misura quando inviano messaggi, mentre per le donne, all’aumentare dei loro indici di centralità, potrebbero aumentare anche i corrispondenti indici degli uomini che hanno ricevuto i loro messaggi.
Studiando le correlazioni tra le stesse coppie di indici di centralità degli utenti, analizziamo ulteriormente se gli utenti tendono a inviare messaggi a persone che sono più popolari di loro o a quelle che sono meno popolari. Per ogni indice di centralità dei mittenti, diamo la media e la deviazione standard dei corrispondenti indici dei ricevitori, e la proporzione degli indici di centralità dei ricevitori che sono più grandi di quelli dei mittenti nelle Figg. 7 e 8 del file aggiuntivo 1. Per ogni indice di centralità, la tabella 7 presenta la proporzione degli indici di centralità dei ricevitori che sono più grandi di quelli dei mittenti durante l’invio dei messaggi. Come confronto, diamo anche i risultati randomizzati. Rispetto agli uomini, più donne tendono a inviare messaggi a persone che sono più popolari di loro.
Ci sono stati diversi studi sul comportamento strategico degli utenti nel dating online. Alcuni studi hanno trovato una significativa correlazione positiva tra la popolarità degli utenti maschi e femmine. Per esempio, la ricerca di Taylor et al. sugli utenti dagli Stati Uniti ha mostrato che, tendono a selezionare ed essere selezionati da altri utenti la cui popolarità relativa è simile alla loro, anche se non significa necessariamente un tasso di successo più elevato, cioè ricevere più risposte. Una recente analisi empirica degli utenti in quattro città degli Stati Uniti da un sito di incontri online utilizzato PageRank per caratterizzare la loro desiderabilità, e ha trovato che, sia gli uomini che le donne hanno inviato messaggi a partner che sono in media circa il 25% più desiderabile di loro. Tuttavia, ci sono anche alcuni studi che non hanno trovato correlazione tra la popolarità degli utenti. Ad esempio, la ricerca sugli utenti di Boston e San Diego non ha trovato prove di comportamento strategico. Un’altra ricerca sui dati di dating online da una città di medie dimensioni del sud-ovest degli Stati Uniti ha rivelato che, indipendentemente dai propri livelli di desiderabilità che caratterizzano l’attrattiva fisica degli utenti, la popolarità, la personablità e le risorse materiali, sia gli uomini che le donne tendono a inviare messaggi agli utenti più socialmente desiderabili. Troviamo che gli utenti su diverse piattaforme o in diversi contesti culturali hanno diversi comportamenti strategici, e i meccanismi sottostanti devono ancora essere esplorati ulteriormente.