Analiză de preferință a atributelor
Distribuția diferențelor de atribute
În întâlnirile online, există diferențe semnificative de gen în ceea ce privește preferința de atribute, auto-prezentarea și interacțiunea. Utilizatorii au, de obicei, o anumită preferință pentru vârsta sau înălțimea colegilor. Atât pentru bărbați, cât și pentru femei, atunci când trimit mesaje către potențialii lor parteneri, calculăm diferența de vârstă ca vârstă(destinatar) – vârstă(expeditor), iar diferența de înălțime ca înălțime(destinatar) – înălțime(expeditor). Figurile 1 și 2 prezintă distribuția diferențelor de vârstă și, respectiv, a diferențelor de înălțime. Pentru comparație, prezentăm, de asemenea, rezultatele randomizate, presupunând că utilizatorii de sex feminin (bărbați) trimit în mod aleatoriu mesaje către utilizatorii de sex masculin (femei).
În majoritatea timpurilor și locurilor, femeile se căsătoresc de obicei cu bărbați mai în vârstă . Figura 1 arată că, în societatea chineză modernă, în medie, bărbații preferă femeile cu doi ani mai tinere decât ei, iar femeile preferă bărbații cu doi ani mai în vârstă decât ele. Cu toate acestea, intervalul de diferență de vârstă pe care femeile îl acceptă este mai mic decât cel al bărbaților: vârsta minimă pe care femeile o acceptă este ca bărbații să fie cu 11 ani mai tineri decât ele, iar vârsta maximă pe care o acceptă este ca bărbații să fie cu 23 de ani mai în vârstă decât ele, în timp ce vârsta minimă pe care bărbații o acceptă este ca femeile să fie cu 25 de ani mai tinere decât ei, iar vârsta maximă pe care o acceptă este ca femeile să fie cu 28 de ani mai în vârstă decât ei. Dacă se iau în considerare doar distribuțiile diferențelor de vârstă, în conformitate cu constatările anterioare dintr-o serie de culturi și religii , constatăm că intervalul de vârste la care femeile sunt dispuse să trimită mesaje este mai restrâns decât intervalul de vârste la care bărbații sunt dispuși să trimită mesaje. Preferințele bărbaților și femeilor nu sunt aleatorii; ei caută întâlniri potențiale cu o diferență de vârstă mai mică decât cea prezisă de selecția aleatorie, ceea ce arată caracteristica like-attract.
Figura 2 arată că, în general, diferența de înălțime pentru femeile care trimit mesaje către bărbați (majoritatea au 12 cm) sunt mai mari decât cea pentru bărbații care trimit mesaje către femei (majoritatea au 10 cm) atunci când aleg potențialele partenere. În China, pentru bărbați, diferența de înălțime ideală este ca aceștia să fie cu 10 cm mai înalți decât persoana căreia îi trimit mesaje, în timp ce pentru femei, diferența de înălțime ideală este ca acestea să fie cu 12 cm mai scunde decât persoana căreia îi trimit mesaje. Potrivit datelor din anunțurile personale de dating de pe Yahoo!, pentru utilizatorii din SUA, înălțimea contează, de asemenea, pentru întâlniri, în special pentru femei . În Fig. 2, intervalul de diferență de înălțime pentru femei este mai mic decât cel pentru bărbați: înălțimea minimă pe care o acceptă femeile este ca bărbații să fie cu 3 cm mai scunzi decât ele și înălțimea maximă pe care o acceptă este ca bărbații să fie cu 30 cm mai înalți decât ele, în timp ce înălțimea minimă pe care o acceptă bărbații este ca femeile să fie cu 13 cm mai scunde decât ele și înălțimea maximă pe care o acceptă este ca femeile să fie cu 32 cm mai înalte decât ele. Femeile prezintă caracteristica de like-attract în ceea ce privește preferința pentru înălțime. La fel ca și în cazul vârstei, utilizatorii caută potențiali parteneri cu o diferență de înălțime mai mică decât cea prezisă de selecția aleatorie, deși diferența nu este la fel de evidentă ca diferența de vârstă.
Este demn de remarcat faptul că, în site-ul de întâlniri, caracteristicile utilizatorilor sunt toate auto-raportate. Din considerente de gestionare a impresiei , utilizatorii își pot exagera caracteristicile personale . De exemplu, o cercetare recentă privind înălțimea auto-raportată online față de datele măsurate obiectiv la tinerii adulți australieni a arătat că înălțimea auto-raportată este semnificativ supraestimată cu o medie de 1,79 cm pentru bărbați și 1,29 cm pentru femei . Bărbații mint mai mult decât femeile cu privire la înălțimea lor, ceea ce se constată și în cazul întâlnirilor online din New York City . Observăm că utilizatorii par să nu-și fi raportat cu exactitate înălțimea fizică pe site-ul de întâlniri. În setul de date, înălțimea medie a utilizatorilor de sex feminin și masculin este de 161,99 cm (\(\mathit{SD}=4,18\)) și, respectiv, 173,08 cm (\(\mathit{SD}=4,68\)). Cu toate acestea, în lumea reală, înălțimea medie a femeilor și bărbaților adulți din China este de 160,88 cm și, respectiv, 169,00 cm, ceea ce înseamnă că utilizatorii de sex feminin și masculin își pot exagera înălțimea cu o medie de 1,11 cm și, respectiv, 4,08 cm. După corectarea acestora, se constată că diferențele reale de înălțime \(10-(4,08-1,11) = 7,03\text{ cm}\) pentru bărbați și \(12-(4,08-1,11) = 9,03\text{ cm}\) pentru femei ar fi semnificative. Cu toate acestea, observăm, de asemenea, că pe site-ul de întâlniri, vârstele medii ale utilizatorilor de sex masculin și feminin sunt de 28,73 și, respectiv, 28,58 ani, în timp ce în totalul populației adulte din China, vârstele medii ale bărbaților și femeilor sunt de 40,56 și, respectiv, 41,01 ani, conform datelor recensământului populației. Populația de dating este mai tânără decât populația adultă în general, prin urmare, este probabil mai înaltă, iar utilizatorii pot să nu-și exagereze înălțimea atât de mult pe cât s-a calculat.
Preferința atributelor
Când un utilizator trimite un mesaj către un alt utilizator, este posibil ca alegerea destinatarului să nu fie aleatorie, ci mai degrabă să aibă o anumită preferință pentru anumite atribute, cum ar fi preferința pentru ocuparea unui loc de muncă, educație, venit și așa mai departe. Pentru a caracteriza preferința expeditorului cu atributul i pentru destinatarul cu atributul j, fie \(m_{ij}\) numărul de mesaje trimise de utilizatorii cu atributul i către utilizatorii cu atributul j, \(m_{i}\\ numărul total de mesaje trimise de utilizatorii cu atributul i, \(n_{j}\) numărul de receptori cu atributul j și n numărul total de receptori, atunci preferința atributelor este \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) indică faptul că, în comparație cu selecția aleatorie, emițătorii cu atributul i au o preferință pentru receptorii cu atributul j, \(p_{ij}=0\) indică faptul că nu există nicio preferință, iar \(p_{ij}<0\) indică o preferință negativă, adică. preferă să nu selecteze receptorii cu atributul j.
Preferințele de angajare sunt prezentate în figurile 3 și 4 (a se vedea tabelele 1 și 2 din fișierul suplimentar 1 pentru semnificația atributelor și numărul și proporția de bărbați/femei pentru fiecare angajare). Am constatat că, în comparație cu bărbații care trimit mesaje către femei, atunci când utilizatorii de sex feminin trimit mesaje către utilizatorii de sex masculin, există o preferință mai mare pentru ocupațiile potențialilor lor parteneri. În Fig. 3, constatăm că femeile care sunt studente, contabile, educatoare sau în alte ocupații necategorizate nu sunt preferate de bărbați, în timp ce femeile angajate în domeniul designului sunt ușor populare în ceea ce privește cantitatea relativă de mesaje primite, în special pentru bărbații din industria serviciilor de aviație. În același timp, constatăm, de asemenea, că în aceste date, bărbații implicați în activități de menajeră trimit mesaje doar femeilor din domeniul contabilității, iar bărbații implicați în industria traducerilor trimit mesaje doar femeilor care sunt proprietari privați, ceea ce se poate datora dimensiunii mici a eșantionului de comportament al utilizatorilor în ceea ce privește aceste atribute.
Din Fig. 4, aflăm că cele mai populare profesii pentru bărbați sunt managementul superior, finanțele, educația și proprietarii privați. Majoritatea persoanelor din aceste patru profesii au venituri mari sau sunt bine educate. Utilizatorii de sex masculin nepopulari sunt elevii, vânzătorii și cei angajați în alte ocupații necategorizate. În același timp, femeile angajate în industria chimică tind să caute bărbați angajați în educație și formare, femeile angajate în sport tind să caute bărbați care sunt proprietari privați, iar femeile angajate în poliție trimit mesaje doar bărbaților angajați în domeniul financiar și imobiliar în aceste date, ceea ce poate fi atribuit, de asemenea, dimensiunii mici a eșantionului de comportament al utilizatorilor în ceea ce privește aceste atribute.
Nivelurile de educație au un impact semnificativ asupra împerecherii și căsătoriei . Preferințele nivelului de educație sunt prezentate în figurile 5 și 6 (a se vedea tabelele 3 și 4 din fișierul suplimentar 1 pentru semnificațiile atributelor și numărul și proporția de bărbați/femei pentru fiecare nivel de educație). În China, ca și în celelalte țări, postdoctoratul se referă, de asemenea, la o poziție mai degrabă decât la o realizare educațională. Cu toate acestea, în multe site-uri web chinezești, atunci când un utilizator se înregistrează, postdoctorul este considerat, de asemenea, un nivel de educație dincolo de obținerea unui doctorat. În mod similar, am constatat că, în comparație cu bărbații care trimit mesaje către femei, atunci când utilizatorii de sex feminin trimit mesaje către utilizatori de sex masculin, există o preferință mai mare pentru nivelul de educație al potențialilor lor parteneri. Figura 5 arată că bărbații al căror nivel de educație se situează sub nivelul diplomei de licență tind să caute femei cu aceleași calificări academice ca și ei sau mai mici decât calificările lor, bărbații cu un nivel de educație superior diplomei de licență, dar inferior diplomei de doctorat tind să caute femei cu diplomă de licență, iar bărbații cu o diplomă de doctorat sau cu pregătire postdoctorală tind să caute femei cu diplomă de doctorat. În ceea ce privește preferința pentru nivelurile de educație, în general, bărbații prezintă o caracteristică de atracție plăcută. Pentru utilizatorii de sex feminin care trimit mesaje către utilizatorii de sex masculin, Fig. 6 arată că bărbații cu diplome de licență și de absolvire sunt populari și, pentru majoritatea femeilor, bărbații cu diplome de licență sunt mai populari, dar femeile cu diplome de absolvire sunt mai predispuse să caute potențiali parteneri cu diplome de absolvire. În ceea ce privește preferința pentru nivelurile de educație, în general, femeile prezintă caracteristica potențial-atractiv. Cercetările efectuate pe un site german de întâlniri online au arătat că preferința pentru un nivel de educație similar crește odată cu nivelul de educație. Femeile sunt reticente în a comunica cu bărbații cu niveluri educaționale mai mici, însă nu există bariere pentru bărbați în a contacta femei cu calificări educaționale mai mici .
Nivelul de educație și venitul sunt doi indicatori importanți ai statutului social și economic al unei persoane. Din figurile 7 și 8 (a se vedea tabelele 5 și 6 din fișierul suplimentar 1 pentru semnificațiile atributelor și numărul și proporția de bărbați/femei pentru fiecare nivel de venit), constatăm că, în ceea ce privește nivelurile de venit, există o preferință mai puțin evidentă privind selecția potențialului partener pentru utilizatorii de sex masculin în comparație cu cei de sex feminin. Pe de o parte, după cum se arată în Fig. 7, toți bărbații preferă în mod evident femeile ale căror venituri lunare se situează între 5 000 și 10 000 RMB (RMB este moneda chineză, iar 1 RMB = 0,145 dolari americani = 0,128 euro), în timp ce femeile ale căror venituri sunt mai mici de 2 000 RMB sunt în mod evident excluse. Cu toate acestea, bărbații nu manifestă nicio preferință sau excludere evidentă pentru femeile ale căror venituri depășesc 10.000 RMB. Pe de altă parte, după cum se arată în Fig. 8, toate femeile nu-i plac pe bărbații care câștigă mai puțin de 5 000 RMB, iar bărbații care câștigă între 10 000 RMB și 20 000 RMB sunt cei mai populari. În ceea ce privește preferința pentru nivelurile de venit, în general, femeile prezintă, de asemenea, caracteristica potențial-atractivitate. Un experiment de teren pe un site chinez de întâlniri online a constatat că bărbații au vizitat profilurile femeilor cu venituri diferite cu aproximativ aceleași rate, în timp ce pentru femei, cu cât veniturile bărbaților sunt mai mari, cu atât mai mari vor fi ratele de vizitare a profilurilor lor , ceea ce este diferit de constatările noastre.
Clasificare prin regresie logistică
Scoruri de compatibilitate
Pe paginile de pornire personale ale utilizatorilor, fiecare utilizator a prezentat cerințele față de potențialii parteneri, inclusiv cerințele pentru 7 atribute, i.și anume vârsta, avatarul, nivelul de educație, înălțimea, ratingul de credit, locul de reședință și starea civilă (a se vedea figurile 1-4 din fișierul suplimentar 1 pentru cerințele de selecție a mai multor atribute). În ceea ce privește ratingul de credit, pe site-ul de întâlniri, după ce un utilizator trece de autentificarea rapidă a identității sau încarcă unul dintre cele trei documente (cartea de identitate, pașaportul sau permisul pentru Hong Kong și Macao) și trece de evaluare, acesta va obține prima stea, adică ratingul de credit este egal cu 1. Pe baza primei stele, de fiecare dată când un nou document este încărcat și aprobat, se poate adăuga o stea sau un rating suplimentar (până la cinci stele, adică membru de cinci stele). În plus, deși pe platformă vârsta minimă a utilizatorilor este de 18 ani, există totuși foarte puțini utilizatori care își stabilesc cerința privind vârsta minimă sau maximă sub 18 ani (pentru detalii, a se vedea Fig. 3 din fișierul suplimentar 1). Aplicăm conceptul de scor de compatibilitate pentru a descrie potrivirea dintre utilizatori pe baza faptului dacă un utilizator îndeplinește sau nu cerința de selecție a unui alt utilizator. Atunci când femeile trimit mesaje bărbaților, pentru fiecare mesaj și pentru fiecare atribut, putem obține proporția de femei care corespund preferințelor de împerechere ale bărbaților și proporția de bărbați care corespund preferințelor femeilor, adică putem obține doi vectori care includ 7 proporții. În funcție de date obținem \(\mathbf{w}_{\mathrm{FMm}}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)\), iar \(\mathbf{w}_{\mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.864,0.912)\), unde \(\mathbf{w}_{\mathrm{FMm}}\) reprezintă proporțiile de atribute feminine care corespund preferințelor masculine, iar \(\mathbf{w}_{\mathrm{FMf}}\) reprezintă proporțiile de atribute masculine care corespund preferințelor feminine. În mod similar, atunci când bărbații trimit mesaje către femei, obținem \(\mathbf{w}_{\mathrm{MFm}}=(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Astfel, scorurile de compatibilitate ale femeilor care trimit mesaje bărbaților sunt
iar scorurile de compatibilitate ale bărbaților care trimit mesaje către femei sunt
unde (attr. feminină în pref. masculină) este un nume de femeie.) este un vector care caracterizează dacă atributele feminine corespund preferințelor masculine pentru o pereche de utilizatori (1 pentru da și 0 pentru nu) și, în mod similar, (male attr. in female pref.) este un vector care caracterizează dacă atributele masculine corespund preferințelor feminine pentru o pereche de utilizatori. Ecuațiile 1 și 3 reprezintă scorurile de compatibilitate dintre o preferință masculină și profilul partenerei sale alese, iar ecuațiile 2 și 4 reprezintă scorurile de compatibilitate dintre o preferință feminină și profilul partenerei sale alese. Pentru o pereche de utilizatori, \(u_{a}\) și \(u_{b}\), utilizăm un scor, adică scorul reciproc, pentru a cuantifica în ce măsură atributele lui \(u_{b}\) corespund preferințelor lui \(u_{a}\) și în ce măsură atributele lui \(u_{a}\) corespund preferințelor lui \(u_{b}\). Scorul reciproc dintre \(u_{a}\) și \(u_{b}\) este media scorurilor de compatibilitate ale acestor doi utilizatori, adică, pentru femeile care trimit mesaje către bărbați, scorul reciproc este \(\mathit{rs}} = (c_{\mathrm{FMm}} + c_{\mathrm{FMf}} )/2\), iar pentru bărbații care trimit mesaje către femei \(\mathit{rs} = (c_{\mathrm{MFm}}} + c_{\mathrm{MFf}} )/2\).
Regresie logistică
Să fie click numărul de ori în care un utilizator este clickat, msg numărul de mesaje primite de un utilizator și rec numărul de ori în care un utilizator este recomandat și afișat pe paginile de start ale celorlalți utilizatori, definim \(\mathit{pop}_{1} = \mathit{click}/\mathit{rec}\) și \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}\) care pot caracteriza popularitatea unui utilizator pe baza acțiunilor. De asemenea, utilizăm centralitatea PageRank (\(\mathit{pop}_{3}\)) pentru a cuantifica cât de focal sau popular este un utilizator într-o rețea, luând în considerare toate conexiunile din rețea. Persoanele atractive, cum ar fi persoanele cu atribute demografice avantajoase și cu un statut socio-economic mai ridicat, tind să fie mai pretențioase decât persoanele medii în ceea ce privește alegerea partenerului potențial, ceea ce poate fi dezvăluit în analiza preferințelor privind venitul și nivelul de educație din Sect. 3.1.2. Cei care sunt percepuți ca fiind atractivi de către persoanele atractive pot fi și mai populari/atractivi. Variabilele utilizate în lucrare și semnificația acestora sunt prezentate în Tabelul 1.
Introducem mai mulți indici de centralitate, cum ar fi \(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\), \(\mathit{pop}_{3}\), și indegree, pentru a evalua corelația lor cu comportamentele de mesagerie. Este demn de remarcat faptul că indicii de centralitate sunt indicatori agregați care descriu dorința sau popularitatea utilizatorilor, iar utilizatorii nu își cunosc indicii și nici pe cei ai altora. Noi folosim outdegree pentru a caracteriza nivelul de activitate al utilizatorilor, iar în cadrul site-ului de întâlniri, utilizatorii nu cunosc nici outdegree-ul celorlalți utilizatori. În realitate, în loc să folosească indicii pentru a identifica sau selecta parteneri atractivi, utilizatorii vor trimite mesaje altuia pe baza unor indicii mai specifice, cum ar fi un venit mai mare, un nivel de educație mai bun, fotografii atractive sau o bună compatibilitate demografică și socio-economică. În lucrare, vom evalua dacă indicii sunt asociați în mod semnificativ cu comportamentele de mesagerie.
Să presupunem că \(p_{i}\) este probabilitatea de a trimite mesaje pentru un utilizator feminin i, \(1-p_{i}\) este probabilitatea de a nu trimite mesaje, atunci \(L_{f_{i}}=\ln(\frac{p_{i}}{1-p_{i}})\), adică, pentru toate femeile, \(L_{f}=\ln(\frac{p}{1-p})\). În mod similar, să presupunem că \(q_{j}\) este probabilitatea de a trimite mesaje pentru un utilizator de sex masculin i, \(1-q_{j}\) este probabilitatea de a nu trimite mesaje, atunci \(L_{m_{j}}=\ln (\frac{q_{j}}{1-q_{j}})\), adică, pentru toți bărbații, \(L_{m}= \ln(\frac{q}{1-q})\). Obținem modele de regresie logistică după cum urmează:
În acest studiu, se efectuează teste de multicoliniaritate pentru a afla variabilele independente între care coeficienții de corelație sunt mai mici de 0,5 (a se vedea tabelele 7 și 8 din fișierul suplimentar 1 pentru detalii). Rezultatele regresiei logistice pentru femeile care trimit mesaje către bărbați sunt prezentate în tabelul 2. Constatăm că aproape toate variabilele sunt semnificative atunci când se iau în considerare doar atributele femeilor (modelul 1), adică atributele expeditorilor, dar numai locuința și gradul de ieșire din grad al femeilor sunt asociate pozitiv cu probabilitatea ca femeile să trimită mesaje bărbaților. Atunci când se iau în considerare doar atributele bărbaților (modelul 2), cu excepția verificării telefonului mobil al bărbatului și a ratingului de credit, toate celelalte sunt semnificative și sunt asociate pozitiv cu probabilitatea ca femeile să trimită mesaje. Atunci când se iau în considerare atributele și scorurile de compatibilitate ale celor două părți (modelul 3), dintre variabilele semnificative, verificarea telefonului mobil al femeilor, deținerea unui autoturism, ratingul de credit și nivelurile de popularitate (\(\mathit{pop}_{1}\) și \(\mathit{pop}_{3}\)) sunt asociate în mod negativ cu probabilitatea ca femeile să trimită mesaje, în timp ce celelalte variabile sunt asociate în mod pozitiv. Constatăm că, atunci când femeile trimit mesaje bărbaților, ele sunt preocupate nu numai de faptul că îndeplinesc cerințele bărbaților, ci și de faptul că bărbații îndeplinesc propriile lor cerințe.
Rezultatele regresiei logistice pentru bărbații care trimit mesaje către femei sunt prezentate în tabelul 3. Constatăm că, atunci când sunt luate în considerare doar atributele feminine (modelul 1), cu excepția verificării telefonului mobil al femeilor, a ratingului de credit și a gradului de depășire, toate celelalte variabile sunt semnificative, dar numai proprietatea unei case de către femei afectează în mod negativ probabilitatea de a trimite mesaje bărbaților. Atunci când sunt luate în considerare doar atributele masculine (modelul 2), toate variabilele sunt semnificative, dar doar outdegree-ul masculin este corelat pozitiv cu comportamentele de mesagerie, celelalte fiind corelate negativ. Cu toate variabilele luate în considerare (modelul 3), cu excepția ratingului de credit feminin, a outdegree-ului și a scorului de compatibilitate dintre o preferință feminină și profilul celeilalte părți corespunzătoare, toate celelalte variabile sunt semnificative. Dintre variabilele semnificative, verificarea telefonului mobil al femeilor, deținerea unei mașini, popularitatea (\(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\) și \(\mathit{pop}_{3}\)), outdegree-ul bărbaților și scorul de compatibilitate între o preferință masculină și profilul celeilalte părți corespunzătoare sunt corelate pozitiv cu comportamentele de mesagerie, în timp ce toate celelalte variabile sunt corelate negativ. În plus, analizând semnificația celor două scoruri de compatibilitate, constatăm că bărbații acordă atenție doar faptului dacă femeile îndeplinesc propriile cerințe atunci când trimit mesaje către femei.
După cum se poate observa din tabelele 2 și 3, pentru bărbații sau femeile care trimit mesaje, popularitatea celeilalte părți este asociată în mod semnificativ pozitiv cu comportamentele de mesagerie. Pe de o parte, valorile \(\mathit{pop}_{1}\) și \(\mathit{pop}_{2}\), conform metodei lor de calcul, reprezintă popularitatea locală a unui utilizator. Pe de altă parte, valoarea \(\mathit{pop}_{3}\), adică PageRank, reprezintă popularitatea unui utilizator dintr-o perspectivă globală.
Pentru femeile care trimit mesaje către bărbați, \(\exp (0,390) = 1,477\) pentru bărbați \(\mathit{pop}_{1}\) este mai mare decât \(\exp (0.146) = 1,157\\) pentru \(\mathit{pop}_{3}\) de sex masculin, iar pentru bărbații care trimit mesaje către femei, \(\exp (0,462) = 1,587\) pentru \(\mathit{pop}_{1}\) de sex feminin este, de asemenea, mai mare decât \(\exp (0,141) = 1,151\) pentru \(\mathit{pop}_{3}\) de sex feminin. Astfel, atât pentru bărbați, cât și pentru femei, \(\mathit{pop}_{1}\) al celeilalte părți este mai important decât \(\mathit{pop}_{3}\). În plus, constatăm, de asemenea, că, atunci când femeile trimit mesaje bărbaților, \(\exp (0,390) = 1,477\) pentru \(\mathit{pop}_{1}\) masculin este mai mic decât \(\exp (0,462) = 1.587\\) pentru \(\mathit{pop}_{1}\) feminin atunci când bărbații trimit mesaje către femei, ceea ce indică faptul că, în comparație cu femeile, pentru bărbați, \(\mathit{pop}_{1}\) al celeilalte părți este mai mult asociat cu comportamentele lor de transmitere a mesajelor. Cu toate acestea, atunci când femelele trimit mesaje către bărbați, \(\exp (0,146) = 1,157\) pentru bărbați \(\mathit{pop}_{3}\) este mai mare decât \(\exp (0,141) = 1,157\) pentru bărbați \(\mathit{pop}_{3}\) este mai mare decât \(\exp (0,141) = 1.151\) pentru \(\mathit{pop}_{3}\) feminin atunci când bărbații trimit mesaje către femei, ceea ce indică faptul că, în comparație cu bărbații, pentru femei, \(\mathit{pop}_{3}\) al celeilalte părți este mai mult asociat cu comportamentele lor de transmitere a mesajelor.
În China, a avea un apartament și o mașină este un simbol al bogăției și statutului social al unei persoane, iar în unele regiuni, acestea au devenit necesități pentru a se căsători. Atunci când femeile trimit mesaje bărbaților, este important ca bărbații să aibă o casă și o mașină. Atunci când bărbații trimit mesaje către femei, nu este important ca femeile să aibă o casă, dar este oarecum important ca femeile să aibă o mașină. Constatăm că \(\exp(0,038) = 1,039\) pentru dacă cealaltă parte are o mașină atunci când bărbații trimit mesaje către femei este mai mică decât \(\exp (0,157) = 1,170\) pentru dacă cealaltă parte are o mașină atunci când femeile trimit mesaje către bărbați, ceea ce indică faptul că femeile acordă mai multă atenție decât bărbații la faptul că cealaltă parte are o mașină.
Un outdegree al unui utilizator cuantifică activitatea utilizatorului. O activitate aparent ridicată înseamnă contactarea multor alți utilizatori, însă, în esență, poate implica faptul că utilizatorii investesc mai mult timp și resurse în încercarea de a găsi potențiali parteneri. Outdegree este un atribut diferit pentru bărbați și femei. Atunci când o femeie trimite un mesaj unui bărbat, outdegree-ul celeilalte părți este asociat în mod semnificativ pozitiv cu comportamentul de mesagerie, în timp ce nu și atunci când un bărbat trimite un mesaj unei femei. Atunci când femeile trimit mesaje către bărbați, măsurile de rețea ale popularității și activității bărbaților pe care îi contactează sunt asociate în mod semnificativ pozitiv cu comportamentele lor de mesagerie, dar atunci când bărbații trimit mesaje către femei, numai măsurile de rețea ale popularității femeilor pe care le contactează sunt asociate în mod semnificativ pozitiv cu comportamentele lor de mesagerie.
Clasificarea prin învățare de ansamblu
Cu apariția erei datelor mari, metodele de clasificare prin învățare de ansamblu au fost introduse treptat în domeniul cercetării rețelelor sociale. Încă din 1996, Breiman a propus metoda de bagging , iar cinci ani mai târziu, el a propus în continuare metoda Random Forest . Freund a propus metoda AdaBoost în 1997 , iar odată cu îmbunătățirea continuă a clasificatorilor de învățare automată, în 2016, Chen et al. au propus un clasificator-XGBoost , care poate îmbunătăți foarte mult eficiența și precizia algoritmului în anumite cazuri. Ca aplicație, recent, Reece et al. au aplicat deja instrumente de învățare automată pentru a identifica depresia din fotografiile Instagram .
Analiza de regresie are adesea anumite cerințe privind variabilele independente, cum ar fi absența multicolinearității, însă metodele de clasificare prin învățare în ansamblu relaxează constrângerile privind variabilele independente. În această secțiune, metodele de clasificare prin învățare în ansamblu, inclusiv bagging, Random Forest, AdaBoost și XGBoost, sunt utilizate pentru a evalua importanța fiecărui atribut din tabelul 1. Utilizăm pachetul „adabag” din software-ul R pentru a realiza metodele AdaBoost și bagging, pachetul „randomForest” pentru a realiza metoda Random Forest și pachetul „xgboost” pentru a realiza metoda XGBoost. Pentru setul de date, se utilizează validarea încrucișată de 5 ori pentru a evalua performanța clasificatorilor, iar parametrii algoritmului sunt aleși pentru a obține o rată de eroare stabilă. Numerele de mesaje de trimitere și de mesaje care nu au fost trimise sunt dezechilibrate în setul de date, iar setul mai mare este subeșantionat aleatoriu pentru a obține un set de aceeași dimensiune cu cel mai mic.
Ratele de eroare ale celor patru metode de clasificare prin învățare în ansamblu sunt prezentate în tabelul 4. Constatăm că ratele de eroare ale Random Forest și AdaBoost sunt cele mai mici pentru femeile care trimit mesaje către bărbați, în timp ce XGBoost este cea mai mică pentru bărbații care trimit mesaje către femei. Clasificarea importanței atributelor este prezentată în figurile 9 și 10. Figura 9 arată că, atunci când femeile trimit mesaje către bărbați, cele mai importante trei atribute sunt valorile \(\mathit{pop}_{3}\) și \(\mathit{pop}_{1}\) pentru bărbați și outdegree-ul pentru femei. În mod similar, figura 10 arată că, atunci când bărbații trimit mesaje către femei, cele mai importante trei atribute sunt valorile \(\mathit{pop}_{3}\) și \(\mathit{pop}_{1}\) pentru femei și outdegree-ul pentru bărbați. Cei mai importanți factori care prezic decizia de a trimite mesaje, atât în cazul bărbaților, cât și al femeilor, sunt valorile \(\mathit{pop}_{3}\) și \(\mathit{pop}_{1}\), care reprezintă popularitatea potențialilor parteneri, care sunt, de asemenea, asociate în mod semnificativ pozitiv cu comportamentele de transmitere de mesaje în regresia logistică.
Scopul clasificării prin învățare în ansamblu este diferit de analiza regresiei logistice. Conform figurilor 9 și 10, indicii de centralitate prezintă într-adevăr o importanță covârșitoare, iar celelalte variabile prezintă o lipsă relativă de putere de predicție. Cu toate acestea, acest lucru nu înseamnă că celelalte variabile sunt inutile și ele pot fi în continuare asociate în mod semnificativ cu comportamentele de mesagerie ale utilizatorilor în regresia logistică.
Analiza comportamentului strategic
Conceptul de comportament strategic provine din economie, unde implicația inițială este că firmele iau măsuri care afectează mediul de piață pentru a crește profiturile (referindu-se la rata de răspuns la mesaje în acest studiu), care este apoi extinsă la problemele de potrivire , cum ar fi potrivirea între parteneri.
În cercetarea noastră, comportamentul strategic se referă la faptul că dacă un utilizator va trimite un mesaj unui alt utilizator depinde de faptul că decizia sa poate crește probabilitatea de răspuns a mesajului. Deoarece nu dispunem de date de răspuns ale utilizatorilor, am dori să folosim indici de centralitate care caracterizează popularitatea utilizatorilor pentru a analiza dacă utilizatorii tind să trimită mesaje persoanelor care sunt mai populare decât ei sau celor care sunt mai puțin populare. Studiem comportamentul strategic al utilizatorilor prin analizarea corelației dintre indicii de centralitate. Curbele de ajustare netedă pentru corelația cu modelul aditiv generalizat arată că există o relație neliniară sau aproximativ liniară între indicii de centralitate ai utilizatorilor (a se vedea Figurile 5 și 6 din fișierul suplimentar 1 pentru detalii), astfel că folosim coeficientul de corelație Spearman pentru a caracteriza corelația. După cum se arată în tabelele 5 și 6, Constatăm că, în site-ul de întâlniri, bărbații și femeile prezintă modele de comportament diferite în mesagerie, în ciuda costului redus al respingerii în mediul de rețea. În cazul bărbaților care trimit mesaje către femei, există corelații pozitive slabe între indicii de centralitate, care pot fi caracterizate prin coeficienți de corelație pozitivi și semnificativi mici, în timp ce în cazul femeilor care trimit mesaje către bărbați, există corelații pozitive slabe sau modeste între indicii de centralitate, caracterizate prin coeficienți de corelație pozitivi și semnificativi mici sau ușor mai mari. Bărbații nu manifestă un comportament strategic în mare măsură atunci când trimit mesaje, în timp ce, în cazul femeilor, pe măsură ce indicii lor de centralitate cresc, ar putea crește și indicii corespunzători ai bărbaților care au primit mesajele lor.
Prin studierea corelațiilor dintre aceleași perechi de indici de centralitate pentru utilizatori, analizăm în continuare dacă utilizatorii au tendința de a trimite mesaje către persoane care sunt mai populare decât ei sau către cele care sunt mai puțin populare. Pentru fiecare indice de centralitate al expeditorilor, oferim media și abaterea standard a indicilor corespunzători ai destinatarilor, precum și proporția indicilor de centralitate ai destinatarilor care sunt mai mari decât cei ai expeditorilor în figurile 7 și 8 din fișierul suplimentar 1. Pentru fiecare indice de centralitate, tabelul 7 prezintă proporția indicilor de centralitate ai receptorilor care sunt mai mari decât cei ai expeditorilor atunci când trimit mesaje. Ca o comparație, prezentăm, de asemenea, rezultatele randomizate. În comparație cu bărbații, mai multe femei au tendința de a trimite mesaje către persoane care sunt mai populare decât ele însele.
Au existat mai multe studii privind comportamentul strategic al utilizatorilor în întâlnirile online. Unele studii au constatat o corelație pozitivă semnificativă între popularitatea utilizatorilor de sex masculin și cea a utilizatorilor de sex feminin. De exemplu, cercetarea realizată de Taylor et al. asupra utilizatorilor din SUA a arătat că, aceștia tind să selecteze și să fie selectați de alți utilizatori a căror popularitate relativă este similară cu a lor, deși nu înseamnă neapărat o rată de succes mai mare, adică primirea mai multor răspunsuri . O analiză empirică recentă a utilizatorilor din patru orașe din SUA de pe un site de întâlniri online a folosit PageRank pentru a caracteriza dorința acestora și a constatat că, atât bărbații, cât și femeile au trimis mesaje partenerilor care sunt în medie cu aproximativ 25% mai doritori decât ei înșiși . Cu toate acestea, există și unele studii care nu au găsit o corelație între popularitatea utilizatorilor. De exemplu, cercetările asupra utilizatorilor din Boston și San Diego nu au găsit dovezi de comportament strategic . O altă cercetare privind datele de dating online dintr-un oraș de dimensiuni medii din sud-vestul SUA a arătat că, indiferent de propriile niveluri de dezirabilitate care caracterizează atractivitatea fizică, popularitatea, personalitatea și resursele materiale ale utilizatorilor, atât bărbații, cât și femeile tind să trimită mesaje către cei mai dezirabili utilizatori din punct de vedere social . Am constatat că utilizatorii de pe diferite platforme sau din diferite contexte culturale au comportamente strategice diferite, iar mecanismele care stau la baza acestora trebuie încă explorate în continuare.
.