Attribute preference analysis
Attribute difference distribution
V online seznamování existují významné genderové rozdíly, pokud jde o preference atributů, sebeprezentaci a interakci . Uživatelé mají obvykle určité preference pro věk nebo výšku partnerů. U mužů i žen, kteří posílají zprávy svým potenciálním partnerům, počítáme věkový rozdíl jako věk(příjemce) – věk(odesílatel) a výškový rozdíl jako výška(příjemce) – výška(odesílatel). Obrázky 1 a 2 ukazují rozdělení věkového rozdílu a výškového rozdílu. Pro srovnání uvádíme také náhodné výsledky za předpokladu, že uživatelé ženského(mužského) pohlaví náhodně posílají zprávy uživatelům mužského(ženského) pohlaví.
Ve většině dob a míst si ženy obvykle berou starší muže . Obrázek 1 ukazuje, že v moderní čínské společnosti dávají muži v průměru přednost ženám o dva roky mladším a ženy mužům o dva roky starším. Rozsah věkového rozdílu, který ženy akceptují, je však menší než u mužů: minimální věk, který ženy akceptují, je, že muži jsou o 11 let mladší než ony, a maximální věk, který akceptují, je, že muži jsou o 23 let starší než ony, zatímco minimální věk, který muži akceptují, je, že ženy jsou o 25 let mladší než oni, a maximální věk, který akceptují, je, že ženy jsou o 28 let starší než oni. Pokud vezmeme v úvahu pouze rozložení věkových rozdílů, v souladu s předchozími zjištěními z různých kultur a náboženství , zjistíme, že věkové rozpětí, které jsou ženy ochotny sdělit, je užší než věkové rozpětí, které jsou muži ochotni sdělit. Preference mužů a žen nejsou náhodné; vyhledávají potenciální partnery s menším věkovým rozdílem, než předpokládá náhodný výběr, což ukazuje na charakteristiku líbí-nelíbí.
Obrázek 2 ukazuje, že obecně jsou při výběru potenciálních partnerů rozdíly ve výšce u žen, které posílají zprávy mužům (většina má 12 cm), větší než u mužů, kteří posílají zprávy ženám (většina má 10 cm). V Číně je pro muže ideální výškový rozdíl takový, že jsou o 10 cm vyšší než osoba, které posílají zprávu, zatímco pro ženy je ideální výškový rozdíl takový, že jsou o 12 cm nižší než osoba, které posílají zprávu. Podle údajů ze seznamovacích osobních inzerátů Yahoo! je pro uživatele v USA výška při seznamování také důležitá, zejména pro ženy . Na obr. 2 je rozmezí výškových rozdílů u žen menší než u mužů: minimální výška, kterou ženy akceptují, je, aby byl muž o 3 cm nižší než ony, a maximální výška, kterou akceptují, je, aby byl muž o 30 cm vyšší než ony, zatímco minimální výška, kterou muži akceptují, je, aby byla žena o 13 cm nižší než oni, a maximální výška, kterou akceptují, je, aby byla žena o 32 cm vyšší než oni. Ženy vykazují charakteristiku líbí-přitahuje, pokud jde o preferenci výšky. Stejně jako je tomu u věku, uživatelé vyhledávají potenciální partnery s menším výškovým rozdílem, než předpokládá náhodný výběr, i když tento rozdíl není tak zřejmý jako věkový rozdíl.
Je pozoruhodné, že v seznamce jsou všechny charakteristiky uživatelů uváděny samotnými uživateli. Z důvodů řízení dojmu , mohou uživatelé své osobní charakteristiky zveličovat. Například nedávný výzkum týkající se online údajů o výšce uváděných samotnými uživateli oproti objektivně naměřeným údajům u mladých dospělých Australanů ukázal, že výška uváděná samotnými uživateli je výrazně nadhodnocená, a to v průměru o 1,79 cm u mužů a o 1,29 cm u žen . Muži o své výšce lžou více než ženy, což bylo zjištěno i u online daters v New Yorku . Všimli jsme si, že uživatelé zřejmě neuvedli svou fyzickou výšku na seznamce přesně. V souboru dat je průměrná výška uživatelek 161,99 cm (\(\mathit{SD}=4,18\)) a 173,08 cm (\(\mathit{SD}=4,68\)). Ve skutečném světě je však průměrná výška dospělých žen v Číně 160,88 cm a mužů 169,00 cm, což znamená, že uživatelé mohou svou výšku přehnat v průměru o 1,11 cm a 4,08 cm. Po jejich korekci zjistíme, že skutečné rozdíly ve výšce \(10-(4,08-1,11) = 7,03\text{ cm}\ u mužů a \(12-(4,08-1,11) = 9,03\text{ cm}\ u žen by byly významné. Všimli jsme si však také, že na seznamce je průměrný věk uživatelů a uživatelek 28,73 a 28,58 let, zatímco v celkové dospělé populaci Číny je podle údajů ze sčítání lidu průměrný věk mužů 40,56 a žen 41,01 let. Populace uživatelů seznamek je mladší než celková dospělá populace, je tedy pravděpodobně vyšší a uživatelé nemusí svou výšku přehánět až tak, jak se počítá.
Preference atributů
Když uživatel posílá zprávu jinému uživateli, jeho výběr příjemce nemusí být náhodný, ale spíše má určité preference určitých atributů, jako je preference zaměstnání, vzdělání, příjmu atd. Abychom charakterizovali preferenci odesílatele s atributem i pro příjemce s atributem j, nechť \(m_{ij}\) je počet zpráv odeslaných od uživatelů s atributem i uživatelům s atributem j, \(m_{i}\) je celkový počet zpráv odeslaných od uživatelů s atributem i, \(n_{j}\) je počet příjemců s atributem j a n je celkový počet příjemců, pak preference atributu je \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) znamená, že ve srovnání s náhodným výběrem mají odesílatelé s atributem i přednost před příjemci s atributem j, \(p_{ij}=0\) znamená, že neexistuje žádná preference, a \(p_{ij}<0\) znamená zápornou preferenci, tj. že nepreferuje výběr přijímačů s atributem j.
Preference zaměstnání jsou uvedeny na obr. 3 a 4 (význam atributů a počet a podíl mužů/žen pro každé zaměstnání viz tabulky 1 a 2 v doplňkovém souboru 1). Zjistili jsme, že v porovnání s muži posílajícími zprávy ženám, když uživatelky posílají zprávy uživatelům mužům, existuje silnější preference zaměstnání jejich potenciálních partnerů. Na obr. 3 zjišťujeme, že ženy, které jsou studentkami, účetními, pedagožkami nebo vykonávají jiná nekategorizovaná zaměstnání, nejsou muži preferovány, zatímco ženy zabývající se designem jsou z hlediska relativního množství přijatých zpráv mírně oblíbené, zejména u mužů v oblasti leteckých služeb. Zároveň jsme také zjistili, že v těchto datech muži zabývající se úklidem posílají zprávy pouze ženám v účetnictví a muži zabývající se překladatelstvím posílají zprávy pouze ženám, které jsou soukromými majitelkami, což může být způsobeno malou velikostí vzorku chování uživatelů s ohledem na tyto atributy.
Z obr. 4 vyplývá, že nejoblíbenějšími profesemi mužů jsou vyšší management, finance, vzdělávání a soukromí vlastníci. Většina osob v těchto čtyřech profesích má vysoké příjmy nebo je dobře vzdělaná. Neoblíbenými uživateli z řad mužů jsou školáci, prodavači a osoby vykonávající jiná nekategorizovaná povolání. Zároveň ženy zabývající se chemickým průmyslem vyhledávají spíše muže zabývající se vzděláváním a školením, ženy zabývající se sportem vyhledávají spíše muže, kteří jsou soukromými vlastníky, a ženy zabývající se policií posílají v těchto údajích zprávy pouze mužům zabývajícím se financemi a nemovitostmi, což lze přičíst i malému vzorku chování uživatelů s ohledem na tyto atributy.
Úroveň vzdělání má významný vliv na páření a manželství . Preference úrovně vzdělání jsou znázorněny na obr. 5 a 6 (význam atributů a počet a podíl mužů/žen pro každou úroveň vzdělání viz tabulky 3 a 4 v doplňkovém souboru 1). V Číně, stejně jako v ostatních zemích, se postdoktor také vztahuje spíše k pozici než k dosaženému vzdělání. Na mnoha čínských webových stránkách je však při registraci uživatele postdoktor považován také za úroveň vzdělání nad rámec získání doktorátu. Podobně jsme zjistili, že ve srovnání s muži posílajícími zprávy ženám, když uživatelky posílají zprávy uživatelům mužského pohlaví, existuje silnější preference úrovně vzdělání jejich potenciálních partnerů. Obrázek 5 ukazuje, že muži, jejichž úroveň vzdělání je nižší než bakalářský titul, mají tendenci hledat ženy stejné akademické kvalifikace jako oni nebo nižší než jejich kvalifikace, muži s úrovní vzdělání vyšší než bakalářský titul, ale nižší než doktorský titul, mají tendenci hledat ženy s bakalářským titulem a muži s doktorským titulem nebo postdoktorským vzděláním mají tendenci hledat ženy s postgraduálním vzděláním. Pokud jde o preference úrovně vzdělání, obecně muži vykazují charakteristiku likes-attract. U uživatelek, které posílají zprávy mužům, je na obr. 6 vidět, že oblíbení jsou muži s bakalářským a magisterským titulem a u většiny žen jsou oblíbenější muži s bakalářským titulem, ale ženy s magisterským titulem častěji vyhledávají potenciální partnery s vysokoškolským titulem. Pokud jde o preference úrovní vzdělání, obecně ženy vykazují charakteristiku přitažlivosti pro potenciální muže. Výzkum na německé online seznamce ukázal, že preference podobného vzdělání roste s úrovní vzdělání. Ženy se zdráhají komunikovat s muži s nižší úrovní vzdělání, nicméně mužům nic nebrání kontaktovat ženy s nižším vzděláním.
Úroveň vzdělání a příjem jsou dva důležité ukazatele sociálního a ekonomického postavení osoby. Z obr. 7 a 8 (význam atributů a počet a podíl mužů/žen pro jednotlivé příjmové úrovně viz tabulky 5 a 6 v doplňkovém souboru 1) vyplývá, že z hlediska příjmových úrovní je méně zřejmá preference při výběru potenciálního partnera u mužských uživatelů ve srovnání s ženskými. Na jedné straně, jak ukazuje obr. 7, všichni muži zjevně preferují ženy, jejichž měsíční příjem se pohybuje mezi 5000 a 10 000 RMB (RMB je čínská měna a 1 RMB = 0,145 amerického dolaru = 0,128 eura), zatímco ženy, jejichž příjem je nižší než 2000 RMB, jsou zjevně vyloučeny. Muži však nevykazují žádné zjevné preference ani vyloučení žen, jejichž příjem je vyšší než 10 000 RMB. Na druhou stranu, jak ukazuje obr. 8, všechny ženy nemají rády muže, kteří vydělávají méně než 5000 RMB, a muži, kteří vydělávají 10 000 až 20 000 RMB, jsou nejoblíbenější. Pokud jde o preference výše příjmů, obecně ženy vykazují také charakteristiku potenciální přitažlivosti. Terénní experiment na čínské internetové seznamce zjistil, že muži navštěvují profily žen s různými příjmy zhruba stejnou měrou, zatímco u žen platí, že čím vyšší jsou příjmy mužů, tím vyšší bude míra návštěvnosti jejich profilů , což se liší od našich zjištění.
Logistická regresní klasifikace
Skóre kompatibility
Na osobních domovských stránkách uživatelů má každý uživatel zobrazeny požadavky na potenciální partnery, včetně požadavků na 7 atributů, tj.tj. věk, avatar, úroveň vzdělání, výška, úvěrová bonita, místo bydliště a rodinný stav (požadavky na výběr několika atributů viz obr. 1-4 v doplňkovém souboru 1). Pokud jde o kreditní hodnocení, na seznamce uživatel poté, co projde rychlým ověřením totožnosti nebo nahraje jeden ze tří dokladů (občanský průkaz, cestovní pas nebo průkaz Hongkongu a Macaa) a projde recenzí, získá první hvězdičku, tj. kreditní hodnocení rovné 1. Na základě první hvězdičky lze při každém nahrání a schválení nového dokladu přidat další hvězdičku nebo hodnocení (až do pěti hvězdiček, tj. pětihvězdičkový člen). Kromě toho, ačkoli je na platformě minimální věk uživatelů 18 let, je stále velmi málo uživatelů, kteří si stanovili požadavek na minimální nebo maximální věk nižší než 18 let (podrobnosti viz obr. 3 v doplňkovém souboru 1). K popisu shody mezi uživateli používáme koncept skóre kompatibility na základě toho, zda uživatel splňuje či nesplňuje požadavek výběru jiného uživatele. Když ženy posílají zprávy mužům, můžeme pro každou zprávu a pro každý atribut získat podíl žen, které odpovídají partnerským preferencím mužů, a podíl mužů, kteří odpovídají preferencím žen, tj. můžeme získat dva vektory obsahující 7 podílů. Podle údajů získáme \(\mathbf{w}_{\mathrm{FMm}}= (0,701,0,886,0,462,0,826,0,919,0,786,0,920)\) a \(\mathbf{w}_{\mathrm{FMf}}=(0,912,0,976,0,681,0,962,0,994,0,864,0.912)\), kde \(\mathbf{w}_{\mathrm{FMm}}) je podíl ženských atributů odpovídajících preferencím mužů a \(\mathbf{w}_{\mathrm{FMf}}) je podíl mužských atributů odpovídajících preferencím žen. Podobně když muži posílají zprávy ženám, dostaneme \(\mathbf{w}_{\mathrm{MFm}}=(0,877,0,977,0,402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Skóre kompatibility žen posílajících zprávy mužům je tedy
a skóre kompatibility mužů posílajících zprávy ženám je
kde (female attr. in male pref.) je vektor charakterizující, zda ženské atributy splňují mužské preference pro dvojici uživatelů (1 pro ano a 0 pro ne), a podobně (male attr. in female pref.) je vektor charakterizující, zda mužské atributy splňují ženské preference pro dvojici uživatelů. Rovnice 1 a 3 jsou skóre kompatibility mezi mužskou preferencí a profilem jeho vybraného partnera a rovnice 2 a 4 jsou skóre kompatibility mezi ženskou preferencí a profilem jejího vybraného partnera. Pro dvojici uživatelů \(u_{a}\) a \(u_{b}\) používáme skóre, tj. vzájemné skóre, které kvantifikuje, nakolik atributy \(u_{b}\) odpovídají preferencím \(u_{a}\) a nakolik atributy \(u_{a}\) odpovídají preferencím \(u_{b}\). Vzájemné skóre mezi \(u_{a}\) a \(u_{b}\) je průměr skóre kompatibility těchto dvou uživatelů, tj, pro ženy posílající zprávy mužům je vzájemné skóre \(\mathit{rs} = (c_{\mathrm {FMm}} + c_{\mathrm{FMf}} )/2\) a pro muže posílající zprávy ženám \(\mathit{rs} = (c_{\mathrm{MFm}} + c_{\mathrm{MFf}} )/2\).
Logistická regrese
Nechť click je počet kliknutí na uživatele, msg je počet zpráv přijatých uživatelem a rec je počet doporučení a zobrazení uživatele na domovských stránkách ostatních uživatelů, definujeme \(\mathit{pop}_{1} = \mathit{klik}/\mathit{rec}\) a \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}\), které mohou charakterizovat popularitu uživatele na základě akcí. Používáme také centralitu PageRank (\(\(\mathit{pop}_{3}\)) ke kvantifikaci toho, jak je uživatel v síti ústřední nebo populární, a to s ohledem na všechna spojení v síti. Atraktivní lidé, například lidé s výhodnými demografickými atributy a vyšším socioekonomickým statusem, bývají z hlediska výběru potenciálního partnera náročnější než průměrní lidé, což lze odhalit v analýze preferencí příjmu a úrovně vzdělání v odd. 3.1.2. Ti, kteří jsou atraktivními lidmi vnímáni jako atraktivní, mohou být ještě oblíbenější/atraktivnější. Proměnné použité v článku a jejich význam jsou uvedeny v tabulce 1.
Zavádíme několik indexů centrality, jako jsou \(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\), \(\mathit{pop}_{3}\) a indegree, abychom vyhodnotili jejich korelaci s chováním při zasílání zpráv. Je třeba poznamenat, že indexy centrality jsou agregované ukazatele popisující žádanost nebo oblíbenost uživatelů a uživatelé neznají své indexy ani indexy ostatních. K charakterizování úrovně aktivity uživatelů používáme outdegree a v seznamce uživatelé také neznají outdegree ostatních uživatelů. Ve skutečnosti namísto používání indexů k identifikaci nebo výběru atraktivních partnerů budou uživatelé posílat zprávy druhému na základě konkrétnějších vodítek, jako je vyšší příjem, lepší vzdělání, atraktivní fotografie nebo dobrá demografická a socioekonomická kompatibilita. V článku vyhodnotíme, zda indexy významně souvisejí s chováním při zasílání zpráv.
Předpokládejme, že \(p_{i}\) je pravděpodobnost zaslání zprávy pro uživatelku i, \(1-p_{i}\) je pravděpodobnost nezaslání zprávy, pak \(L_{f_{i}}=\ln(\frac{p_{i}}{1-p_{i}})\), tj, pro všechny ženy platí, že \(L_{f}=\ln(\frac{p}{1-p})\). Podobně předpokládejme, že \(q_{j}\) je pravděpodobnost odeslání zprávy pro mužského uživatele i, \(1-q_{j}\) je pravděpodobnost neodeslání zprávy, pak \(L_{m_{j}}=\ln (\frac{q_{j}}{1-q_{j}})\), tj, pro všechny muže platí, že \(L_{m}= \ln(\frac{q}{1-q})\). Logistické regresní modely získáme následujícím způsobem:
V této studii se provádějí testy multikolinearity, aby se zjistily nezávislé proměnné, mezi nimiž jsou korelační koeficienty menší než 0,5 (podrobnosti viz tabulky 7 a 8 v doplňkovém souboru 1). Výsledky logistické regrese pro ženy posílající zprávy mužům jsou uvedeny v tabulce 2. Zjistili jsme, že téměř všechny proměnné jsou významné, pokud bereme v úvahu pouze atributy žen (model 1), tj. atributy odesílatelů, ale pouze bydliště a outdegree žen jsou pozitivně spojeny s pravděpodobností, že ženy posílají zprávy mužům. Při zohlednění pouze atributů mužů (model 2) jsou kromě ověření mobilního telefonu a úvěrového ratingu mužů všechny ostatní atributy významné a pozitivně souvisejí s pravděpodobností odesílání zpráv ženami. Při zohlednění atributů obou stran a skóre kompatibility (model 3) jsou mezi významnými proměnnými ověření mobilního telefonu žen, vlastnictví automobilu, úvěrový rating a úroveň popularity (\(\mathit{pop}{1}\) a \(\mathit{pop}_{3}\)) negativně spojeny s pravděpodobností zasílání zpráv ženami, zatímco ostatní proměnné jsou spojeny pozitivně. Zjistili jsme, že když ženy posílají zprávy mužům, zajímá je nejen to, zda splňují požadavky mužů, ale také to, zda muži splňují jejich vlastní požadavky.
Výsledky logistické regrese pro muže posílající zprávy ženám jsou uvedeny v tabulce 3. Zjistili jsme, že při zohlednění pouze ženských atributů (model 1) jsou kromě ověření mobilního telefonu žen, úvěrového ratingu a outdegree všechny ostatní proměnné významné, ale pouze vlastnictví domu ženami ovlivňuje pravděpodobnost zasílání zpráv muži negativně. Pokud se uvažují pouze mužské atributy (model 2), jsou všechny proměnné významné, ale pouze mužský outdegree pozitivně koreluje s chováním při zasílání zpráv, ostatní korelují negativně. Při zohlednění všech proměnných (model 3) jsou kromě ženského úvěrového ratingu, outdegree a skóre kompatibility mezi ženskou preferencí a profilem odpovídající druhé strany všechny ostatní proměnné významné. Mezi významnými proměnnými jsou ověření mobilního telefonu ženou, vlastnictví automobilu, popularita (\(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\) a \(\mathit{pop}_{3}\), mužský outdegree a skóre kompatibility mezi mužskou preferencí a profilem odpovídající druhé strany pozitivně korelovány s chováním při zasílání zpráv, zatímco všechny ostatní proměnné jsou korelovány negativně. Analýzou významnosti obou skóre kompatibility navíc zjišťujeme, že muži při zasílání zpráv ženám věnují pozornost pouze tomu, zda ženy splňují jejich vlastní požadavky.
Jak je vidět z tabulek 2 a 3, u mužů nebo žen posílajících zprávy je oblíbenost druhé strany významně pozitivně spojena s chováním při posílání zpráv. Na jedné straně hodnoty \(\mathit{pop}_{1}\) a \(\mathit{pop}_{2}\) podle metody jejich výpočtu představují lokální popularitu uživatele. Na druhé straně hodnota \(\mathit{pop}_{3}\), tj. PageRank, představuje popularitu uživatele z globálního hlediska.
Pro ženy, které posílají zprávy mužům, je \(\exp (0,390) = 1,477\) pro muže \(\mathit{pop}_{1}\) větší než \(\exp (0,390) = 1,477\).146) = 1,157\) pro mužské \(\mathit{pop}_{3}\) a pro muže posílající zprávy ženám je \(\exp (0,462) = 1,587\) pro ženské \(\mathit{pop}_{1}\) také větší než \(\exp (0,141) = 1,151\) pro ženské \(\mathit{pop}_{3}\). Pro muže i ženy je tedy \(\mathit{pop}_{1}\) druhé strany důležitější než \(\mathit{pop}_{3}\). Kromě toho jsme také zjistili, že když ženy posílají zprávy mužům, je \(\exp (0,390) = 1,477\) pro muže \(\mathit{pop}_{1}\) menší než \(\exp (0,462) = 1.587\) pro ženské \(\mathit{pop}_{1}\), když muži posílají zprávy ženám, což naznačuje, že ve srovnání se ženami je pro muže \(\mathit{pop}_{1}\) druhé strany více spojeno s jejich chováním při posílání zpráv. Když však ženy posílají zprávy mužům, je \(\exp (0,146) = 1,157\) pro muže \(\mathit{pop}_{3}\) větší než \(\exp (0,141) = 1.151\) pro ženské \(\mathit{pop}_{3}\), když muži posílají zprávy ženám, což naznačuje, že ve srovnání s muži je u žen \(\mathit{pop}_{3}\) druhé strany více spojeno s jejich chováním při posílání zpráv.
Mít byt a auto je v Číně symbolem bohatství a společenského postavení člověka a v některých oblastech se staly nutností pro uzavření manželství. Když ženy posílají zprávy mužům, je pro ně důležité, aby měli dům a auto. Když muži posílají zprávy ženám, není pro ženy důležité mít dům, ale je pro ně poněkud důležité mít auto. Zjistili jsme, že \(\exp(0,038) = 1,039\) pro to, zda má druhá strana auto, když muži posílají zprávy ženám, je menší než \(\exp (0,157) = 1,170\) pro to, zda má druhá strana auto, když ženy posílají zprávy mužům, což naznačuje, že ženy věnují větší pozornost než muži tomu, zda má druhá strana auto.
Stupeň outdegree uživatele kvantifikuje aktivitu uživatele. Zdánlivě vysoká aktivita znamená kontaktování mnoha dalších uživatelů, v podstatě však může znamenat, že uživatelé investují více času a prostředků do snahy najít potenciální partnery. Outdegree je atribut odlišný pro muže a ženy. Když žena posílá zprávu muži, outdegree druhé strany významně pozitivně souvisí s chováním při zasílání zpráv, zatímco v případě, že muž posílá zprávu ženě, nikoli. Když ženy posílají zprávy mužům, síťové míry popularity a aktivity mužů, které kontaktují, jsou významně pozitivně spojeny s jejich chováním při zasílání zpráv, ale když muži posílají zprávy ženám, pouze síťové míry popularity žen, které kontaktují, jsou významně pozitivně spojeny s jejich chováním při zasílání zpráv.
Klasifikace pomocí ansámblového učení
S nástupem éry velkých dat byly do oblasti výzkumu sociálních sítí postupně zaváděny metody klasifikace pomocí ansámblového učení. Již v roce 1996 navrhl Breiman metodu bagging , a o pět let později dále navrhl metodu Random Forest . Freund navrhl v roce 1997 metodu AdaBoost , a s neustálým zdokonalováním klasifikátorů strojového učení navrhl v roce 2016 Chen a kol. klasifikátor-XGBoost , který může v některých případech výrazně zlepšit účinnost a přesnost algoritmu. Jako aplikaci již nedávno Reece et al. použili nástroje strojového učení k identifikaci deprese z fotografií na Instagramu .
Regresní analýza má často určité požadavky na nezávislé proměnné, jako je nepřítomnost multikolinearity, avšak metody klasifikace založené na skupinovém učení tato omezení na nezávislé proměnné uvolňují. V této části jsou k vyhodnocení důležitosti jednotlivých atributů v tabulce 1 použity klasifikační metody ansámblového učení včetně metod bagging, Random Forest, AdaBoost a XGBoost. K provedení metod AdaBoost a bagging používáme balíček „adabag“ v softwaru R, k provedení metody Random Forest balíček „randomForest“ a k provedení metody XGBoost balíček „xgboost“. Pro soubor dat se k posouzení výkonnosti klasifikátorů používá pětinásobné křížové ověření a parametry algoritmu se volí tak, aby se dosáhlo stabilní chybovosti. Počty odesílajících a neodesílajících zpráv jsou v datové sadě nevyvážené a větší množina je náhodně podvzorkována, aby se získala množina stejné velikosti jako menší.
Chybovost čtyř metod skupinového učení klasifikace je uvedena v tabulce 4. Zjistili jsme, že chybovost metod Random Forest a AdaBoost je nejnižší u žen, které posílají zprávy mužům, zatímco XGBoost je nejnižší u mužů, kteří posílají zprávy ženám. Pořadí důležitosti atributů je znázorněno na obr. 9 a 10. Obrázek 9 ukazuje, že když ženy posílají zprávy mužům, jsou třemi nejdůležitějšími atributy hodnoty \(\mathit{pop}_{3}\) a \(\mathit{pop}_{1}\) u mužů a outdegree u žen. Podobně obr. 10 ukazuje, že když muži posílají zprávy ženám, jsou třemi nejdůležitějšími atributy hodnoty \(\mathit{pop}_{3}\) a \(\mathit{pop}_{1}\) pro ženy a outdegree pro muže. Nejdůležitějšími faktory předpovídajícími rozhodnutí posílat zprávy u mužů i žen jsou hodnoty \(\mathit{pop}_{3}\) a \(\mathit{pop}_{1}\) představující popularitu potenciálních partnerů, které jsou v logistické regresi rovněž významně pozitivně spojeny s chováním při posílání zpráv.
Účel klasifikace metodami ansámblového učení je odlišný od logistické regresní analýzy. Podle obr. 9 a 10 ukazují indexy centrality skutečně převažující význam a ostatní proměnné vykazují relativní nedostatek prediktivní síly. To však neznamená, že ostatní proměnné jsou zbytečné, a stále mohou být významně spojeny s chováním uživatelů při zasílání zpráv v logistické regresi.
Analýza strategického chování
Koncept strategického chování pochází z ekonomie, kde původním důsledkem je, že firmy podnikají kroky, které ovlivňují tržní prostředí, aby zvýšily zisk (v této studii se to týká míry odezvy na zprávy), což je pak rozšířeno na problémy párování , jako je párování partnerů.
V našem výzkumu se strategické chování týká toho, zda uživatel pošle zprávu jinému uživateli v závislosti na tom, zda jeho rozhodnutí může zvýšit pravděpodobnost odpovědi na zprávu. Protože nemáme k dispozici údaje o odpovědích uživatelů, chtěli bychom použít indexy centrality charakterizující popularitu uživatelů k analýze toho, zda mají uživatelé tendenci posílat zprávy lidem, kteří jsou populárnější než oni sami, nebo těm, kteří jsou méně populární. Analýzou korelace mezi indexy centrality studujeme strategické chování uživatelů. Vyhlazovací fitovací křivky pro korelaci se zobecněným aditivním modelem ukazují, že mezi indexy centrality uživatelů existuje nelineární nebo přibližně lineární vztah (podrobnosti viz obr. 5 a 6 v doplňkovém souboru 1), proto k charakterizaci korelace používáme Spearmanův korelační koeficient. Jak ukazují tabulky 5 a 6, zjistili jsme, že v seznamce vykazují muži a ženy odlišné vzorce chování při zasílání zpráv, a to i přes snížené náklady na odmítnutí v síťovém prostředí. U mužů, kteří posílají zprávy ženám, existují slabé pozitivní korelace mezi indexy centrality, které lze charakterizovat malými kladnými a významnými korelačními koeficienty, zatímco u žen, které posílají zprávy mužům, existují slabé nebo mírné pozitivní korelace mezi indexy centrality charakterizované malými nebo mírně většími kladnými a významnými korelačními koeficienty. Muži při zasílání zpráv nevykazují ve velké míře strategické chování, zatímco u žen by se s růstem jejich indexů centrality mohly zvyšovat i odpovídající indexy mužů, kteří jejich zprávy obdrželi.
Studiem korelací mezi stejnými dvojicemi indexů centrality pro uživatele, dále analyzujeme, zda mají uživatelé tendenci posílat zprávy lidem, kteří jsou populárnější než oni sami, nebo těm, kteří jsou méně populární. Pro každý index centrality odesílatelů uvádíme průměr a směrodatnou odchylku odpovídajících indexů příjemců a podíl indexů centrality příjemců, které jsou větší než indexy centrality odesílatelů, na obr. 7 a 8 v doplňkovém souboru 1. Pro každý index centrality je v tabulce 7 uveden podíl indexů centrality příjemců, které jsou při odesílání zpráv větší než indexy centrality odesílatelů. Pro srovnání uvádíme také náhodné výsledky. Ve srovnání s muži má více žen tendenci posílat zprávy lidem, kteří jsou populárnější než ony samy.
Strategickému chování uživatelů v online seznamování se věnovalo několik studií. Některé studie zjistily významnou pozitivní korelaci mezi popularitou uživatelů mužského a ženského pohlaví. Například výzkum Taylora a kol. na uživatelích z USA ukázal, že, mají tendenci vybírat a být vybíráni jinými uživateli, jejichž relativní popularita je podobná jejich vlastní, i když to nemusí nutně znamenat vyšší úspěšnost, tj. obdržení více odpovědí . Nedávná empirická analýza uživatelů ze čtyř amerických měst z online seznamky použila PageRank k charakterizaci jejich žádoucnosti a zjistila, že muži i ženy posílali zprávy partnerům, kteří jsou v průměru asi o 25 % žádoucnější než oni sami . Existují však i studie, které korelaci mezi oblíbeností uživatelů nezjistily. Například výzkum uživatelů v Bostonu a San Diegu nenašel důkazy o strategickém chování . Jiný výzkum dat z online seznamek ve středně velkém jihozápadním městě v USA ukázal, že bez ohledu na vlastní úroveň žádoucnosti, která charakterizuje fyzickou atraktivitu, popularitu, osobitost a materiální zdroje uživatelů, mají muži i ženy tendenci posílat zprávy sociálně nejžádanějším uživatelům . Zjistili jsme, že uživatelé na různých platformách nebo v různých kulturních kontextech mají odlišné strategické chování a základní mechanismy je třeba ještě dále zkoumat
.