Análise de preferência de atributos
Distribuição de diferença de atributos
Na datação on-line, há diferenças significativas de gênero em termos de preferência de atributos, auto-apresentação e interação . Os usuários geralmente têm uma certa preferência pela idade ou altura dos companheiros. Tanto para homens como para mulheres, quando eles enviam mensagens aos seus potenciais parceiros, calculamos a diferença de idade como idade(receptor) – idade(emissor), e a diferença de altura como altura(receptor) – altura(emissor). As figuras 1 e 2 mostram a diferença de idade e a distribuição da diferença de altura, respectivamente. Como comparação, também mostramos os resultados aleatórios assumindo que usuários do sexo feminino (masculino) enviam mensagens aleatórias para usuários do sexo masculino (feminino).
Na maioria das vezes e lugares, as mulheres normalmente se casam com homens mais velhos . A Figura 1 mostra que na sociedade chinesa moderna, em média, os homens preferem mulheres dois anos mais novas do que eles e as mulheres preferem homens dois anos mais velhos do que eles. Entretanto, a diferença de idade que as mulheres aceitam é menor que a dos homens: a idade mínima que as mulheres aceitam é que os homens são 11 anos mais novos que elas e a idade máxima que elas aceitam é que os homens são 23 anos mais velhos que elas, enquanto a idade mínima que os homens aceitam é que as mulheres são 25 anos mais novas que elas e a idade máxima que elas aceitam é que as mulheres são 28 anos mais velhas que elas. Se apenas a distribuição das diferenças de idade for considerada, de acordo com as descobertas anteriores de uma variedade de culturas e religiões , descobrimos que a faixa etária que as mulheres estão dispostas a transmitir é mais estreita do que a faixa etária que os homens estão dispostos a transmitir. As preferências masculinas e femininas não são aleatórias; elas procuram datas potenciais com uma diferença de idade menor do que a prevista pela seleção aleatória, o que mostra a característica de likes-attract.
Figure 2 mostra que geralmente a diferença de altura para as mulheres que enviam mensagens aos homens (a maioria tem 12 cm) é maior do que a dos homens que enviam mensagens às mulheres (a maioria tem 10 cm) quando escolhem potenciais companheiros. Na China, para os homens, a diferença ideal de altura é que eles são 10 cm mais altos do que a pessoa que enviam mensagens, enquanto para as mulheres, a diferença ideal de altura é que eles são 12 cm mais baixos do que a pessoa que enviam mensagens. De acordo com os dados dos anúncios pessoais de encontros do Yahoo!, para os usuários nos EUA, a altura também é importante para os encontros, especialmente para as mulheres. Na Fig. 2, a diferença de altura para as mulheres é menor que a dos homens: a altura mínima que as mulheres aceitam é que os homens são 3 cm mais baixos que elas e a altura máxima que elas aceitam é que os homens são 30 cm mais altos que elas, enquanto a altura mínima que os homens aceitam é que as mulheres são 13 cm mais baixas que elas e a altura máxima que elas aceitam é que as mulheres são 32 cm mais altas que elas. As fêmeas mostram a característica de gostar-attrair em termos de preferência pela altura. Como acontece com a idade, os usuários procuram potenciais parceiras com uma diferença de altura menor do que a prevista pela seleção aleatória, embora a diferença não seja tão óbvia quanto a diferença de idade.
No site de namoro, as características dos usuários são todas auto-relatadas. Para considerações de gerenciamento de impressão , os usuários podem exagerar suas características pessoais . Por exemplo, uma pesquisa recente sobre a altura relatada online contra dados medidos objetivamente em jovens adultos australianos revelou que a altura relatada é significativamente superestimada por uma média de 1,79 cm para os homens e 1,29 cm para as mulheres . Os homens mentem mais do que as mulheres sobre sua altura, que também é encontrada nos dados online da cidade de Nova York . Observamos que os usuários parecem não ter relatado com precisão a sua altura física no site de encontros. No conjunto de dados, as alturas médias dos usuários do sexo feminino e masculino são de 161,99 cm (4,18 cm) e 173,08 cm (4,68 cm), respectivamente. No entanto, no mundo real, as alturas médias das fêmeas e machos adultos na China são de 160,88 cm e 169,00 cm, respectivamente, o que significa que os utilizadores femininos e masculinos podem exagerar a sua altura em média de 1,11 cm e 4,08 cm, respectivamente. Depois de corrigir estes valores, verificamos que as diferenças reais de altura \\i(10-(4,08-1,11) = 7,03{ cm}) para os homens, e \i(12-(4,08-1,11) = 9,03{ cm) para as mulheres seriam significativas. No entanto, também notamos que no site de encontros, as idades médias dos usuários masculinos e femininos são de 28,73 e 28,58 anos, respectivamente, enquanto na população adulta total da China, as idades médias de homens e mulheres são de 40,56 e 41,01 anos, respectivamente, de acordo com os dados do censo populacional. A população de namoro é mais jovem do que a população adulta total, portanto é provavelmente mais alta, e os usuários não podem exagerar sua altura tanto quanto calculado.
Preferência de atributos
Quando um usuário envia uma mensagem para outro usuário, sua escolha de destinatário pode não ser aleatória, mas tem alguma preferência por certos atributos, como preferência por emprego, educação, renda, etc. Para caracterizar a preferência do remetente com o atributo i pelo receptor com o atributo j, deixe {ij}}(m_{ij}} ser o número de mensagens enviadas pelos usuários com o atributo i para os usuários com o atributo j, \(m_{i}) seja o número total de mensagens enviadas pelos usuários com o atributo i, { n_{j} seja o número de receptores com o atributo j, e n seja o número total de receptores, então a preferência do atributo é { p_{ij} = m_{ij} /m_{i} – n_{j} /n}). \(p_{ij}>0} indica que, comparado com a seleção aleatória, os remetentes com atributo i têm preferência por receptores com atributo j, {ij}(p_{ij}=0} indica que não há preferência e {ij}<0} indica preferência negativa, ou seja Preferindo não selecionar os receptores com o atributo j.
Preferências de emprego são mostradas nas Figs. 3 e 4 (ver Tabelas 1 e 2 no arquivo adicional 1 para os significados dos atributos e o número e proporção de homens/mulheres para cada emprego). Verificamos que, em comparação com os homens que enviam mensagens para as mulheres, quando as usuárias enviam mensagens para os homens, há uma preferência mais forte pelos empregos dos seus potenciais colegas de trabalho. Na Fig. 3, verificamos que as mulheres que são estudantes, contabilistas, educadoras ou em outras profissões não categorizadas não são preferidas pelos homens, enquanto que as mulheres envolvidas em design são ligeiramente populares em termos da quantidade relativa de mensagens recebidas, especialmente para os homens na indústria de serviços de aviação. Ao mesmo tempo, descobrimos também que, nestes dados, os homens envolvidos em tarefas domésticas só enviam mensagens para mulheres na contabilidade e os homens envolvidos na indústria da tradução só enviam mensagens para mulheres que são proprietárias privadas, o que pode ser devido ao pequeno tamanho da amostra do comportamento do utilizador no que diz respeito a estes atributos.
Da Fig. 4, verificamos que as profissões mais populares para os homens são a alta administração, finanças, educação e proprietários privados. A maioria das pessoas nestas quatro profissões tem alta renda ou são bem instruídas. Os usuários masculinos impopulares são estudantes, vendedores e os que se dedicam a outras profissões não categorizadas. Ao mesmo tempo, mulheres envolvidas na indústria química tendem a procurar homens envolvidos em educação e treinamento, mulheres envolvidas em esportes tendem a procurar homens que são proprietários privados, e mulheres envolvidas na polícia só enviam mensagens para homens envolvidos em finanças e imóveis nesses dados, o que também pode ser atribuído ao pequeno tamanho da amostra de comportamento do usuário com relação a esses atributos.
Níveis de educação têm um impacto significativo no acasalamento e casamento . As preferências de nível de educação são mostradas nas Figs. 5 e 6 (ver Tabelas 3 e 4 no arquivo adicional 1 para os significados dos atributos e o número e proporção de homens/mulheres para cada nível de educação). Na China, como nos outros países, pós-doutoramento também se refere a uma posição e não a um nível de educação. No entanto, em muitos sites chineses, quando um usuário se registra, o pós-doutoramento também é considerado um nível educacional além da obtenção de um doutorado. Da mesma forma, quando os usuários do sexo feminino enviam mensagens para os usuários do sexo masculino, há uma preferência mais forte pelo nível de educação de seus potenciais colegas. A Figura 5 mostra que os homens cujo nível de escolaridade está abaixo do grau de graduação tendem a procurar mulheres com as mesmas qualificações acadêmicas que eles ou inferiores às suas qualificações, os homens com nível de escolaridade superior ao grau de bacharel, mas inferior ao grau de doutorado tendem a procurar mulheres com grau de bacharel e os homens com grau de doutorado ou pós-doutorado tendem a procurar mulheres com grau de pós-graduação. Em termos de preferência pelos níveis de educação, geralmente os homens mostram características de gostos-attratos. Para usuários do sexo feminino que enviam mensagens aos usuários do sexo masculino, a Fig. 6 mostra que homens com graduação e pós-graduação são populares e, para a maioria das mulheres, os homens com graduação são mais populares, mas as mulheres com pós-graduação são mais propensas a procurar potenciais colegas com pós-graduação. Em termos de preferência por níveis de educação, geralmente as mulheres mostram características de potencial-atracto. Pesquisas em um site alemão de namoro online revelaram que a preferência por um histórico educacional similar aumenta com o nível educacional. As mulheres são relutantes em comunicar com homens com níveis educacionais mais baixos, porém não há barreiras para que os homens entrem em contato com as mulheres com níveis educacionais mais baixos.
Nível de educação e rendimento são dois indicadores importantes do estatuto social e económico de uma pessoa. Das Figs. 7 e 8 (ver Tabelas 5 e 6 no arquivo adicional 1 para os significados dos atributos e o número e proporção de homens/mulheres para cada nível de renda) verificamos que, em termos de níveis de renda, há uma preferência menos óbvia na seleção de parceiros potenciais para os usuários masculinos do que para os femininos. Por um lado, como mostrado na Fig. 7, todos os homens obviamente preferem mulheres cujo rendimento mensal está entre RMB 5000 e RMB 10.000 (o RMB é a moeda chinesa, e RMB 1 = 0,145 dólares americanos = 0,128 Euros), enquanto as mulheres cujo rendimento é inferior a RMB 2000 estão obviamente excluídas. No entanto, os homens não mostram preferência ou exclusão óbvia para as mulheres cujo rendimento é superior a RMB 10.000. Por outro lado, como mostrado na Fig. 8, todas as mulheres não gostam de homens que ganham menos de RMB 5000, e os homens que ganham de RMB 10.000 a RMB 20.000 são os mais populares. Em termos de preferência por níveis de renda, geralmente as mulheres também mostram potencial – característica de contrato. Uma experiência de campo em um site de encontros online chinês descobriu que os homens visitaram os perfis de mulheres de diferentes rendimentos com aproximadamente as mesmas taxas, enquanto que para as mulheres, quanto mais altos forem os rendimentos masculinos, maiores serão as taxas de visita aos seus perfis, o que é diferente das nossas descobertas.
Classificação da regressão logística
Pontos de compatibilidade
Nas páginas pessoais dos usuários, cada usuário mostrou as demandas para os potenciais companheiros, incluindo os requisitos para 7 atributos, i.e. idade, avatar, nível de educação, altura, classificação de crédito, local de residência e estado civil (ver Figs. 1-4 no arquivo adicional 1 para os requisitos de seleção de vários atributos). Quanto à classificação de crédito, no site de encontros, após um utilizador passar a autenticação rápida de identidade, ou carregar um dos três documentos (o bilhete de identidade, o passaporte ou o passe de Hong Kong e Macau) e passar a revisão, obterá a primeira estrela, ou seja, a classificação de crédito é igual a 1. Com base na primeira estrela, cada vez que um novo documento é carregado e aprovado, pode ser adicionada uma estrela ou classificação adicional (até cinco estrelas, ou seja, membro de cinco estrelas). Além disso, embora na plataforma a idade mínima dos utilizadores seja 18 anos, ainda há muito poucos utilizadores que definam os seus requisitos de idade mínima ou máxima abaixo dos 18 anos (ver Fig. 3 no ficheiro adicional 1 para mais detalhes). Aplicamos o conceito de pontuação de compatibilidade para descrever a correspondência entre usuários com base no fato de um usuário satisfazer ou não a exigência de seleção de outro usuário. Quando as mulheres enviam mensagens aos homens, para cada mensagem e para cada atributo, podemos obter a proporção de mulheres que correspondem às preferências dos homens e a proporção de homens que correspondem às preferências das mulheres, ou seja, podemos obter dois vetores, incluindo 7 proporções. De acordo com os dados que obtemos {\mathbf{w}_{\mathrm{FMm}}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)}, e {\mathbf{w}_{\mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.912), onde {\i1}{\i1}{\i1}(mathbf{w}_{\i1}_mathrm{FMf}}) são as proporções de atributos femininos que atendem às preferências masculinas e {\i1}(mathbf{w}_{\i}_mathrm{FMf}}) são as proporções de atributos masculinos consistentes com as preferências femininas. Da mesma forma, quando os homens enviam mensagens para as mulheres, obtemos {\i1}(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Assim, os escores de compatibilidade das mulheres que enviam mensagens aos homens são
e os escores de compatibilidade dos homens que enviam mensagens para as mulheres são
onde (attr. fêmea em pref. macho)) é um vetor que caracteriza se os atributos femininos atendem às preferências masculinas para um par de usuários (1 para sim e 0 para não), e similarmente (attr. em pref. feminino) é um vetor que caracteriza se os atributos masculinos atendem às preferências femininas para um par de usuários. As equações 1 e 3 são os escores de compatibilidade entre uma preferência masculina e o perfil de seu parceiro escolhido, e as equações 2 e 4 são os escores de compatibilidade entre uma preferência feminina e o perfil de seu parceiro escolhido. Para um par de usuários, usamos uma pontuação, ou seja, pontuação recíproca, para quantificar o quanto os atributos da(u_b) correspondem às preferências da(u_a) e o quanto os atributos da(u_a) correspondem às preferências da(u_b). A pontuação recíproca entre a pontuação da(u_{a) e a pontuação da(u_b) é a média das pontuações de compatibilidade destes dois utilizadores, ou seja, para as mulheres que enviam mensagens aos homens a pontuação recíproca é \(c_{\mathit{rs} = (c_{\mathrm {FMm}} + c_{\mathrm{FMf} )/2}, e para os homens que enviam mensagens às mulheres \(c_{\mathrm{MFm}} = (c_{\mathrm{MFm}} + c_{\mathrm{MFf} )/2}.
Regressão logística
Deixe o clique ser o número de vezes que um usuário é clicado, msg seja o número de mensagens recebidas por um usuário, e rec seja o número de vezes que um usuário é recomendado e mostrado nas homepages dos outros usuários, definimos {pop}_{1} =mathit{click}/mathit{rec}} e {pop}_{2} =mathit{msg}/mathit{rec}) que podem caracterizar a popularidade de um usuário com base em ações. Também utilizamos a centralidade PageRank (\mathit{pop}_{3}) para quantificar o quão focal ou popular é um usuário em uma rede, considerando todas as conexões na rede. Pessoas atraentes, como as pessoas com atributos demográficos vantajosos e status sócio-econômico mais elevado, tendem a ser mais exigentes do que as pessoas comuns em termos de escolha de parceiros potenciais, o que pode ser revelado na análise de preferências de renda e nível de educação na Sect. 3.1.2. Aqueles que são percebidos como atraentes por pessoas atraentes podem ser ainda mais populares/atraentes. As variáveis usadas no trabalho e seus significados são mostradas na Tabela 1.
Introduzimos vários índices de centralidade, tais como {pop}_(1}mathit{pop}_(1)), {pop_(2)), {pop_(3), e indegree, para avaliar sua correlação com os comportamentos de mensagens. É de salientar que os índices de centralidade são indicadores agregados que descrevem o desejo ou popularidade dos utilizadores, e os utilizadores não conhecem os seus índices, nem conhecem os índices de outros. Nós usamos outdegree para caracterizar o nível de atividade dos usuários, e no site de encontros, os usuários também não conhecem o outdegree de outros usuários. Na realidade, em vez de usar os índices para identificar ou seleccionar parceiros atractivos, os utilizadores enviarão uma mensagem a outro com base em pistas mais específicas, tais como maior rendimento, melhor formação, fotografias atractivas ou boa compatibilidade demográfica e sócio-económica. No artigo, vamos avaliar se os índices estão significativamente associados a comportamentos de mensagens.
Suponha que \(p_{i}}) é a probabilidade de enviar mensagens para uma usuária i, \(1-p_{i}) é a probabilidade de não enviar mensagens, então \(L_{f_{i}}=\ln(\frac{p_{i}}{1-p_{i}}), ou seja para todas as mulheres, ou seja, para todas as mulheres, L_frac{p_1-p). Da mesma forma, suponhamos que a probabilidade de enviar mensagens para um utilizador masculino i, i, 1-q_j) é a probabilidade de não enviar mensagens, e depois, L_{m_{j}=ln ({frac{q_{j}}{1-q_{j}}), ou seja para todos os homens, ou seja, para todos os homens, (L_{m}= {m_) Obtemos modelos de regressão logística da seguinte forma:
Neste estudo, são realizados testes de multicolinearidade para descobrir variáveis independentes entre as quais os coeficientes de correlação são inferiores a 0,5 (ver Tabelas 7 e 8 no arquivo adicional 1 para detalhes). Os resultados da regressão logística para mulheres que enviam mensagens a homens são mostrados na Tabela 2. Verificamos que quase todas as variáveis são significativas quando consideramos apenas os atributos das mulheres (modelo 1), ou seja, os atributos dos remetentes, mas apenas a habitação e o outdegree das mulheres estão positivamente associados à probabilidade de as mulheres enviarem mensagens aos homens. Quando se consideram apenas os atributos dos homens (modelo 2), exceto a verificação do celular masculino e a classificação de crédito, todas as outras são significativas e estão positivamente associadas à probabilidade de as mulheres enviarem mensagens. Quando se consideram os atributos das duas partes e os escores de compatibilidade (modelo 3), entre as variáveis significativas, a verificação do celular feminino, a propriedade do carro, a classificação de crédito e os níveis de popularidade (matemática (pop) e matemática (pop)) estão negativamente associados à probabilidade de envio de mensagens das mulheres, enquanto as outras variáveis estão associadas positivamente. Descobrimos que, quando as mulheres enviam mensagens para os homens, elas estão preocupadas não só em saber se elas satisfazem os requisitos dos homens, mas também se os homens satisfazem os seus próprios requisitos.
Os resultados da regressão logística para os homens que enviam mensagens para as mulheres são mostrados na Tabela 3. Descobrimos que quando apenas os atributos femininos são considerados (modelo 1), excepto a verificação de telemóveis femininos, a classificação de crédito e o outdegree, todas as outras variáveis são significativas, mas apenas a propriedade de casas femininas afecta a probabilidade de mensagens masculinas de uma forma negativa. Quando apenas os atributos masculinos são considerados (modelo 2), todas as variáveis são significativas, mas apenas o outdegree masculino está positivamente correlacionado com os comportamentos de mensagens, outros negativamente correlacionados. Com todas as variáveis consideradas (modelo 3), exceto a classificação de crédito feminina, outdegree, e o escore de compatibilidade entre uma preferência feminina e o perfil do outro lado correspondente, todas as outras variáveis são significativas. Entre as variáveis significativas, verificação do celular feminino, propriedade do carro, popularidade (1), 2) e 3), o outdegree masculino e o escore de compatibilidade entre uma preferência masculina e o perfil do outro lado correspondente estão positivamente correlacionados com comportamentos de mensagens, enquanto todas as outras variáveis estão negativamente correlacionadas. Além disso, analisando o significado dos dois escores de compatibilidade, verificamos que os homens só prestam atenção se as mulheres cumprem os seus próprios requisitos quando enviam mensagens às mulheres.
Como se pode ver nas Tabelas 2 e 3, para homens ou mulheres que enviam mensagens, a popularidade do outro lado está significativamente associada positivamente aos comportamentos de envio de mensagens. Por um lado, os valores de matemática (pop) e matemática (pop), de acordo com seu método de cálculo, representam a popularidade local do usuário. Por outro lado, o valor de {pop}_{3}(matemática), ou seja, PageRank, representa a popularidade de um usuário de uma perspectiva global.
Para as mulheres que enviam mensagens para os homens, {xp (0,390) = 1,477} para os homens é maior que {pop}_{1}(0.146) = 1.157) para os machos (0.3), e para os machos que enviam mensagens para as fêmeas (0.462) = 1.587) para as fêmeas (1) também é maior do que (0.141) = 1.151) para as fêmeas (0.3). Assim, tanto para os homens como para as mulheres, a outra parte é mais importante que a matemática. Além disso, quando as fêmeas enviam mensagens para os machos, (exp (0,390) = 1,477) para os machos (pop) é menos do que (exp (0,462) = 1.587) para as fêmeas quando os machos enviam mensagens às fêmeas, o que indica que, em comparação com as fêmeas, para os machos, a mensagem do outro lado está mais associada aos seus comportamentos de mensagens. Contudo, quando as fêmeas enviam mensagens para os machos, o valor 0,146 = 1,157 para os machos é maior do que 0,141 = 1.151) para as fêmeas quando os machos enviam mensagens às fêmeas, o que indica que, em comparação com os machos, para as fêmeas, a mensagem do outro lado está mais associada aos seus comportamentos de mensagens.
Na China, ter um apartamento e um carro é um símbolo da riqueza e status social de uma pessoa, e em algumas regiões, elas se tornaram necessidades para se casar. Quando as mulheres enviam mensagens aos homens, é importante que os homens tenham uma casa e um carro. Quando os homens enviam mensagens às mulheres, não é importante que as mulheres tenham uma casa, mas é um pouco importante que as mulheres tenham um carro. Descobrimos que \exp(0.038) = 1.039) para saber se o outro lado tem carro quando os homens enviam mensagens para as mulheres é menor que \exp (0.157) = 1.170) para saber se o outro lado tem carro quando as mulheres enviam mensagens para os homens, indicando que as mulheres prestam mais atenção que os homens para saber se o outro lado tem carro.
Um grau de outdegree do usuário quantifica a atividade do usuário. Parece que uma actividade elevada significa contactar muitos outros utilizadores, no entanto, essencialmente, pode implicar que os utilizadores invistam mais tempo e recursos na tentativa de encontrar potenciais parceiros. O outdegree é um atributo diferente para homens e mulheres. Quando uma mulher envia uma mensagem a um homem, o outdegree do outro lado é significativamente associado positivamente ao comportamento de mensagens, enquanto não quando um homem envia uma mensagem a uma mulher. Quando as mulheres enviam mensagens para os homens, as medidas de popularidade e actividade dos homens que contactam são significativamente associadas positivamente aos seus comportamentos de mensagens, mas quando os homens enviam mensagens para as mulheres, apenas as medidas de popularidade das mulheres que contactam são significativamente associadas positivamente aos seus comportamentos de mensagens.
Classificação de aprendizagem do conjunto
Com o advento da grande era dos dados, os métodos de classificação de aprendizagem do conjunto foram gradualmente introduzidos no campo da pesquisa de redes sociais. Já em 1996, Breiman propôs o método de ensacamento, e cinco anos mais tarde, ele propôs ainda o método de Floresta Aleatória. Freund propôs o método AdaBoost em 1997, e com a melhoria contínua dos classificadores da aprendizagem de máquinas, em 2016, Chen et al. propuseram um classificador-XGBoost , que pode melhorar muito a eficiência e precisão do algoritmo em alguns casos. Como uma aplicação, recentemente Reece et al. já aplicaram ferramentas de aprendizagem de máquinas para identificar depressão a partir de fotos Instagram .
Análise de regressão frequentemente tem certos requisitos sobre as variáveis independentes, tais como a ausência de multicolinearidade, porém métodos de classificação da aprendizagem em conjunto relaxam as restrições sobre as variáveis independentes. Nesta secção, os métodos de classificação da aprendizagem em conjunto incluindo ensacamento, Random Forest, AdaBoost e XGBoost são utilizados para avaliar a importância de cada atributo na Tabela 1. Utilizamos o pacote ‘adabag’ no software R para executar o AdaBoost e métodos de ensacamento, o pacote ‘randomForest’ para executar o método Random Forest e o pacote ‘xgboost’ para executar o método XGBoost. Para o conjunto de dados, a validação cruzada de 5 vezes é usada para avaliar o desempenho dos classificadores, e os parâmetros do algoritmo são escolhidos para obter a taxa de erro estável. Os números de mensagens enviadas e não enviadas são desequilibrados no conjunto de dados, e o conjunto maior é subamostragem aleatória para obter um conjunto do mesmo tamanho que o menor.
As taxas de erro de quatro métodos de classificação de aprendizagem de conjuntos são mostradas na Tabela 4. Descobrimos que as taxas de erro de Random Forest e AdaBoost são as mais baixas para as fêmeas que enviam mensagens para os machos, enquanto XGBoost é o mais baixo para os machos que enviam mensagens para as fêmeas. A classificação da importância dos atributos é mostrada nas Figs. 9 e 10. A Figura 9 mostra que quando as mulheres enviam mensagens para os homens, os três atributos mais importantes são os valores {pop}_mathit (3) e {pop}_mathit (1) para os homens, e o outdegree para as mulheres. Da mesma forma, a Fig. 10 mostra que quando os homens enviam mensagens às mulheres, os três atributos mais importantes são os valores da matemática e da matemática para as mulheres e o outdegree para os homens. Os fatores mais importantes que prevêem a decisão de enviar mensagens tanto de homens como de mulheres são os valores da matemática e da matemática, que representam a popularidade de potenciais companheiros, que também estão significativamente associados positivamente aos comportamentos de mensagens na regressão logística.
A finalidade da classificação de aprendizagem de conjuntos é diferente da análise de regressão logística. De acordo com as Figuras 9 e 10, os índices de centralidade mostram, de facto, a esmagadora importância, e as outras variáveis mostram a relativa falta de poder preditivo. Isto não significa, no entanto, que as outras variáveis sejam inúteis, podendo ainda estar significativamente associadas aos comportamentos de mensagens dos usuários na regressão logística.
Análise do comportamento estratégico
O conceito de comportamento estratégico deriva da economia, onde a implicação original é que as empresas tomam medidas que afetam o ambiente de mercado para aumentar os lucros (referindo-se à taxa de resposta das mensagens neste estudo), que é então estendida a problemas de correspondência, como a correspondência de pares.
Em nossa pesquisa, o comportamento estratégico refere-se a se um usuário enviará uma mensagem a outro usuário, dependendo se sua decisão pode aumentar a probabilidade de resposta da mensagem. Como sem dados de resposta do usuário, gostaríamos de usar índices de centralidade que caracterizam a popularidade do usuário para analisar se os usuários tendem a enviar mensagens para pessoas que são mais populares do que eles mesmos ou para aqueles que são menos populares. Nós estudamos o comportamento estratégico dos usuários analisando a correlação entre os índices de centralidade. Curvas de ajuste suavizantes para a correlação com o modelo aditivo generalizado mostram que existe uma relação não linear ou linear aproximada entre os índices de centralidade dos usuários (veja Figs. 5 e 6 no arquivo Adicional 1 para detalhes), assim usamos o coeficiente de correlação Spearman para caracterizar a correlação. Como mostrado nas Tabelas 5 e 6, verificamos que no site de encontros homens e mulheres mostram padrões de comportamento diferentes nas mensagens, apesar do custo reduzido da rejeição no ambiente da rede. Para homens que enviam mensagens para mulheres, existem correlações positivas fracas entre índices de centralidade, que podem ser caracterizados por pequenos coeficientes de correlação positivos e significativos, enquanto para mulheres que enviam mensagens para homens, existem correlações positivas fracas ou modestas entre índices de centralidade caracterizados por pequenos ou ligeiramente maiores coeficientes de correlação positivos e significativos. Os homens não apresentam um comportamento estratégico em grande medida ao enviar mensagens, enquanto para as mulheres, à medida que os seus índices de centralidade aumentam, os índices correspondentes dos homens que receberam as suas mensagens também podem aumentar.
Por meio do estudo das correlações entre os mesmos pares de índices de centralidade para os usuários, analisamos ainda se os usuários tendem a enviar mensagens para pessoas que são mais populares do que eles ou para aquelas que são menos populares. Para cada índice de centralidade dos remetentes, damos a média e o desvio padrão dos índices dos receptores correspondentes, e a proporção dos índices de centralidade dos receptores que são maiores que os dos remetentes nas Figs. 7 e 8 no arquivo adicional 1. Para cada índice de centralidade, a Tabela 7 apresenta a proporção dos índices de centralidade dos receptores que são maiores do que os dos remetentes ao enviar mensagens. Como comparação, também apresentamos os resultados aleatórios. Em comparação com os homens, mais mulheres tendem a enviar mensagens para pessoas que são mais populares do que elas mesmas.
Existiram vários estudos sobre o comportamento estratégico dos usuários no namoro online. Alguns estudos têm encontrado uma correlação positiva significativa entre a popularidade dos usuários masculinos e femininos. Por exemplo, a pesquisa de Taylor et al. sobre os usuários dos EUA mostrou que eles tendem a selecionar e ser selecionados por outros usuários cuja popularidade relativa é semelhante à sua, embora isso não signifique necessariamente uma maior taxa de sucesso, ou seja, receber mais respostas . Uma análise empírica recente de usuários em quatro cidades dos EUA a partir de um site de encontros on-line usou o PageRank para caracterizar sua conveniência, e descobriu que, tanto homens como mulheres enviavam mensagens para parceiros que são, em média, cerca de 25% mais desejáveis do que eles próprios . No entanto, há também alguns estudos que não encontraram correlação entre a popularidade dos usuários. Por exemplo, as pesquisas sobre usuários em Boston e San Diego não encontraram evidências de comportamento estratégico . Outra pesquisa sobre dados de encontros on-line de uma cidade de médio porte no sudoeste dos EUA revelou que, independentemente de seus próprios níveis de desejo que caracterizam a atratividade física, popularidade, personabilidade e recursos materiais dos usuários, tanto homens quanto mulheres tendem a enviar mensagens para os usuários mais desejáveis socialmente . Verificamos que usuários em diferentes plataformas ou em diferentes contextos culturais têm comportamentos estratégicos diferentes, e os mecanismos subjacentes ainda precisam ser mais explorados.