Woorden beschrijven
Het idee voor de engine voor woorden beschrijven ontstond toen ik bezig was met het bouwen van de engine voor verwante woorden (het is net een thesaurus, maar geeft je een veel bredere set verwante woorden, in plaats van alleen synoniemen). Terwijl ik aan het spelen was met woordvectoren en de “HasProperty” API van conceptnet, had ik een beetje plezier in het proberen te achterhalen van de bijvoeglijke naamwoorden die gewoonlijk een woord beschrijven. Uiteindelijk realiseerde ik me dat er een veel betere manier is om dit te doen: parseer boeken!
Project Gutenberg was het aanvankelijke corpus, maar de parser werd gulziger en gulziger en ik eindigde met het voeden van ergens rond de 100 gigabytes aan tekstbestanden – voornamelijk fictie, inclusief veel hedendaagse werken. De parser kijkt gewoon door elk boek en haalt er de verschillende beschrijvingen van zelfstandige naamwoorden uit.
Hooplijk is het meer dan een nieuwigheid en zullen sommige mensen het daadwerkelijk nuttig vinden voor hun schrijven en brainstormen, maar een leuk klein ding om te proberen is om twee zelfstandige naamwoorden te vergelijken die op elkaar lijken, maar op een belangrijke manier verschillen – bijvoorbeeld, geslacht is interessant: “vrouw” versus “man” en “jongen” versus “meisje”. Bij een eerste snelle analyse blijkt dat auteurs van fictie vrouwen (in tegenstelling tot mannen) minstens 4x zo vaak beschrijven met termen die met schoonheid te maken hebben (over hun gewicht, gelaatstrekken en algemene aantrekkelijkheid). In feite is “mooi” waarschijnlijk het meest gebruikte bijvoeglijk naamwoord voor vrouwen in alle literatuur ter wereld, wat in overeenstemming is met de algemene eendimensionale voorstelling van vrouwen in veel andere mediavormen. Als iemand hier verder onderzoek naar wil doen, laat het me weten en ik kan je veel meer gegevens geven (er zijn bijvoorbeeld ongeveer 25000 verschillende vermeldingen voor “vrouw” – te veel om hier te laten zien).
De blauwheid van de resultaten vertegenwoordigt hun relatieve frequentie. U kunt de muis een seconde over een item laten zweven en de frequentiescore wordt zichtbaar. De “uniciteit” sortering is standaard, en dankzij mijn Ingewikkelde Algoritme™, worden ze gesorteerd op de uniciteit van de bijvoeglijke naamwoorden voor dat bepaalde zelfstandig naamwoord ten opzichte van andere zelfstandige naamwoorden (het is eigenlijk vrij eenvoudig). Zoals je zou verwachten, kun je op de knop “Sorteer op gebruiksfrequentie” klikken om bijvoeglijke naamwoorden te sorteren op hun gebruiksfrequentie voor dat zelfstandig naamwoord.