Odchylenie standardowe to pojęcie, które często pojawia się w finansach.
Więc co to jest?
Pracując ze zbiorem danych ilościowych, jedną z pierwszych rzeczy, które chcemy wiedzieć, jest to, jak wygląda „typowy” element zbioru lub gdzie znajduje się środek zbioru.
Dokonujemy tego, znajdując średnią lub medianę, lub inną pokrewną miarę średniej.
Ale znajomość środka zbioru nie mówi nam wszystkiego. Chcemy również wiedzieć więcej o ogólnym kształcie naszych danych.
Odchylenie standardowe jest miarą tego, jak bardzo rozłożony jest zbiór danych. Jest ono używane w ogromnej liczbie zastosowań. W finansach, odchylenia standardowe danych cenowych są często używane jako miara zmienności. W badaniach opinii publicznej, odchylenia standardowe są kluczową częścią obliczania marginesów błędu.
Po pierwsze, spójrzmy na to, co mierzy odchylenie standardowe.
Rozważmy dwie małe firmy zatrudniające po czterech pracowników. W jednej z nich dwóch pracowników zarabia 19 dolarów za godzinę, a dwóch pozostałych 21 dolarów. W drugiej firmie dwóch pracowników zarabia 15 dolarów za godzinę, jeden zarabia 24 dolary, a ostatni 26 dolarów:
W obu firmach średnia płaca wynosi 20 dolarów za godzinę, ale rozkład płac godzinowych jest wyraźnie inny. W firmie A płace wszystkich czterech pracowników są ściśle skupione wokół tej średniej, podczas gdy w firmie B istnieje duża rozpiętość między dwoma pracownikami zarabiającymi 15 dolarów a pozostałymi dwoma pracownikami.
Odchylenie standardowe jest miarą tego, jak daleko poszczególne pomiary mają tendencję do bycia od średniej wartości zestawu danych. Odchylenie standardowe pracowników firmy A wynosi 1, podczas gdy odchylenie standardowe płac firmy B wynosi około 5. Ogólnie rzecz biorąc, im większe jest odchylenie standardowe zbioru danych, tym bardziej rozproszone są poszczególne punkty w tym zbiorze.
Technicznie jest to bardziej skomplikowane
Techniczna definicja odchylenia standardowego jest nieco skomplikowana. Po pierwsze, dla każdej wartości danych, dowiedzieć się, jak daleko wartość jest od średniej, biorąc różnicę wartości i średniej. Następnie, kwadrat wszystkich tych różnic. Następnie weź średnią z tych kwadratowych różnic. Wreszcie, weź pierwiastek kwadratowy z tej średniej.
Powód, dla którego przechodzimy przez tak skomplikowany proces, aby zdefiniować odchylenie standardowe, jest taki, że środek ten pojawia się jako parametr w wielu formułach statystycznych i probabilistycznych, w szczególności w rozkładzie normalnym.
Rozkład normalny jest niezwykle ważnym narzędziem w statystyce. Kształt rozkładu normalnego to krzywa w kształcie dzwonu, jak ta na obrazku.
Ta krzywa pokazuje, z grubsza rzecz biorąc, jak prawdopodobne jest, że proces losowy podążający za rozkładem normalnym przybierze konkretną wartość wzdłuż osi poziomej. Wartości w pobliżu szczytu, gdzie krzywa jest najwyższa, są bardziej prawdopodobne niż wartości dalej, gdzie krzywa jest bliżej osi poziomej.
Rozkłady normalne pojawiają się w sytuacjach, w których istnieje duża liczba niezależnych, ale podobnych zdarzeń losowych występujących. Rzeczy takie jak wysokość ludzi w danej populacji mają tendencję do podążania za rozkładem normalnym.
Odchylenia standardowe są tutaj ważne, ponieważ kształt krzywej normalnej jest określany przez jej średnią i odchylenie standardowe. Średnia mówi, gdzie powinna znajdować się środkowa, najwyższa część krzywej. Odchylenie standardowe mówi, jak chuda lub szeroka będzie krzywa. Jeśli znasz te dwie liczby, wiesz wszystko, co musisz wiedzieć o kształcie swojej krzywej.
Odwracając ten pomysł, rozkłady normalne dają nam również dobry sposób na interpretację odchyleń standardowych. W każdym rozkładzie normalnym, istnieją stałe prawdopodobieństwa dla przedziałów wokół średniej, oparte na wielokrotności odchylenia standardowego rozkładu.
W szczególności, około dwie trzecie pomiarów normalnie rozłożonej wielkości powinno mieścić się w jednym odchyleniu standardowym od średniej, 95% pomiarów w dwóch odchyleniach standardowych od średniej i 99.7% w granicach trzech odchyleń standardowych od średniej.
Ta ilustracja krzywej normalnej wymienia te wartości:
Załóżmy, że istnieje standaryzowany test, do którego przystępują setki tysięcy studentów. Jeśli pytania w teście są dobrze zaprojektowane, wyniki uczniów powinny mieć z grubsza rozkład normalny. Powiedzmy, że średni wynik testu wynosi 100, z odchyleniem standardowym 10 punktów. Reguła wspomniana powyżej oznacza, że około dwie trzecie studentów powinno mieć wyniki pomiędzy 90 a 110, 95% studentów powinno mieć wyniki pomiędzy 80 a 120, a prawie wszyscy studenci – 99,7% – powinni mieć wyniki w granicach trzech odchyleń standardowych od średniej.
Czy są jakieś pytania?
.