czwartek, 25 października 2012

Statystyka like a boss

W poprzedniej notce zahaczyliśmy lekko (nawet bardzo lekko) o statystykę. Statystyka jest jedynym sposobem, aby przekształcić nasze pipetowania, wirowania czy inkubacje w spójny wynik, który możemy przedstawić szerszej publiczności. Dodatkowo, rozmaite testy statystyczne pozwalają nam ustalić, czy nasze odkrycie jest w jakikolwiek sposób istotne.
Podstawowym narzędziem, jakiego używamy, jest język programowania R - open source'owa alternatywa dla STATISTIKI. Pierwsza wersja tego języka powstała w 2000 roku jako implementacja języka S, o którym nikt normalny nie słyszał, gdyż został on opracowany w roku 1976, czyli w czasach, kiedy komputery wyglądały w najlepszym wypadku tak:
(źródło - en.wikipedia.org)

W każdym razie, R ma wszystko, czego statystyczny statystyk (pun not intended) potrzebuje do szczęścia - bogaty wybór testów statystycznych, możliwość tworzenia filtrów, pętli oraz całkiem dobrze prezentujących się wykresów (swego czasu wzruszyłem się podczas konferencji naukowej Dzień Mózgu, widząc na czyjejś prezentacji stworzone za pomocą R wykresy). Poza tym, jako oprogramowanie typu open source, R jest całkowicie darmowy - wystarczy ściągnąć (tym bardziej, że już jutro premiera wersji 2.15.2).


Programowanie w R jest dosyć łatwe (jak na programowanie oczywiście) - wszelkie nasze pomyłki skutkują wyrzuceniem błędu lub ostrzeżenia, często ze wskazaniem części kodu odpowiedzialnej za błąd (aczkolwiek są wyjątki: wczoraj spędziłem pół wieczora, zastanawiając się z koleżanką, dlaczego w jej wykresie nie znika opis osi x - okazało się, że zamiast "xaxt='n'" napisała "xant='n'", o czym program nie poinformował, tylko po prostu zignorował ten parametr i wyświetlił wykres z opisem osi x). Pomoc do każdej funkcji możemy uzyskać, wpisując w konsolę ?nazwa_funkcji.

Zaczątki pętlowej Incepcji - pętla if wewnątrz pętli while. 

Przykładowy wykres.


R obsługuje pliki w formacie .csv, wbudowane jest wiele testów statystycznych, a funkcjonalność poszerzają liczne dodatkowe biblioteki dostępne w internecie (instalacja jest prosta: wpisujemy install.packages("nazwa_biblioteki"), następnie wybieramy serwer, z którego chcemy pobrać pakiet (znajomość stref czasowych jest przydatna - wybieramy serwer znajdujący się w miejscu, gdzie internauci akurat śpią) i pamiętamy, żeby przed użyciem komendy oferowanej przez daną bibliotekę uruchomić ją komendą library("nazwa_biblioteki")). Niestety, biblioteki nie są kompatybilne z polską wersją programu, jednak język można dość łatwo zmienić.

Początkującym statystykom polecam szczególnie zainstalować pakiet nortest, zawierający test Andersona-Darlinga (ad.test), dzięki czemu nie będziemy skazani na niedokładności testu Kołmogorowa-Smirnova (ks.test).

Podsumowując, R jest stosunkowo prostym (jestem w stanie posługiwać się nim w miarę biegle, mimo, że jedyne lekcje programowania przed studiami zaliczyłem na kółku informatycznym w podstawówce/gimnazjum w programie LOGO, w czasach Windowsa 95/98, dyskietek i dinozaurów czających się w drodze do szkoły), łatwo dostępnym (wystarczy dostęp do internetu, choćby Twoje laboratorium znajdowało się w Ugandzie) i, co najważniejsze, szczególnie dla młodych naukowców, darmowym programem, oferującym szeroką gamę możliwości.





Brak komentarzy:

Prześlij komentarz

Za obraźliwe, wulgarne i reklamowe komentarze dziękujemy :)