Metodická príručka "Štatistická analýza a vizualizácia dát pomocou R". Metodická príručka "Štatistická analýza a vizualizácia dát s R" Čo potrebujete vedieť, aby ste si mohli kurz vypočuť

Program kurzu

Prvky programovania v R

  • Opisná štatistika a vizualizácia
  • Čo je napríklad dôležitejšie: priemerná kontrola alebo typická kontrola?

zhluková analýza

  • Aký problém sa rieši. Rozdeľte skupinu objektov do podskupín.
  • Príklad úlohy. Segmentácia lokalít, identifikácia podobných lokalít.
  • Študované metódy. Hierarchická zhluková analýza, metóda k-means, metóda k-medoid.

Testovanie štatistických hypotéz

  • Aký problém sa rieši. Porovnajte dve skupiny predmetov.
  • Príklad úlohy. A/B testovanie správania používateľov je zapnuté rôzne verzie stránky lokality.
  • Študované metódy. Proporčný test, Studentov t-test, Levineov t-test, Wilcoxon-Mann-Whitney test

Lineárna regresná analýza.

  • Príklad úlohy. Odhadnite, o koľko klesli ceny ojazdených áut po zvýšení ciel.
  • Študované metódy. Výber premenných, kolinearita, vplyvné pozorovania, reziduálna analýza. Neparametrická regresia (vyhladzovanie jadra). Predpovedanie krátkych sérií so sezónnou zložkou pomocou lineárnej regresie

Predpovedanie

  • Aký problém sa rieši. Zostavte predpoveď časových radov
  • Príklad úlohy. Predpovedajte návštevnosť stránok na 6 mesiacov vopred.
  • študovaná metóda. Exponenciálne vyhladzovanie

Strojové učenie (rozpoznávanie vzorov)

  • Príklad úlohy. Rozpoznajte pohlavie a vek každého návštevníka stránky
  • Študované metódy. k-najbližší sused metóda klasifikačných stromov (CART). Náhodné lesy. stroj na zvyšovanie gradientu

Známky kurzu

Študenti dostanú 14 laboratórne práce. Známka za kurz je stanovená podľa nasledujúceho pravidla:

  • Vynikajúce - všetky práce sú pripísané;
  • Dobre - všetky práce boli pripísané, okrem jedného?;
  • Uspokojivé - všetky práce okrem dvoch boli uznané;
  • Nevyhovujúce - v iných prípadoch.

Laboratórna práca je

  • poslucháč dostane súbor údajov a otázku;
  • poslucháč odpovie na otázku, pričom svoje tvrdenia podloží tabuľkami, grafmi a písmom napísaným v jazyku R;
  • poslucháč odpovedá na doplňujúce otázky.

Príklad otázky. Navrhnite parametre, ktoré zabezpečia optimálny výkon algoritmu Random Forest pri rozpoznávaní značky vína na základe výsledkov chemickej analýzy.

Čo potrebujete vedieť na absolvovanie kurzu

Predpokladá sa, že účastníci kurzu už absolvovali kurz teórie pravdepodobnosti.

Literatúra

  • Shipunov, Baldin, Volkova, Korobeinikov, Nazarova, Petrov, Sufiyanov Vizuálne štatistiky. Pomocou R
  • Mastitsky, Shitikov Štatistická analýza a vizualizácia dát pomocou R
  • Rozpoznávanie biskupských vzorov a strojové učenie.
  • James, Witten, Hastie, Tibshirani. Úvod do štatistického učenia. S aplikáciami v R.
  • Hastie, Tibshirani, Friedman. Prvky štatistického učenia_ data mining, Inferencia a Predikcia 2+ed
  • Crawley. Kniha R.
  • Kabacoff R v akcii. Analýza údajov a grafika s R.

učitelia

Zoznam prednášok

Úvod do R: základné príkazy. Medián, kvantily a kvartily. Stĺpcový graf. Stĺpcový graf. Koláčový graf. Rozptylový diagram. Matica bodového grafu. Použitie farby v tabuľke. Krabice s fúzmi (krabicový diagram). Typické pozorovanie vzorky: aritmetický priemer, medián alebo skrátený priemer. Výber metódy na opis typickej hodnoty, ktorá je adekvátna analyzovaným údajom. lognormálne rozdelenie. Emisie a extrémne pozorovania.

Hierarchická zhluková analýza. Zhluk, vzdialenosti medzi objektmi, vzdialenosti medzi zhlukami. Algoritmus na zostavenie dendrogramu. Scree/Lakte. Štandardizácia údajov. Typické chyby pri príprave údajov. Interpretácia výsledkov.

metóda k-means. Senzory s náhodným počtom, zrno senzora. Vizualizácia algoritmu k-means. Metódy na určenie počtu zhlukov. Knižnica NbClust. Scree/Lakte. Viacrozmerné škálovanie pre vizualizáciu zhlukov.

Testovanie štatistických hypotéz. Hypotézy zhody, homogenity, nezávislosti, hypotézy o distribučných parametroch.

Testovanie štatistických hypotéz. Chyby prvého a druhého druhu, p-hodnota a hladina významnosti, algoritmus na testovanie štatistickej hypotézy a interpretácia výsledkov. Hypotéza normálneho rozdelenia. Kritériá Shapiro-Wilk a Kolmogorov-Smirnov. Drobné odchýlky od normálnosti. Porovnanie vzoriek. Nezávislé a spárované vzorky. Voľba medzi Studentovým t-testom, Mann-Whitney-Wilcoxonovým testom a Moodovým testom. Odrody Studentových t-testov a porovnanie rozptylov. Vizualizácia v porovnaní. Jednostranné a obojstranné testy.

Testovanie štatistických hypotéz. Porovnanie vzoriek. Nezávislé a spárované vzorky. Voľba medzi Studentovým t-testom, Mann-Whitney-Wilcoxonovým testom a Moodovým testom. Odrody Studentových t-testov a porovnanie rozptylov. Vizualizácia v porovnaní. Jednostranné a obojstranné testy. Nezávislosť. Pearsonove, Kendallove a Spearmanove korelačné koeficienty, typické chyby pri štúdiu vzťahu dvoch javov. Vizuálna kontrola záverov.

Lineárna regresná analýza Model, interpretácia odhadov koeficientov, viacnásobný koeficient determinácie. Výklad viacnásobného koeficientu determinácie, obmedzenia rozsahu jeho aplikácie. Identifikácia najvýznamnejších prediktorov a posúdenie prínosu každého prediktora. Algoritmy na opravu zostrojených modelov. Kolinearita.

Lineárna regresná analýza: Predpovedanie krátkych časových radov.

Prognóza založená na regresnom modeli so sezónnymi ukazovateľmi (fiktívne, štrukturálne) premenné. Trend, sezónne komponenty, zmena série, odľahlé hodnoty. Logaritmus je technika na premenu multiplikatívnej sezónnosti na aditívum. indikátorové premenné. Rekvalifikácia.

Lineárna regresia - reziduálna analýza. Porušenie modelových obmedzení Gaussovej-Markovovej vety. Analýza rezíduí. Chyba špecifikácie. Multikolinearita, tolerancia a VIF. Kontrola stálosti rozptylov zvyškov. Korekcia modelov v prítomnosti odchýlok v rozdelení rezíduí od normality. Vzdialenosť varenia a pákový efekt. Štatistika Durbin-Watson. Zníženie počtu sezónnych úprav.

Exponenciálne vyhladzovanie Holt metóda „a-Winters“. Miestny trend, lokálna sezónnosť.

Terminológia: strojové učenie, umelá inteligencia, dolovanie údajov a rozpoznávanie vzorov.

metóda k-tého najbližšieho suseda. Konzistentnosť metódy. Lazy learning (lenivé učenie). Výber funkcií. Krížová validácia. k-násobná krížová validácia. Nadmerné nasadenie (nadmerné uloženie). Tréningové a testovacie súpravy.

metóda k-tého najbližšieho suseda Príklady. Určenie počtu najbližších susedov. Kontingenčná tabuľka na určenie kvality metódy.

Stromy klasifikácie CART. Geometrické znázornenie. Reprezentácia ako súbor logických pravidiel. Reprezentácia stromu. Uzly, rodičia a deti, koncové uzly. Prahové hodnoty. knižnica rpart. Opatrenia nečistôt v uzle. Metódy merania čistoty: Gini, entropia, chyby klasifikácie. Pravidlá pre zastavenie učiaceho sa stromu. knižnica rpart.plot.

Minule (v novembri 2014; veľmi sa hanbím, že mi to pokračovanie trvalo tak dlho!) som hovoril o základných vlastnostiach jazyka R. Napriek prítomnosti všetkých obvyklých riadiacich konštruktov, ako sú slučky a podmienené bloky, klasický prístup k spracovaniu údajov založený na iterácii má ďaleko Najlepšie rozhodnutie, keďže cykly v R mimoriadne pomaly. Teraz vám teda prezradím, ako vlastne s dátami pracovať, aby vás proces výpočtu nenútil vypiť priveľa šálok kávy v očakávaní výsledku. Okrem toho strávim nejaký čas rozprávaním o tom, ako používať moderné nástroje na vizualizáciu dát v R. Pretože pohodlnosť prezentácie výsledkov spracovania dát v praxi nie je o nič menej dôležitá ako samotné výsledky. Začnime jednoducho.

Vektorové operácie

Ako si pamätáme, základný typ v R vôbec nie je číslo, ale vektor a základné aritmetické operácie pôsobia na vektory prvok po prvku:

> x<- 1:6; y <- 11:17 >x + y 12 14 16 16 18 20 22 18 18> x> 2 False False True True True True True> x * y 11 24 39 56 75 96 17> X / y 0,09090909 0,16666666666666666666666666666666666666666666666666666923

Všetko je tu celkom jednoduché, ale je celkom logické položiť si otázku: čo sa stane, ak sa dĺžka vektorov nezhoduje? Ak povedzme napíšeme k<- 2, то будет ли x * k соответствовать умножению вектора на число в математическом смысле? Короткий ответ - да. В более общем случае, когда длина векторов не совпадает, меньший вектор просто продолжается повторением:

>z<- c(1, 0.5) >x * z 1 1 3 2 5 3

To isté platí pre matriky.

> x<- matrix(1:4, 2, 2); y <- matrix(rep(2,4), 2, 2) >x * y [,1] [,2] 2 6 4 8 > x / y [,1] [,2] 0,5 1,5 1,0 2,0

V tomto prípade bude „normálne“ a nie bitové násobenie matice vyzerať takto:

> x %*% y [,1] [,2] 8 8 12 12

To všetko je, samozrejme, veľmi dobré, ale čo robiť, keď potrebujeme aplikovať vlastné funkcie na prvky vektorov alebo matíc, teda ako sa to dá urobiť bez slučky? Prístup, ktorý R používa na riešenie tohto problému, je veľmi podobný tomu, na čo sme zvyknutí vo funkcionálnych jazykoch – všetko to pripomína funkciu mapy v Pythone alebo Haskellu.

Užitočná funkcia lapply a jeho priatelia

Prvou funkciou v tejto rodine je lapply. Umožňuje vám aplikovať danú funkciu na každý prvok zoznamu alebo vektora. Navyše výsledkom bude presne zoznam, bez ohľadu na typ argumentu. Najjednoduchší príklad použitia funkcií lambda:

> q<- lapply(c(1,2,4), function(x) x^2) >q 1 4 16

Ak funkcia, ktorá sa má použiť na zoznam alebo vektor, vyžaduje viac ako jeden argument, potom tieto argumenty možno odovzdať cez lapply .

> q<- lapply(c(1,2,4), function(x, y) x^2 + y, 3)

So zoznamom funguje funkcia podobným spôsobom:

> x<- list(a=rnorm(10), b=1:10) >lapply(x, mean)

Tu funkcia rnorm špecifikuje normálne rozdelenie (v tomto prípade desať normálne rozdelených čísel medzi 0 a 1) a stredná hodnota vypočítava priemer. Funkcia sapply je úplne rovnaká ako funkcia lapply, až na to, že sa snaží zjednodušiť výsledok. Ak má napríklad každý prvok zoznamu dĺžku 1, namiesto zoznamu sa vráti vektor:

> sapply(c(1,2,4), funkcia(x) x^2) 1 4 16

Ak je výsledkom zoznam vektorov rovnakej dĺžky, funkcia vráti maticu, ak nič nie je jasné, potom iba zoznam, napríklad lapply .

> x<- list(1:4, 5:8) >sapply(x, funkcia(x) x^2) [,1] [,2] 1 25 4 36 9 49 16 64

Na prácu s maticami je vhodné použiť funkciu Apply:

> x<- matrix(rnorm(50), 5, 10) >použiť(x, 2, stredná hodnota) > použiť(x, 1, súčet)

Tu najprv vytvoríme maticu piatich riadkov a desiatich stĺpcov, potom najprv vypočítame priemer stĺpcov a potom súčet riadkov. Pre dokreslenie je potrebné poznamenať, že úlohy výpočtu priemeru a súčtu v riadkoch sú také bežné, že R poskytuje na tento účel špeciálne funkcie rowSums , rowMeans , colSums a colMeans .
Funkciu Apply možno použiť aj pre viacrozmerné polia:

> arr<- array(rnorm(2 * 2 * 10), c(2, 2, 10)) >použiť(arr, c(1,2), priemer)

Posledné volanie možno nahradiť čitateľnejšou verziou:

> rowMeans(arr, dim = 2)

Prejdime k funkcii mapply, čo je viacrozmerný analóg lapply . Začnime jednoduchým príkladom, ktorý nájdete priamo v štandardnej dokumentácii R:

> mapply(rep, 1:4, 4:1) 1 1 1 1 2 2 2 3 3 4

Ako môžete vidieť, tu aplikujeme funkciu rep na množinu parametrov, ktoré sú generované z dvoch sekvencií. Samotná funkcia rep jednoducho zopakuje prvý argument toľkokrát, koľkokrát je uvedený ako druhý argument. Takže predchádzajúci kód je jednoducho ekvivalentný nasledujúcemu:

> zoznam(rep(1,4), rep(2,3), rep(3,2), rep(4,1))

Niekedy je potrebné aplikovať funkciu na niektorú časť poľa. To je možné vykonať pomocou funkcie tapply. Uvažujme o nasledujúcom príklade:

> x<- c(rnorm(10, 1), runif(10), rnorm(10,2)) >f<- gl(3,10) >tapply(x,f,mean)

Najprv vytvoríme vektor, z ktorého sú vytvorené časti náhodné premenné s iným rozdelením potom vygenerujeme vektor faktorov, čo nie je nič viac ako desať jednotiek, potom desať dvojok a rovnaký počet trojok. Potom vypočítame priemer pre zodpovedajúce skupiny. Predvolená funkcia tapply sa snaží zjednodušiť výsledok. Túto voľbu je možné vypnúť zadaním simplify=FALSE ako parameter.

> tapply(x, f, range, simplify=FALSE)

Keď sa hovorí o funkciách aplikácie, zvyčajne sa hovorí aj o funkcii split, ktorá rozdeľuje vektor na časti, podobne ako tapply . Ak teda zavoláme split(x, f), dostaneme zoznam troch vektorov. Takže pár lapply / split funguje rovnako ako tapply so simplify nastaveným na FALSE:

> lapply(split(x, f), mean)

Funkcia split je užitočná aj mimo práce s vektormi: dá sa použiť aj na prácu s dátovými rámcami. Uvažujme o nasledujúcom príklade (požičal som si ho z kurzu programovania R od Coursery):

> knižnica (súbory údajov) > hlava (kvalita vzduchu) Ozón Slnečné žiarenie. R Teplota vetra Mesiac Deň 1 41 190 7,4 67 5 1 2 36 118 8,0 72 5 2 3 12 149 12,6 74 5 3 4 18 313 35 NA 56 5 5 6 28 NA 14,9 66 5 6 > s<- split(airquality, airquality$Month) >lapply(s, function(x) colMeans(x[, c("Ozón", "Solar.R", "Wind")]))

Tu pracujeme s datasetom, ktorý obsahuje informácie o stave ovzdušia (ozón, slnečné žiarenie, vietor, teplota vo stupňoch Fahrenheita, mesiac a deň). Mesačné priemery môžeme jednoducho vykazovať pomocou split a lapply, ako je uvedené v kóde. Použitie sapply nám však poskytne pohodlnejší výsledok:

> sapply(s, function(x) colMeans(x[, c("Ozón", "Solar.R", "Wind")])) 5 6 7 8 9 Ozón NA NIE NA NA NE NA NA Solar.R NA 190.16667 216.483871 NA 167,4333 Vietor 11,62258 10,26667 8,941935 8,793548 10,1800

Ako vidíte, niektoré hodnoty veličín nie sú definované (a používa sa na to rezervovaná hodnota NA). To znamená, že niektoré (aspoň jedna) hodnoty v stĺpcoch Ozone a Solar.R tiež neboli definované. V tomto zmysle sa funkcia colMeans správa celkom správne: ak existujú nejaké nedefinované hodnoty, potom je stredná hodnota nedefinovaná. Problém je možné vyriešiť prinútením funkcie ignorovať hodnoty NA s parametrom na.rm=TRUE:

>sapply(s, function(x) colMeans(x[, c("Ozón", "Solar.R", "Wind")], na.rm=TRUE)) 5 6 7 8 9 Ozón 23.61538 29.44444 59.115385 59.961548 38 Solar.R 181,29630 190,16667 216,483871 171,857143 167,43333 Vietor 11,62258 10,26667 8,941935 8,7935800 10,1

Prečo potrebujeme toľko funkcií na riešenie veľmi podobných úloh? Myslím, že takúto otázku si položí každý druhý človek, ktorý toto všetko čítal. Všetky tieto funkcie sa vlastne snažia vyriešiť problém spracovania vektorových dát bez použitia slučiek. Jedna vec je však dosiahnuť vysokú rýchlosť spracovania a úplne iná je získať aspoň časť flexibility a kontroly, ktorú takéto riadiace konštrukcie, ako sú slučky a podmienené príkazy, poskytujú.

Vizualizácia údajov

Systém R je nezvyčajne bohatý na nástroje na vizualizáciu dát. A tu stojím pred ťažkou voľbou – o čom sa baviť, keď je plocha taká veľká. Ak v prípade programovania existuje nejaká základná množina funkcií, bez ktorej sa nič nezaobíde, tak vo vizualizácii existuje obrovské množstvo rôznych úloh a každá z nich (spravidla) sa dá riešiť viacerými spôsobmi, každá z nich čo má svoje pre a proti. Okrem toho vždy existuje veľa možností a balíkov, ktoré vám umožňujú vyriešiť tieto problémy rôznymi spôsobmi.
O štandardných rendereroch v R sa toho popísalo veľa, preto by som tu rád hovoril o niečom zaujímavejšom. V posledných rokoch sa balíček teší čoraz väčšej obľube. ggplot2, porozprávajme sa o ňom.

Ak chcete začať s ggplot2, musíte nainštalovať knižnicu pomocou príkazu install.package("ggplot2"). Ďalej ho pripojíme na použitie:

> library("ggplot2") > hlava(diamanty) karátový výbrus farba čistota hĺbka tabuľka cena x y z 1 0,23 Ideal E SI2 61,5 55 326 3,95 3,98 2,43 2 0,21 Premium E SI1 59,8 61 326 385 Dobrý 4,07 2,31 4 0,29 Premium I vs2 62,4 58 334 4.20 4.23 2,63 5 0,31 Good J SI2 63,3 58 335 4,35 4,75 6,75 6 0,24 Veľmi dobrý J VVS2 62,8 3,94 3,48> HEAD (MTCARS) 110 3,90 2,620 16,46 0 1 4 4 Mazda RX4 WAG 21,0 6 160 110 3,9 2,875 17,02 0 1 4 DATSUN 710 22,8 4 108 93 3,85 2,320 18,61 1 4 1 HORNET 4 Drive 68 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 110 3,08 3,215 19,44 1 0 3 1 srdet Sportabout 18,7 8 360 175 3,15 3,440 17,02 0 0 0 3 2 2 225 105 2,76 3,460

Údaje diamantov a mtcars sú súčasťou balíka ggplot2 a sú tým, s čím teraz budeme pracovať. Pri prvom je všetko jasné - sú to údaje o diamantoch (čistota, farba, cena atď.) a druhým súborom sú údaje o cestných testoch (počet kilometrov na galón, počet valcov ...) automobilov z rokov 1973-1974 z amerického magazínu Motor Trends . Viac informácií o údajoch (napríklad rozmer) získate zadaním?diamonds alebo?mtcars .

Pre vizualizáciu poskytuje balík mnoho funkcií, z ktorých bude teraz pre nás najdôležitejší qplot. Funkcia ggplot vám dáva oveľa väčšiu kontrolu nad procesom. Všetko, čo sa dá urobiť pomocou qplot, sa dá urobiť aj pomocou ggplot. Zvážte to jednoduchý príklad:

> qplot(jasnosť, údaje=diamanty, výplň=rez, geom="bar")

Rovnaký efekt možno dosiahnuť pomocou funkcie ggplot:

> ggplot(diamanty, aes(jasnosť, výplň=rez)) + geom_bar()

Volanie qplot však vyzerá jednoduchšie. Na obr. 1 je vidieť, ako sa buduje závislosť počtu diamantov s rôznou kvalitou výbrusu (brusu) od čistoty (čírosti).

Teraz postavme závislosť počtu najazdených kilometrov na jednotku paliva automobilov od ich hmotnosti. Výsledný bodový graf (alebo bodový graf bodový diagram) je zastúpený
na obr. 2.

> qplot(wt, mpg, data=mtcars)

Môžete tiež pridať farebné zobrazenie času zrýchlenia štvrť míle (qsec):

> qplot(wt, mpg, data=mtcars, color=qsec)

Pri vizualizácii môžete tiež transformovať údaje:

> qplot(log(wt), mpg - 10, data=mtcars)

V niektorých prípadoch vyzerá diskrétne rozdelenie farieb reprezentatívnejšie ako súvislé. Napríklad, ak chceme namiesto času zrýchlenia farebne zobraziť informáciu o počte valcov, potom musíme uviesť, že hodnota je diskrétna (obr. 3):

> qplot(wt, mpg, data=mtcars, color=factor(cyl))

Veľkosť bodov môžete zmeniť aj pomocou napríklad size=3 . Ak sa chystáte tlačiť grafy na čiernobielej tlačiarni, potom je lepšie nepoužívať farby, ale namiesto toho zmeniť tvar značky v závislosti od faktora. Dá sa to dosiahnuť nahradením color=factor(cyl) za shape=factor(cyl) .
Typ grafu sa určuje pomocou parametra geom a v prípade bodových grafov je hodnota tohto parametra "body" .

Teraz povedzme, že chceme vytvoriť histogram počtu áut so zodpovedajúcou hodnotou valca:

> qplot(factor(cyl), data=mtcars, geom="bar") > qplot(factor(cyl), data=mtcars, geom="bar", color=factor(cyl)) > qplot(factor(cyl) , data=mtcars, geom="bar", fill=factor(cyl))

Prvé volanie jednoducho nakreslí tri histogramy pre rôzne hodnoty valca. Musím povedať, že prvý pokus o zafarbenie histogramu nepovedie k očakávanému výsledku - čierne pruhy budú stále čierne, získajú iba farebný obrys. Ale posledné volanie qplot vytvorí krásny histogram, ako je znázornené na obr. 4.

Tu by malo byť jasno. Faktom je, že súčasný objekt, ktorý sme postavili, nie je histogramom v prísnom zmysle slova. Zvyčajne sa histogram chápe ako podobné zobrazenie pre spojité údaje. V angličtine stĺpcový graf(to je to, čo sme práve urobili) a histogram sú dva rôzne pojmy (pozri príslušné články na Wikipédii). Tu s istou vážnosťou použijem slovo „histogram“ pre oba pojmy a verím, že samotná povaha údajov hovorí sama za seba.

Ak sa vrátime k obr. 1, ggplot2 poskytuje niekoľko užitočných možností pre umiestnenie grafu (predvolená hodnota je position="stack"):

> qplot(jasnosť, údaje=kosoštvorce, geom="bar", výplň=rez, poloha="úskok") > qplot(jasnosť, údaje=kosočtverce, geom="pruh", výplň=rez, poloha="výplň") > qplot(jasnosť, údaje=diamanty, geom="bar", fill=cut, position="identity")

Prvá z navrhovaných možností vytvára diagramy vedľa seba, ako je znázornené na obr. 5, druhý ukazuje podiel diamantov rôznej kvality brusu na celkovom počte diamantov danej čírosti (obr. 6).

Teraz zvážte príklad skutočného histogramu:

> qplot(karáty, údaje=diamanty, geom="histogram", šírka pásma=0,1) > qplot(karáty, údaje=diamanty, geom="histogram", šírka pásma=0,05)

Tu parameter šírky pásma len ukazuje, aké široké je pásmo v histograme. Histogram ukazuje, koľko údajov je v ktorom rozsahu. Výsledky sú uvedené na obr. 7 a 8.

Niekedy, keď potrebujeme zostaviť model (lineárny alebo, povedzme, polynóm), môžeme to urobiť priamo v qplot a vidieť výsledok. Napríklad môžeme vyniesť mpg verzus hmotnosť wt priamo na bodový graf:

> qplot(wt, mpg, data=mtcars, geom=c("point", "smooth"))

Štandardne sa ako model použije lokálna polynomická regresia (method="spraš"). Výsledok práce bude vyzerať ako na obr. 9, kde tmavosivý pruh predstavuje štandardnú chybu. Štandardne sa zobrazuje, jeho zobrazenie môžete vypnúť napísaním se=FALSE .

Ak sa chceme pokúsiť natiahnuť lineárny model na tieto dáta, tak to možno urobiť jednoduchým zadaním method=lm (obr. 10).

A nakoniec, samozrejme, musíte ukázať, ako vytvoriť koláčové grafy:

>t<- ggplot(mtcars, aes(x=factor(1), fill=factor(cyl))) + geom_bar(width=1) >t + coord_polar(theta="y")

Tu použijeme flexibilnejšiu funkciu ggplot. Funguje to takto: najprv zostavíme graf, ktorý zobrazuje podiel áut s rôznym počtom valcov na celkovej hmotnosti (obr. 11), potom graf preložíme do polárnych súradníc (obr. 12).

Namiesto záveru

Teraz sme sa naučili používať R. Čo bude ďalej? Je jasné, že sú tu uvedené najzákladnejšie vlastnosti ggplot2 a zvažujú sa otázky súvisiace s vektorizáciou. Existuje niekoľko dobrých kníh o R, ktoré stoja za zmienku a určite stoja za konzultáciu viac ako služby korporácie s veľmi obsedantnou láskavosťou. Po prvé, je tu kniha Normana Matloffa The Art of R Programming. Ak už máte skúsenosti s programovaním v R, potom vám príde vhod The R Inferno, ktorého autorom je Patrick Burns. Klasická kniha Software for Data Analysis od Johna Chambersa je tiež celkom vhodná.

Ak hovoríme o vizualizácii v R, potom existuje dobrá kniha R Graphics Cookbook od W. Changa (Winston Chang). Príklady pre ggplot2 v tomto článku boli prevzaté z Tutoriálu: ggplot2 . Uvidíme sa v ďalšom článku „Analýza údajov a strojové učenie v R“!

"ŠTATISTICKÁ ANALÝZA A VIZUALIZÁCIA ÚDAJOV POMOCOU R trávy, ovocie lístie Heidelberg - Londýn - Togliatti 2014,..."

-- [ Strana 1 ] --

S.E. Mastitsky, V.K. Šitikov

ŠTATISTICKÁ ANALÝZA A

VIZUALIZÁCIA ÚDAJOV S R

tráva korene ovocie lístie

Heidelberg – Londýn – Tolyatti

2014, Sergey Eduardovič Mastitsky, Vladimir Kirillovič Shitikov

Webová stránka: http://r-analytics.blogspot.com

Toto dielo je distribuované na základe licencie

Creative Commons „Uvedenie zdroja – nekomerčné

použitie – rovnaké podmienky 4.0 po celom svete“. Na základe tejto licencie môžete voľne kopírovať, distribuovať a upravovať toto dielo za predpokladu, že sú jasne uvedení autori a zdroj. Ak toto dielo upravíte alebo ho použijete vo svojom diele, výsledok smiete šíriť len pod rovnakou alebo podobnou licenciou. Je zakázané používať toto dielo na komerčné účely bez súhlasu autorov. Viac informácií o licencii nájdete na www.creativecommons.com

Pozrite si túto knihu takto:

Mastitsky S.E., Shitikov V.K. (2014) Štatistická analýza a vizualizácia údajov s R.

Elektronická kniha, prístupová adresa:

http://r-analytics.blogspot.com

PREDSLOV 5

1. HLAVNÉ ZLOŽKY ŠTATISTICKÉHO PROSTREDIA R 8


1.1. História vzniku a základné princípy organizácie 8 prostredia R

1.2. Práca s rozhraním príkazovej konzoly R 11

1.3. Práca s ponukou balíka R Commander 13

1.4. Objekty, balíky, funkcie, zariadenia 17

2. POPIS JAZYKA R 23

2.1. R 23 Typy údajov

2.2. Vektory a matice 24

2.3. Faktory 29

2.4. Zoznamy a tabuľky 31

2.5. Import údajov do R 37

2.6. Reprezentácia dátumu a času; časový rad 40

2.7. Organizácia výpočtov: funkcie, vetvy, slučky 46

2.8. Vektorizované výpočty v jazyku R pomocou funkcií apply-50

3. ZÁKLADNÉ GRAFICKÉ FUNKCIE R 58

3.1. plot() bodové grafy a parametre vykresľovania 58 funkcií

3.2. Histogramy, funkcie hustoty jadra a funkciu 66 cdplot().

3.3. Tabuľky rozpätia 74

3.4. Koláčové a stĺpcové grafy 77

3.5. Cleveland a 1D bodové grafy 84

4. POPISNÁ ŠTATISTIKA A VYBAVENIE 97

DISTRIBÚCIA

–  –  –

PREDSLOV

Jedným z hlavných nástrojov na pochopenie sveta je spracovanie údajov, ktoré človek dostane z rôznych zdrojov. Podstatou modernej štatistickej analýzy je interaktívny proces pozostávajúci zo štúdia, vizualizácie a interpretácie toku prichádzajúcich informácií.

História posledných 50 rokov je zároveň históriou vývoja technológie analýzy dát.

Jeden z autorov rád spomína na koniec 60. rokov 20. storočia a svoj prvý program na výpočet párovej korelácie, ktorý bol napísaný kovovými kolíkmi na „operačnom poli“ zo 150 článkov osobného počítača Promin-2 s hmotnosťou viac ako 200 kg.

V dnešnej dobe vysoko výkonné a cenovo dostupné počítače softvér umožňujú realizovať celý cyklus procesu informačných technológií, ktorý vo všeobecnosti pozostáva z nasledujúcich krokov:

° prístup k spracovaným údajom (ich načítanie z rôznych zdrojov a kompletizácia súboru vzájomne prepojených zdrojových tabuliek);

° úprava načítaných indikátorov (nahradenie alebo vymazanie chýbajúcich hodnôt, prevod funkcií do pohodlnejšej formy);

° anotácia údajov (na zapamätanie toho, čo je každý údaj);

° prijímanie všeobecné informácie o štruktúre údajov (výpočet deskriptívnej štatistiky s cieľom charakterizovať analyzované ukazovatele);

° grafické znázornenie údajov a výsledkov výpočtov v zrozumiteľnej informatívnej forme (jeden obrázok skutočne niekedy vydá za tisíc slov);

° modelovanie údajov (hľadanie závislostí a testovanie štatistických hypotéz);

° prezentácia výsledkov (príprava tabuliek a grafov v prijateľnej publikačnej kvalite).

V podmienkach, keď ide o desiatky balíkov služieb používateľa aplikačné programy, problém výberu je relevantný (niekedy tragický, ak si spomenieme na „buridanského somára“): ktorý softvér na analýzu údajov by ste mali uprednostniť pre vašu praktickú prácu? Zvyčajne to zohľadňuje špecifiká riešeného problému, efektívnosť nastavenia algoritmov spracovania, náklady na nákup programov, ako aj vkus a osobné preferencie analytika. Zároveň napríklad šablóna Statistica s mechanickou sadou tlačidiel ponuky nemôže vždy uspokojiť kreatívneho výskumníka, ktorý uprednostňuje nezávislé riadenie postupu výpočtového procesu. Skombinujte Rôzne druhy analýzy, mať prístup k priebežným výsledkom, ovládať štýl zobrazovania údajov, pridávať vlastné rozšírenia softvérové ​​moduly a záverečné správy môžu byť pripravené v požadovanej forme komerčnými výpočtovými systémami, ktoré obsahujú nástroje príkazového jazyka na vysokej úrovni ako Matlab, SPSS atď. Vynikajúcou alternatívou k nim je bezplatné softvérové ​​prostredie R, ktoré je moderným a neustále sa rozvíjajúcim všeobecným -účelová štatistická platforma.



Dnes je R nesporným lídrom medzi voľne distribuovanými systémami štatistickej analýzy, o čom svedčí napríklad skutočnosť, že R systém sa v roku 2010 stal víťazom výročnej súťaže o open source softvér Bossie Awards vo viacerých kategóriách. Popredné univerzity na svete, analytici najväčších spoločností a výskumných centier neustále používajú R pri vykonávaní vedeckých a technických výpočtov a vytváraní veľkých informačných projektov. Široká výučba štatistiky založená na balíkoch tohto prostredia a plná podpora vedeckej komunity viedli k tomu, že prinášanie R skriptov sa postupne stáva všeobecne uznávaným „štandardom“ ako v časopiseckých publikáciách, tak aj v neformálnej komunikácii medzi vedcami z celého sveta. sveta.

Hlavnou prekážkou pre rusky hovoriacich používateľov pri ovládaní R je samozrejme to, že takmer všetka dokumentácia k tomuto prostrediu existuje v angličtine. Až od roku 2008 vďaka úsiliu A.V. Shipunova, E.M. Baldina, S.V. Petrová, I.S. Zaryadova, A.G. Bukhovets a ďalší nadšenci, metodické príručky a knihy sa objavili v ruštine (odkazy na ne nájdete v zozname odkazov na konci tejto knihy; odkazy na vzdelávacie zdroje, ktorej autori reálne prispievajú k propagácii R medzi rusky hovoriacimi používateľmi).

Táto príručka sumarizuje súbor metodických príspevkov publikovaných jedným z autorov od roku 2011 v blogu „R: Data Analysis and Visualization“

(http://r-analytics.blogspot.com). Zdalo sa nám účelné uviesť pre pohodlie čitateľov všetok tento trochu roztrieštený materiál v koncentrovanej forme a pre úplnosť tiež niektoré časti rozšíriť.

Prvé tri kapitoly obsahujú podrobný návod na prácu s interaktívnymi komponentmi R, podrobný popis jazyka a základné grafické vlastnosti prostredia.

Táto časť knihy je celkom prístupná pre začiatočníkov v oblasti programovania, aj keď čitateľ, ktorý už ovláda jazyk R, tam môže nájsť zaujímavé fragmenty kódu alebo použiť ako referenciu poskytnuté popisy grafických parametrov.

V nasledujúcich kapitolách (4-8) sú popísané bežné postupy spracovania údajov a zostavovania štatistických modelov, čo ilustruje niekoľko desiatok príkladov. Tie obsahujú Stručný opis analytické algoritmy, hlavné získané výsledky a ich možná interpretácia. Snažili sme sa, pokiaľ to bolo možné, zaobísť sa bez zneužívania „rituálnych“ slovných obratov, charakteristických pre mnohé príručky o aplikovanej štatistike, citujúce známe teorémy a prinášajúce viacúrovňové výpočtové vzorce. Dôraz bol kladený predovšetkým na praktické využitie- aby čitateľ, vedený tým, čo čítal, mohol analyzovať svoje údaje a prezentovať výsledky kolegom.

Sekcie tejto časti sú postavené ako komplexnosť prezentovaného materiálu.

Kapitoly 4 a 5 sú určené pre čitateľa, ktorý sa zaujíma o štatistiku len v rámci počiatočného vysokoškolského štúdia. V kapitolách 6 a 7 sú v rámci jednotnej teórie všeobecných lineárnych modelov prezentované disperzné a regresné analýzy a rôzne algoritmy na štúdium a štrukturálnu identifikáciu modelov. Niektorým je venovaná 8. kapitola moderné metódy konštrukcia a analýza zovšeobecnených regresných modelov.

Keďže výskumník sa neustále zaujíma o priestorovú analýzu a zobrazovanie výsledkov na geografických mapách a diagramoch, kapitola 9 poskytuje niekoľko príkladov takýchto vizualizačných techník.

Našu metodickú príručku adresujeme študentom, postgraduálnym študentom, ako aj mladým a etablovaným vedcom, ktorí sa chcú naučiť analyzovať a vizualizovať dáta pomocou prostredia R. Dúfame, že na konci čítania tejto príručky budete trochu rozumieť tomu, ako R funguje, kde môžete získať ďalšie informácie, ako aj to, ako sa vysporiadať s jednoduchými a pomerne zložitými úlohami analýzy údajov.

Súbory so skriptami R kódov pre všetky kapitoly knihy, ako aj potrebné tabuľky počiatočných údajov na ich vykonanie, sú voľne dostupné na stiahnutie z úložiska GitHub https://github.com/ranalytics/r-tutorials, as ako aj z webovej stránky Inštitútu ekológie povodia Volhy Ruskej akadémie vied na adrese http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.

Treba poznamenať, že text v tomto návode je uvedený v autorskom vydaní, a preto sa v ňom napriek nášmu úsiliu môžu vyskytnúť preklepy, gramatické nepresnosti a nevydarené frázy. Budeme Vám, Čitateľovi, vďační za nahlásenie týchto, ale aj iných zistených nedostatkov e-mailom [e-mail chránený] Budeme tiež vďační za akékoľvek ďalšie pripomienky a návrhy, ktoré môžete mať k tejto práci.

–  –  –

1. HLAVNÉ ZLOŽKY ŠTATISTICKÉHO PROSTREDIA R

1.1. História vzniku a základné princípy organizácie prostredia R Systém štatistickej analýzy a vizualizácie dát R pozostáva z týchto hlavných častí:

° vysokoúrovňový programovací jazyk R, ktorý umožňuje na jednom riadku realizovať rôzne operácie s objektmi, vektormi, maticami, zoznamami atď.;

° veľký súbor funkcií spracovania údajov zhromaždených v samostatných balíkoch (balík);

° pokročilý podporný systém, ktorý zahŕňa aktualizácie komponentov prostredia, online pomoc a rôzne vzdelávacie zdroje určené na počiatočné učenie sa R ​​a následné rady o vznikajúcich ťažkostiach.

Začiatok cesty sa datuje do roku 1993, keď dvaja mladí novozélandskí vedci, Ross Ihaka a Robert Gentleman, oznámili svoj nový vývoj, ktorý nazvali R. Za základ vzali programovací jazyk pokročilého komerčného systému na spracovanie štatistických údajov S - PLUS a vytvorila svoju bezplatnú open source implementáciu, ktorá sa od svojho predchodcu líši ľahko rozšíriteľnou modulárnou architektúrou. Čoskoro vznikol distribuovaný systém na ukladanie a distribúciu balíkov do R, známy pod skratkou „CRAN“ (Comprehensive R Archive Network – http://cran.r-project.org), hlavnou myšlienkou organizácie čo je neustále rozširovanie, kolektívne testovanie a prevádzkové rozširovanie aplikovaných nástrojov na spracovanie dát.

Ukázalo sa, že takýto produkt nepretržitého a dobre koordinovaného úsilia silnej „kolektívnej inteligencie“ tisícov obetavých intelektuálnych vývojárov sa ukázal byť oveľa efektívnejší ako komerčné štatistické programy, ktorých licenčné náklady môžu byť niekoľko tisíc dolárov. . Keďže R je obľúbený jazyk profesionálnych štatistikov, každého nedávne úspechyštatistická veda sa veľmi rýchlo stáva dostupnou používateľom R na celom svete vo forme doplnkových knižníc. Žiadny komerčný štatistický analytický systém sa dnes nevyvíja tak rýchlo. R má veľkú armádu používateľov, ktorí hlásia chyby autorom doplnkových knižníc a samotného systému R, ktoré sú promptne opravené.

Výpočtový jazyk R, aj keď si vyžaduje určité úsilie na jeho zvládnutie, pozoruhodné vyhľadávacie schopnosti a encyklopedickú pamäť, umožňuje rýchlo vykonávať výpočty, ktoré sú vo svojej rozmanitosti takmer „nevyčerpateľné ako atóm“. K júlu 2014 nadšenci z celého sveta napísali 6 739 doplnkových knižníc pre R, vrátane 137 506 funkcií (pozri nižšie).

http://www.rdocumentation.org), ktoré výrazne rozširujú základné možnosti systému. Je veľmi ťažké predstaviť si akúkoľvek triedu štatistických metód, ktorá dnes ešte nebola implementovaná vo forme R balíkov, vrátane, samozrejme, celej „gentlemanskej množiny“: lineárne a zovšeobecnené lineárne modely, nelineárne regresné modely, experiment návrh, analýza časových radov, klasické parametrické a neparametrické testy, bayesovská štatistika, zhluková analýza a vyhladzovacie metódy. Pomocou výkonných vizualizačných nástrojov je možné výsledky analýzy zhrnúť do rôznych grafov a tabuliek. Okrem tradičnej štatistiky obsahuje vyvinutá funkcionalita veľkú sadu algoritmov pre numerickú matematiku, optimalizačné metódy, riešenie diferenciálnych rovníc, rozpoznávanie vzorov atď. Genetici a sociológovia, lingvisti a psychológovia, chemici a lekári, špecialisti na GIS a webové technológie.

„Vlastnícka“ dokumentácia o R je veľmi objemná a nie vždy rozumne napísaná (podľa zvláštnej tradície anglickej literatúry sa priveľa slov minie na opis triviálnych právd, zatiaľ čo dôležité body sa prelúskajú jazykom). Okrem toho však popredné svetové vydavateľstvá (Springer, Cambridge University Press a Chapman & Hall / CRC) alebo jednoducho jednotlivé skupiny nadšencov vydali obrovské množstvo kníh popisujúcich rôzne aspekty analýzy dát v jazyku R (pozri napr. , zoznam odkazov na webovej stránke "Encyklopédia psychodiagnostiky", http://psylab.info/R: Literatúra). Okrem toho existuje niekoľko aktívnych medzinárodných a ruských používateľských fór R, kde môže ktokoľvek požiadať o pomoc s problémom. V zozname referencií uvádzame niekoľko stoviek kníh a internetových odkazov, na ktoré vám odporúčame odkazovať. Osobitná pozornosť pri štúdiu R.

priame učenie praktická práca v R pozostáva z a) zvládnutia konštrukcií jazyka R a zoznámenia sa s funkciami volania funkcií, ktoré vykonávajú analýzu údajov, a b) osvojenia si zručností v práci s programami, ktoré implementujú špecifické metódy analýzy a vizualizácie údajov.

Výber nástrojov používateľského rozhrania R je nejednoznačný a veľmi závisí od vkusu používateľov. Konsenzus neexistuje ani medzi autoritatívnymi odborníkmi.

Niektorí veria, že nie je nič lepšie ako štandardné rozhranie konzoly R. Iní veria, že pre pohodlnú prácu sa oplatí nainštalovať jedno z dostupných integrovaných vývojových prostredí (IDE) s bohatou sadou menu tlačidiel. Napríklad, skvelá možnosť je bezplatné integrované vývojové prostredie RStudio.

Nižšie sa zameriame na popis konzolovej verzie a prácu s R Commanderom, no pri ďalšom hľadaní čitateľa môže pomôcť prehľad rôznych verzií IDE, uvedený v prílohe knihy od Shipunova a spol. (2014).

Jeden z R-expertov, Joseph Rickert, sa domnieva, že proces učenia sa R ​​možno rozdeliť do nasledujúcich etáp (podrobnejšie pozri.

jeho článok na inside-r.org):

1. Oboznámenie sa so všeobecnou kultúrou komunity R a programovacím prostredím, v ktorom bol vyvinutý a funguje jazyk R. Návšteva hlavných a pomocných zdrojov a zvládnutie dobrej úvodnej učebnice. Inštalácia R na počítač používateľa a spustenie prvých testovacích skriptov.

2. Čítanie údajov zo štandardných súborov operačného systému a spoľahlivé používanie R-funkcií na vykonávanie obmedzeného súboru postupov štatistickej analýzy známych používateľovi.

3. Využitie základných štruktúr jazyka R na písanie jednoduchých programov.

Písanie vlastných funkcií. Oboznámte sa s dátovými štruktúrami, s ktorými R dokáže pracovať, a pokročilejšími funkciami jazyka. Práca s databázami, webovými stránkami a externými zdrojmi dát.

4. Písanie zložitých programov v jazyku R. Samostatný rozvoj a hlboké pochopenie štruktúry objektov takzvaných tried S3 a S4.

5. Vývoj odborné programy v jazyku R. Vlastná tvorba doplnkových knižničných modulov pre R.

Väčšina príležitostných používateľov R sa zastaví v štádiu 3, pretože

poznatky získané do tejto doby im úplne postačujú na vykonávanie štatistických úloh v profile ich hlavnej profesionálnej činnosti.

O tomto zväzku poskytujeme popis jazyka R v rámci tejto príručky.

Inštalácia a konfigurácia základného štatistického prostredia R je veľmi jednoduchá. Od júla 2014 je aktuálna verzia R 3.1.1 pre 32 a 64-bitový Windows (k dispozícii sú aj distribučné sady pre všetky ostatné bežné operačné systémy). Distribučný kit systému spolu so základnou sadou 29 balíčkov (54 megabajtov) si môžete stiahnuť úplne zadarmo z hlavnej stránky projektu http://cran.r-project.org alebo z ruského „zrkadla“ http:/ /cran.gis-lab.info. Proces inštalácie systému zo stiahnutej distribúcie nespôsobuje žiadne ťažkosti a nevyžaduje žiadne špeciálne komentáre.

Pre pohodlie ukladania skriptov, počiatočných údajov a výsledkov výpočtov stojí za to prideliť špeciálny pracovný adresár v počítači používateľa. Je veľmi nežiaduce používať v názve pracovného adresára znaky azbuky.

Cestu k pracovnému adresáru a niektoré ďalšie možnosti nastavenia je vhodné umiestniť zmenou v ľubovoľnom textovom editore systémový súbor C:\Program Files\R\Retc\Rprofile.site (môže mať iné umiestnenie vo vašom počítači). V nižšie uvedenom príklade sú upravené riadky označené zelenou farbou.

Okrem špecifikácie pracovného adresára tieto riadky definujú odkaz na ruský zdroj na stiahnutie balíkov R a automatický štart R veliteľ.

Výpis súboru Rprofile.site # Všetko, za čím nasleduje znak komentára "#", prostredie ignoruje # options(papersize="a4") # options(editor="notepad") # options(pager="interné") # nastaviť zobrazenie typu informácie o pozadí# options(help_type="text") options(help_type="html") # nastavenie umiestnenia lokálnej knižnice #.Library.site - file.path(chartr("\\", "/", R.home()) , "site-library") # Spustite menu R Commander pri načítavaní prostredia # Ak Rcmdr nie je potrebný, vložte znaky "#" local(( old - getOption("defaultPackages") options(defaultPackages = c(old, "Rcmdr")) ) )) # Definujte CRAN mirror local((r - getOption("repos") r["CRAN"] - "http://cran.gis-lab" options(repos=r))) # Definujte cestu k pracovnému adresáru (akýkoľvek iný na vašom počítači) setwd("D:/R/Process/Resampling") Pokiaľ ide o "dobrý úvodný tutoriál", akékoľvek z našich odporúčaní bude subjektívne. Napriek tomu treba spomenúť oficiálne uznávaný úvod do R od W. Venablesa a D. Smitha (Venables, Smith, 2014) a knihu od R. Kabakova (Kabaco, 2011), čiastočne preto, že existuje ich ruský preklad. Mali by sme si všimnúť aj tradičný „návod pre figuríny“ (Meys, Vries, 2012) a príručku (Lam, 2010), napísanú so závideniahodnou holandskou pedantnosťou. Z ruskojazyčných úvodných kurzov sú najkompletnejšie knihy I. Zaryadova (2010a) a A. Šipunova a kol. (2014).

1.2. Práca so shellom rozhrania R Statické prostredie R vykonáva akúkoľvek sadu zmysluplných inštrukcií jazyka R obsiahnutých v súbore skriptu alebo reprezentovaných sekvenciou príkazov zadaných z konzoly. Práca s konzolou môže byť pre moderných používateľov, ktorí sú zvyknutí na tlačidlové menu, náročná, pretože si musíte zapamätať syntax jednotlivých príkazov. Po získaní určitých zručností sa však ukazuje, že mnohé postupy spracovania údajov možno vykonávať rýchlejšie a s menšími ťažkosťami ako napríklad v rovnakom balíku Statistica.

Konzola R je dialógové okno, do ktorého používateľ zadáva príkazy a vidí výsledky ich vykonania. Toto okno sa zobrazí ihneď po spustení prostredia (napríklad po kliknutí na skratku R na ploche). Okrem toho štandardné grafické používateľské rozhranie R (RGui) obsahuje okno na úpravu skriptov a kontextové okná s grafickými informáciami (obrázky, diagramy atď.)

V príkazovom režime môže R fungovať napríklad ako bežná kalkulačka:

Napravo od znaku výzvy môže používateľ zadať ľubovoľný aritmetický výraz, stlačiť kláves Enter a okamžite získať výsledok.

Napríklad v druhom príkaze na obrázku vyššie sme použili funkcie faktoriál a sínus, ako aj vstavané číslo p. Výsledky získané v textovej forme je možné vybrať pomocou myši a skopírovať cez schránku do ľubovoľného textového súboru operačného systému (napríklad do dokumentu programu Word).

Pri práci s RGui odporúčame vo všetkých prípadoch vytvoriť súbor so skriptom (teda sekvenciou R príkazov, ktoré vykonávajú určité akcie). Spravidla ide o obyčajný textový súbor s ľubovoľným názvom (ale pre istotu je lepšie s príponou *.r), ktorý je možné vytvárať a upravovať v bežnom editore, akým je napríklad Poznámkový blok. Ak tento súbor existuje, je najlepšie ho umiestniť do pracovného adresára a potom po spustení R a zvolení položky ponuky „File Open Script“ sa obsah tohto súboru objaví v okne „R Editor“. Sekvenciu príkazov skriptu môžete spustiť z položky ponuky „Upraviť spustiť všetko“.

Z ľubovoľného miesta pripraveného skriptu môžete tiež myšou vybrať zmysluplný fragment (od názvu jednej premennej až po celý obsah) a spustiť tento blok na vykonanie. Dá sa to urobiť štyrmi možnými spôsobmi: z hlavného a obsahové menu, kombináciu klávesov Ctrl+R alebo tlačidlo na paneli s nástrojmi.

Na uvedenom obrázku boli vykonané nasledujúce akcie:

° R-objekt gadm bol stiahnutý z bezplatného internetového zdroja Global Administrative Areas (GADM) s údajmi o územnom členení Bieloruskej republiky;

° latinizované názvy miest sa nahrádzajú bežne používanými ekvivalentmi;

° pomocou funkcie spplot() balíka sp sa v grafickom okne zobrazila administratívna mapa republiky, ktorú je možné pomocou menu skopírovať do schránky alebo uložiť ako štandardný meta- alebo rastrový grafický súbor.

Význam jednotlivých operátorov sa budeme podrobnejšie zaoberať v nasledujúcich častiach, ale tu budeme venovať pozornosť tomu, že výberom v skripte a spustením kombinácie znakov [e-mail chránený], v okne konzoly dostaneme celý súbor údajov pre objekt a príkaz, zložený z vybraných symbolov gadm, [e-mail chránený]$NAME_1 nám poskytne zoznam názvov centra spravovania pred a po jeho úprave.

R Editor teda uľahčuje navigáciu v skripte, úpravu a vykonávanie ľubovoľnej kombinácie príkazov, vyhľadávanie a nahradzovanie určitých častí kódu. Vyššie spomínaný doplnok RStudio umožňuje dodatočne vykonávať zvýrazňovanie syntaxe kódu, jeho automatické dopĺňanie, „nabaľovanie“ sekvencie príkazov do funkcií pre ich následné použitie, prácu s dokumentmi Sweave alebo TeX a ďalšie operácie, ktoré sa vám budú hodiť pokročilý používateľ.

R má rozsiahle vstavané pomocné materiály, ktoré sú prístupné priamo z RGui.

Zadaním príkazu help.start() z konzoly sa vo vašom internetovom prehliadači otvorí stránka, ktorá poskytuje prístup ku všetkým zdrojom pomoci: základným príručkám, materiálom autorov, odpovediam na pravdepodobné otázky, zoznamom zmien, odkazom na pomoc k iným objektom R atď. ..d.:

Pomoc k jednotlivým funkciám je možné získať pomocou nasledujúcich príkazov:

° pomoc("foo") alebo? foo - nápoveda k funkcii foo (úvodzovky sú voliteľné);

° help.search("foo") alebo ?? foo - vyhľadať všetky súbory pomocníka obsahujúce foo;

° example("foo") – príklady použitia funkcie foo;

° RSiteSearch("foo") – vyhľadávanie odkazov v online manuáloch a archívoch zoznamov adries;

° apropos("foo", mode="function") – zoznam všetkých funkcií s kombináciou foo;

° vignette("foo") – zoznam príručiek na tému foo.

1.3. Práca s ponukou balíka R Commander Pohodlným nástrojom na zvládnutie výpočtov v jazyku R pre začínajúceho používateľa je R Commander – nezávislý od platformy GUI v štýle tlačidlového menu, implementovaného v balíku Rcmdr. Umožňuje vám vykonávať veľké množstvo procedúr štatistickej analýzy bez toho, aby ste sa museli vopred učiť funkcie v príkazovom jazyku, ale nevedomky k tomu prispieva, pretože zobrazuje všetky vykonávané inštrukcie v špeciálnom okne.

Rcmdr môžete nainštalovať, rovnako ako akékoľvek iné rozšírenia, z ponuky konzoly R "Packages Install a package", ale lepšie spustením príkazu:

install.packages("Rcmdr", dependencies=TRUE) kde povolenie voľby dependencies spôsobí zaručenú inštaláciu celej sady ďalších balíkov, ktoré môžu byť potrebné pri spracovaní údajov cez menu Rcmdr.

R Commander sa spustí, keď sa balík Rcmdr načíta cez ponuku „Packages Include package“ alebo príkaz library(Rcmdr). Ak sa z nejakého dôvodu rozhodlo analyzovať údaje výlučne pomocou programu R Commander, potom pre automatické sťahovanie Tento grafický shell, keď spustíte R, musíte upraviť súbor Rprofile.site, ako je uvedené v časti 1.1.

Na príklade zvážime prácu v R Commander korelačná analýzaúdaje o úrovni infekcie lastúrnika Dreissena polymorpha ciliátmi Conchophthirus acuminatus v troch jazerách Bieloruska (Mastitsky S.E. // BioInvasions Records.

2012. V. 1. P 161–169). V tabuľke s počiatočnými údajmi, ktorú si stiahneme zo stránky figshare, nás budú zaujímať dve premenné: dĺžka ulity mäkkýšov (ZMlength, mm) a počet nálevníkov nájdených v mäkkýšoch (CAnumber). Tento príklad bude podrobne rozobratý v kapitolách 4 a 5, takže sa tu nebudeme podrobne zaoberať významom analýzy, ale zameriame sa na techniku ​​práce s Rcmdr.

Ďalej definujeme režim načítania údajov a adresu odkazu na internete vo vyskakovacích oknách. Je ľahké vidieť, že by sme mohli ľahko načítať rovnaké údaje z lokálneho textový súbor, excelový zošit alebo databázová tabuľka. Aby ste sa uistili, že sú naše údaje načítané správne (alebo ich v prípade potreby upravte), kliknite na tlačidlo „Zobraziť údaje“.

Okno definície organizácie údajov Fragment načítanej tabuľky

V druhej fáze v ponuke „Štatistika“ vyberte „Test korelácie“:

Vyberieme dvojicu korelovaných premenných a vo Output Window získame Pearsonov korelačný koeficient (R = 0,467), dosiahnutú hladinu štatistickej významnosti (p-hodnota 2,2e-16) a 95% medze spoľahlivosti.

–  –  –

Získané výsledky možno jednoducho skopírovať z výstupného okna cez schránku.

Teraz dostaneme grafický obrázok korelačná závislosť. Vyberte bodový graf CAčísla verzus ZMdĺžka a poskytnite mu okrajové grafy rozsahov, lineárnu trendovú čiaru najmenších štvorcov (zelenou), čiaru vyhladenú lokálnou regresnou metódou (červenou), znázornenú oblasťou spoľahlivosti (bodkovaná čiara). Pre každé z troch jazier (premenná Lake) budú experimentálne body reprezentované rôznymi symbolmi.

–  –  –

Graf skopírovaný z grafického okna R Commander Ako ekvivalent všetkých stlačení tlačidla ponuky R Commander sa v okne skriptu zobrazia pokyny R.

V našom prípade vyzerajú takto:

Clams read.table("http://figshare.com/media/download/98923/97987", header=TRUE, sep="\t", na.strings="NA", dec=".", prúžok. white=TRUE) cor.test(Clam$CAnumber, Clam$ZMlength, alternative="two.sided", method="pearson") scatterplot(CAnumber ~ ZMlength | Lake, reg.line=lm, smooth=TRUE, spread= TRUE, boxplots="xy", span=0.5, ylab="Počet nálevníkov", xlab="Dĺžka škrupiny", by.groups=FALSE, data=Mäkkýše) Samotný skript alebo výstupné výsledky (alebo oboje) ) možno uložiť v súboroch a kedykoľvek opakovať. Rovnaký výsledok je možné získať bez spustenia R Commander načítaním uloženého súboru cez R konzolu.

Celkovo bez znalosti konštruktov jazyka R (alebo jednoducho bez toho, aby ste si chceli zaťažovať pamäť ich zapamätávaním), pomocou Rcmdr môžete vykonávať spracovanie údajov pomocou takmer všetkých základných štatistických metód. Predstavuje parametrické a neparametrické testy, metódy na prispôsobenie rôznych spojitých a diskrétnych rozdelení, analýzu viacrozmerných kontingenčných tabuliek, jednorozmernú a viacrozmernú analýzu rozptylu, analýzu a zhlukovanie hlavných komponentov, rôzne formy zovšeobecnených regresných modelov atď. prístroj na analýzu a testovanie výsledných modelov si zaslúži dôkladné preštudovanie.

Podrobný popis techniky práce s R Commanderom, ako aj implementácie algoritmov spracovania dát je možné nájsť v manuáloch (Larson-Hall, 2009; Karp, 2014).

Avšak tak, ako posunkový jazyk nemôže nahradiť ľudskú komunikáciu v prirodzenom jazyku, znalosť jazyka R výrazne rozširuje hranice možností používateľa a robí komunikáciu s prostredím R príjemnou a vzrušujúcou. A tu môže byť automatické generovanie skriptov v R Commander pre čitateľa výbornou pomôckou na zoznámenie sa s operátormi jazyka R a osvojenie si špecifík volania jednotlivých funkcií. Nasledujúce kapitoly príručky budeme venovať diskusii o postupoch spracovania údajov len na úrovni jazykových konštruktov.

1.4. Objekty, balíky, funkcie, zariadenia Jazyk R patrí do rodiny takzvaných objektovo orientovaných programovacích jazykov na vysokej úrovni. Pre nešpecialistu je striktná definícia pojmu „objekt“ skôr abstraktná. Pre jednoduchosť však môžete všetko, čo vzniklo v procese práce s R nazvať objektmi.

Existujú dva hlavné typy objektov:

1. Objekty určené na ukladanie údajov ("dátové objekty") sú jednotlivé premenné, vektory, matice a polia, zoznamy, faktory, dátové tabuľky;

2. Funkcie ("funkčné objekty") sú pomenované programy určené na vytváranie nových objektov alebo na vykonávanie určitých akcií s nimi.

Objekty prostredia R, určené na kolektívne a bezplatné použitie, sú zabalené v balíkoch, ktoré spájajú podobné témy alebo metódy spracovania dát. Medzi pojmami „balík“ a „knižnica“ je určitý rozdiel. Termín "knižnica" definuje adresár, ktorý môže obsahovať jeden alebo viac balíkov. Pojem "balík" sa týka súboru funkcií, manuálových stránok HTML a vzorových dátových objektov určených na testovanie alebo učenie.

Balíky sa inštalujú do špecifického adresára operačného systému alebo v odinštalovanej podobe môžu byť uložené a distribuované v archivovaných súboroch *. zip súbory Windows (verzia balíka sa musí zhodovať s konkrétnou verziou vášho R).

Úplné informácie o balíku (verzia, hlavná téma, autori, dátumy zmien, licencie, ďalšie funkčne súvisiace balíky, kompletný zoznam funkcií s uvedením ich účelu atď.) získate príkazom

library(help=name_package_name), napríklad:

library(help=Matrix) Všetky balíky R spadajú do jednej z troch kategórií: základný ("základ"), odporúčaný ("odporúčaný") a ostatné nainštalované používateľom.

Ich zoznam môžete získať na konkrétnom počítači zadaním príkazu library() alebo:

Installed.packages(priority = "základ") Installed.packages(priority = "recommended") # Získať úplný zoznam packlist packlist - rownames(installed.packages()) # Výstupné informácie do schránky vo formáte excel write.table(packlist,"clipboard",sep="\t", col.names=NA) Základné a odporúčané balíčky sú zvyčajne zahrnuté do inštalačného súboru R.

Samozrejme, netreba hneď inštalovať „do zálohy“ veľa rôznych balíčkov.

Ak chcete nainštalovať balík, stačí vybrať položku ponuky "Packages Install package(s)" v príkazovom okne R Console alebo zadať napríklad príkaz:

install.packages(c("vegan", "xlsReadWrite", "auto"))

Balíky je možné stiahnuť napríklad z ruského „mirroru“ http://cran.gis-lab.info, pre ktorý je vhodné použiť edíciu súboru Rprofile.site, ako je uvedené v časti 1.1.

Ďalšou možnosťou inštalácie balíkov je prejsť na stránku http://cran.gis-lab.info/web/packages, vybrať požadovaný balík vo forme súboru zip a stiahnuť ho do zvoleného priečinka v počítači.

V tomto prípade si môžete prezrieť všetky informácie na balíku, najmä popis funkcií, ktoré sú v ňom obsiahnuté, a rozhodnúť sa, koľko ich potrebujete. Ďalej musíte spustiť položku ponuky príkazu "Balíky Inštalovať balíčky z miestnych zip-súborov".

Pri spustení konzoly RGui sa načítajú len niektoré základné balíčky. Ak chcete inicializovať akýkoľvek iný balík pred priamym použitím jeho funkcií, musíte zadať knižnicu príkazov (názov_balíka).

Môžete určiť, ktoré balíky sa načítajú v každom okamihu prebiehajúcej relácie, zadaním príkazu:

sessionInfo() R verzia 2.13.2 (2011-09-30) Platforma: i386-pc-mingw32/i386 (32-bit)

–  –  –

ďalšie priložené balíčky:

Vegan_2.0-2 permute_0.6-3

načítané cez menný priestor (a nepripojené):

Grid_2.13.2 lattice_0.19-33 tools_2.13.2 Nasledujúca tabuľka uvádza (možno nie vyčerpávajúco) balíky, ktoré boli použité v skriptoch prezentovaných v tejto knihe:

R balíky Účel "Základné" balíky Základné konštrukcie R základ Prekladač balíkov R prekladač Sada tabuliek s údajmi na testovanie a demonštráciu funkcií dátové množiny Základné grafické funkcie grafika Ovládače grafických zariadení, farebné palety, fonty grDevices Funkcie na vytváranie grafických vrstiev grid Objektovo orientované programovanie komponenty (triedy, metódy metódy) Funkcie pre prácu s regresnými splajnmi iný typ spline Základné funkcie štatistickej analýzy štatistiky Metódy štatistické funkcie class S4 stats4 Komponenty používateľského rozhrania (menu, výberové polia atď.) tcltk Nástroje informačnej podpory, správy a dokumentácie Rôzne nástroje na ladenie, I/O, archiváciu atď.

Utils "Odporúčané" balíky Funkcie rôznych bootstrap a "jackknife" rutín boot Rôzne nehierarchické klasifikačné a rozpoznávacie algoritmy trieda Deliace a hierarchické klastrovacie algoritmy klaster Analýza a overenie kódu R codetools Čítanie a zápis súborov v rôznych formátoch (DBF, SPSS, DTA, Stata) cudzie Funkcie obsluhujúce optimalizáciu vyhladzovania jadra KernSmooth Grafické funkcie rozšírená funkcionalita (Sarkar, 2008) mriežka Súbor dátových a štatistických funkcií (Venables, Ripley, 2002) MASS Maticové a vektorové operácie Matica Generalizované aditívne a zmiešané modely efektov mgcv Lineárne a nelineárne modely zmiešaných efektov nlme Neurálne siete priama propagácia nnet Konštrukcia klasifikačných a regresných stromov rpart Funkcie krigingu a analýzy priestorového rozloženia bodov priestorové Analýza prežitia (Coxov model atď.) Prežitie Balíky inštalované počas prevádzky adegenet Algoritmy genetickej analýzy vzdialenosti rameno Analýza regresných modelov - príloha k kniha (Gelman, Hill , 2007) car Postupy súvisiace s aplikovanou regresnou analýzou corrplot Grafické zobrazenie korelačných matíc fitdistrplus Fitdistrplus Zloženie štatistických rozdelení FWDselect, Výber súboru informatívnych premenných v balíku regresných modelov pre gamair Súbory údajov na testovanie aditívnych modelov geosféry Odhad geografických vzdialeností ggplot2 Pokročilý grafický balík s vysokou funkčnosťou DAAG Analýza dát a grafické funkcie pre knihu (Maindonald, Braun, 2010) Hmisc Harrell sada funkcií HSAUR2 Doplnok knihy (Everitt, Hothorn, 2010) ISwR Primárna štatistická analýza c do R jpeg Práca s grafické súbory jpeg lars Špeciálne typy regresie (LARS, Lasso, atď.) lavaan Potvrdzujúca analýza a modely štruktúrnych rovníc lmodel2 Implementácia regresných modelov typu I a II (MA, SMA, RMA) maptools Geografické mapové nástroje myši Postupy na analýzu a doplnenie chýbajúcich hodnôt ​​Moments Funkcie výpočet vzorových momentov nortest Kritériá na testovanie hypotézy o normálnom rozložení odľahlých hodnôt Analýza odľahlých hodnôt v pastecových dátach Analýza priestorových a časových radov v ekológii pls Regresia na hlavných komponentoch pwr Odhad štatistickej sily hypotéz pretvorenie Flexibilná transformácia dát tabuľky robustbase Robustné metódy na vytváranie regresných modelov rootSolve Hľadanie koreňov funkcie pomocou škál Výber farebných škál sem Modely štruktúrnych rovníc semPlot Vizualizácia štrukturálnych vzťahov sm Odhad hustoty distribúcie a metódy vyhladzovania sp Triedy a metódy prístupu k priestorovým údajom spatstat Metódy priestorová štatistika, fit spdep modely Priestorové závislosti: geoštatistické metódy a modelovanie hviezd Zobrazenie informácií o štatistických modeloch v rôznych formátoch vcd Vizualizácia kategorických údajov Vykonávanie výpočtov týkajúcich sa ekológie komunity (podobnosť, diverzita a vegánske hniezdne opatrenia, ordinácia a multivariačná analýza) Ak sa pokúsime stiahnuť balík, ešte nie je nainštalovaný v R, alebo sa pokúsime použiť funkcie balíka, ktorý ešte nebol načítaný, budeme dostávať systémové správy:

sem(model, data=PoliticalDemocracy) Chyba: nemožno nájsť funkciu "sem" library(lavaan) Chyba v knižnici(lavaan) : používateľ balíka nemá názov "lavaan" a rozumie, ktorý by sa mal stiahnuť a ktorý je potrebné predinštalovať . Pochopenie toho, ako skript funguje, si vyžaduje znalosť konštrukcií jazyka R opísaných v nasledujúcej časti, ale záujemca sa môže k týmto príkazom vrátiť neskôr.

instant_pkgs - function(pkgs) ( pkgs_miss - pkgs)] # Inštalovať balíky, ktoré nie sú pripravené na stiahnutie:

if (length(pkgs_miss) 0) ( install.packages(pkgs_miss) ) # Stiahnite si balíky, ktoré ešte neboli stiahnuté:

Attached - search() connected_pkgs - connected need_to_attach - pkgs if (length(need_to_attach) 0) (for (i in 1:length(need_to_attach)) required(need_to_attach[i], character.only = TRUE) ) # Príklad volania:

instant_pkgs(c("základ", "jpeg", "vegan"))

Zoznam funkcií každého balíka môžete získať napríklad zadaním príkazu:

ls(pos = "package:vegan") Poznámka: ls() je univerzálna funkcia na výpis objektov v danom prostredí. Vyššie uvedený príkaz nastaví vegánsky balíček ako také prostredie. Ak je tento príkaz zadaný bez parametrov, dostaneme zoznam objektov vytvorených počas aktuálnej relácie.

Zoznam argumentov prichádzajúcich parametrov ľubovoľnej funkcie v načítanom balíku môžete získať zadaním príkazu args().

Napríklad pri spustení funkcie odvodenia lineárneho modelu lm(), ktorú neskôr široko používame, sa nastavia tieto parametre:

Funkcia Args(lm) (vzorec, údaje, podmnožina, váhy, na.akcia, metóda = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, kontrasty = NULL, offset,...) Ak zadáte príkaz pozostávajúci len zo skratky funkcie (napríklad výpočet medzikvartilového rozsahu IQR), potom môžete získať zdrojový text funkcie v R kódoch:

Funkcia IQR (x, na.rm = FALSE) diff(quantile(as.numeric(x), c(0,25, 0,75), na.rm = na.rm, names = FALSE)) Pokročilý používateľ môže tento kód upraviť a "presmerujte" štandardné volanie funkcie na vašu verziu.

Ak sa však rovnakým spôsobom chceme pozrieť na kód funkcie predikcie(), ktorá sa používa na výpočet predpovedaných hodnôt lineárneho modelu, dostaneme:

predikčná funkcia (objekt,...) UseMethod("predpovedať") V tomto prípade je predikcia() "univerzálna" funkcia: v závislosti od toho, ktorý modelový objekt sa privádza do jej vstupu (lm pre lineárnu regresiu, glm pre Poisson alebo logistické regresia, lme pre model so zmiešanými efektmi atď.), aktualizuje sa zodpovedajúca metóda na získanie prediktívnych hodnôt.

Táto funkcia sa používa najmä na implementáciu nasledujúcich metód:

metódy("predpovedať") predpovedať.ar* predpovedať.Arima* predpovedať.arima0* predpovedať.glm predpovedať.HoltWinters* predpovedať.lm predpovedať.spraš* predpovedať.mlm predpovedať.nls* predpovedať.poly predpovedať.ppr* predpovedať.prcomp* Predikcia.princomp* Predikcia.smooth.spline* Predpovid.smooth.spline.fit* Predpoved.StructTS* Neviditeľné funkcie sú označené hviezdičkou V štýle S3 je metóda v skutočnosti funkciou, ktorá je volaná inou generickou funkciou, napríklad print( ), plot() alebo sumár() v závislosti od triedy objektu zadaného ako vstup. Atribút class je zároveň zodpovedný za „orientáciu objektu“, ktorá zabezpečuje správne odoslanie a volanie potrebnej metódy pre tento objekt. Takže "funkčná metóda" na získanie predpovedaných hodnôt zovšeobecneného lineárneho modelu bude mať volanie predikcie.glm(), pri vyhladzovaní pomocou splajnov - predikcie.smooth.spline() atď. Detailné informácie model S3 OOP nájdete v časti pomocníka S3Methods a pokročilejší model S4 OOP v časti Metódy.

Nakoniec sa pozrime na niekoľko jednoduchých trikov na uloženie výsledkov práce prijatej počas relácie R:

° sink(súbor= názov súboru) - výstup výsledkov vykonania nasledujúcich príkazov v reálnom čase do súboru s daným názvom; na ukončenie tohto príkazu musíte vykonať príkaz sink () bez parametrov;

° uložiť(súbor= názov súboru, zoznam objektov na uloženie) – uloží určené objekty do súboru binárneho formátu XDR, ktorý možno použiť na akomkoľvek operačnom systéme;

° načítať (súbor= názov súboru) - obnoví uložené objekty v aktuálnom prostredí;

° save.image(súbor=súbor) - uloží všetky objekty vytvorené v priebehu práce vo forme R-špecifického súboru rda.

Príklad prenosu vygenerovanej tabuľky s údajmi do schránky vo formáte kompatibilnom so štruktúrou hárku programu Excel bol uvedený vyššie v tejto časti. Kapitola 6 ukáže príklad prenosu údajov z objektu lineárneho modelu do súboru programu Word.

Prostredie R dokáže vygenerovať pixelový obraz požadovanej kvality pre takmer akékoľvek rozlíšenie displeja či tlačového zariadenia, ako aj uložiť výsledné grafické okná do súborov rôznych formátov. Pre každé grafické výstupné zariadenie existuje funkcia ovládača: pre úplný zoznam ovládačov môžete napísať help (Devices).

Najčastejšie používané grafické zariadenia sú:

° windows() - grafické Okno Windows(obrazovka, tlačiareň alebo metasúbor).

° png(), jpeg(), bmp(), tiff() - výstup do bitmapového súboru zodpovedajúceho formátu;

° pdf(),postscript() - výstup grafické informácie V PDF súbor alebo PostScript.

Po dokončení práce s výstupným zariadením deaktivujte jeho ovládač príkazom dev.off(). Je možné aktivovať niekoľko grafických výstupných zariadení súčasne a prepínať medzi nimi: pozri napr. zodpovedajúcu časť v knihe Shipunov et al. (2012, s. 278).

1. POPIS JAZYKA R

2.1. Dátové typy R Všetky dátové objekty (a teda aj premenné) v R možno rozdeliť do nasledujúcich tried (t. j. typov objektov):

° numerické – objekty, ktoré obsahujú celé čísla (integer) a reálne čísla (double);

° logické - logické objekty, ktoré majú iba dve hodnoty: FALSE (skrátene F) a TRUE (T);

° znak – znakové objekty (hodnoty premenných sú uvedené v dvojitých alebo jednoduchých úvodzovkách).

V R môžete vytvárať názvy pre rôzne objekty (funkcie alebo premenné) v latinke aj v azbuke, ale majte na pamäti, že a (cyrilika) a a (latinčina) sú dva rôzne objekty. V prostredí R sa navyše rozlišujú malé a veľké písmená, t.j. malé a veľké písmená sú rozdielne. Názvy premenných (identifikátory) v R musia začínať písmenom (alebo bodkou) a pozostávať z písmen, číslic, bodiek a podčiarkovníkov.

S pomocou tímu? name môže skontrolovať, či premenná alebo funkcia s daným názvom existuje.

Kontrola, či premenná patrí do určitej triedy je kontrolovaná funkciami is.numeric(názov_objektu), is.integer(názov), is.logic(názov), is.znak(názov) a previesť objekt na iný typ , môžete použiť funkcie as.numeric (meno), as.integer(meno), as.logical(name), as.character(meno).

V R je množstvo špeciálnych objektov:

° Inf - kladné alebo záporné nekonečno (zvyčajne výsledok delenia reálneho čísla 0);

° NA - "chýbajúca hodnota" (nie je k dispozícii);

° NaN - "nie je číslo" (nie je číslo).

Či je premenná jedným z týchto špeciálnych typov, môžete skontrolovať pomocou funkcií is.nite(meno), is.na(meno) a is.nan(meno).

Výraz R je kombináciou prvkov, ako je operátor priradenia, aritmetické alebo logické operátory, názvy objektov a názvy funkcií. Výsledok vykonania výrazu sa spravidla okamžite zobrazí v príkazovom alebo grafickom okne. Keď sa však vykoná operácia priradenia, výsledok sa uloží do príslušného objektu a nezobrazí sa na obrazovke.

Ako operátor priradenia v R môžete použiť buď symbol „=“, alebo dvojicu znakov „-“ (priradenie konkrétnej hodnoty objektu vľavo) alebo „-“ (priradenie hodnoty objektu na správny). Za dobrý programovací štýl sa považuje použitie „-“.

R výrazy sú usporiadané v skripte podľa riadkov. Na jeden riadok môžete zadať niekoľko príkazov, pričom ich oddelíte symbolom „;“. Jeden príkaz môže byť umiestnený aj na dvoch (alebo viacerých) riadkoch.

Objekty typu numeric môžu tvoriť výrazy pomocou tradičných aritmetických operácií + (sčítanie), - (odčítanie), * (násobenie), / (delenie), ^ (umocnenie), %/% (delenie celého čísla), %% (zvyšok) z rozdelenia). Operácie majú normálnu prednosť, t.j. najprv sa vykoná umocňovanie, potom násobenie alebo delenie, potom sčítanie alebo odčítanie. Vo výrazoch možno použiť zátvorky a operátory v nich majú najvyššiu prioritu.

Booleovské výrazy možno skladať pomocou nasledujúcich logických operátorov:

° „Rovné“ == ° „Nerovná sa“ != ° „Menej ako“ ° „Väčšie ako“ ° „Menej ako alebo rovné“ = ° „Väčšie alebo rovné“ = ° „Logické AND“ & ° „Logické ALEBO“ | ° "Logické NIE" !

PODPORA, OUTSOURCING A SPRÁVA FONDOV 2 AMICORP GROUP VYTÝKAJÚ Z DAVU w w w.am icor p. c om SPOLOČNOSŤ AMICORP GROUP OBLASTI ČINNOSTI O SPOLOČNOSTI NAŠE SLUŽBY Služby pre firemných klientov Služby pre inštitucionálny predaj Tvorba a správa...»

„Federálna štátna vzdelávacia rozpočtová inštitúcia vyššieho odborného vzdelávania „Finančná univerzita pod vládou Ruskej federácie“ Katedra „Marketing“ MODERNÉ SMERY MARKETINGU: TEÓRIA, METODIKA, PRAX KOLEKTÍVNA MONOGRAFIA Pod generálnou redakciou S.V. Karpova Moskva 2011 Recenzenti: N.S. Perekalina - doktor ekonómie, profesor, prednosta. Katedra "Marketingu" "MATI" - Ruská štátna technologická univerzita. K. E. Tsiolkovsky S.S. Solovyov...“

“Digitálny messenger Malko pre VZDELÁVANIE Kaviarní a ČAJOV: Ch. Redaktorka: Vesela Dabova Br 4. decembra 2011 Redakcia: Relax s čajom Teodora Vasileva Gergana Ivanov Vydavateľstvo: ABB Koľko prípadov v tele alebo pri užívaní čaju vypiť a ako všetky prípady je oslabená konzumácia na šálku čaju. Existujú rôzne názory na spoľahlivosť teórie Tasi, ale existuje len málo dôkazov o tom, že jedna šálka čaju sa počíta z definovaného režimu za ... “

«MEDZINÁRODNÁ MEDZIDISCIPLINÁRNA VEDECKÁ KONFERENCIA RADIKÁLNY PRIESTOR MEDZI ODBORMI KONFERENČNÁ KNIHA REDAKTOROV RCS 2015 Romana Bokovi Miljana Zekovi Slaana Milievi NOVI SAD / SRBSKO / SEPTEMBER 21.-23. septembra Konferencia knihy Bocipov Radk. : 978-86-7892-733-1 Leyout: Maja Momirov Návrh obálky: Stefan Vuji Vydala Katedra architektúry a urbanizmu, Fakulta technických vied,...»

"ŠTÁTNA UNIVERZITA SAINT PETERSBURG Fakulta geografie a geoekológie Katedra geomorfológie DIPLOMOVÁ PRÁCA (záverečná kvalifikačná práca) na tému: "Geomorfologické vlastnosti a paleoklíma arktických jazier (na príklade jazier centrálneho sektora ruskej Arktídy)" Dokončené od: študentka večerného oddelenia Morozova Elena Aleksandrovna Vedeckí školitelia: d.g.s., prof. Bolshiyanov Dmitrij Jurijevič Lektor Savelyeva Larisa Anatolyevna Recenzent: Kandidát geologických vied, vedúci....»

„Myš Apacer M811 – laserová mini-SUV súprava. http://news.kosht.com/computer/mouse/2009/11/26/mysh_apacer_m811. KOSHT.com doplnok na vyhľadávanie denných cien pre prehliadač Firefox. Inštalácia jedným kliknutím. Jeden kilobajt. Domov Novinky Ceny Oznamy Práca Fóra Spoločnosti Moby Nájsť Nájsť svoje novinky Všetky novinky KOSHTA Počítače a príslušenstvo Myši Počítače a príslušenstvo Myši Všetky novinky KOSHTA Najlepšie herné počítače On-line kalkulácia na UltraPrice.by myš Apacer M811 – laserové mini SUV [...]»

"FEDERÁLNA AGENTÚRA PRE ŠTÁTNE VZDELÁVANIE ŠTÁTNE VZDELÁVACIE INŠTITÚCIE VYSOKÉHO ODBORNÉHO VZDELÁVANIA MOSKVA ŠTÁTNA PRIEMYSELNÁ UNIVERZITA (GO MGIU)" INFORMAČNÉ SYSTÉMY A TECHNOLÓGIE informačné systémy» študentka Čumaková Tatyana Andrevna na tému "Výpočet separovaných prietokov za zle usmerneným telesom" Vedúci práce: prof., Ph.D. n. Aleksin Vladimir Adamovič ... “

“R WIPO A/45/3 ORIGINÁL: anglický DÁTUM: 15. augusta 2008 SVETOVÁ ORGANIZÁCIA PRE DUŠEVNÉ VLASTNÍCTVO ŽENEVSKÉ ZHROMAŽDENIE ČLENSKÝCH ŠTÁTOV WIPO Štyridsiata piata séria stretnutí Ženeva, 22. – 30. septembra 2008 PRIJATIE MEMORIÁLU SERVISU Generálny riaditeľ I. PRIJÍMANIE MEDZINÁRODNÝCH MIMOVLÁDNYCH ORGANIZÁCIÍ AKO POZOROVATEĽOV 1. Zhromaždenia na svojich predchádzajúcich zasadnutiach prijali súbor zásad, ktoré sa majú uplatňovať pri vysielaní do medzinárodných mimovládnych organizácií...“

“1 Oleg Sanajev. CELÝ SVET PREDLŽENÝ ZA ŠTYRI ROKY A NÁKLADY STO DOLÁROV S podmienkami cesty Jevgenija Alexandroviča Gvozdeva na jachte Lena, ktoré sú uvedené v názve, je všetko v poriadku - štyri roky plus dva týždne: 7. júla 1992 odišiel prístavu Machačkala sa 19. júla 1996 vrátil . Ale s peniazmi - jasné zveličovanie, alebo skôr podhodnotenie: nemôžete, samozrejme, žiť zo sto dolárov štyri roky - natiahnete si nohy. Ale na začiatku plavby mal Gvozdev presne túto sumu. A aspoň nohy...“

« Ústav manažmentu, Výskumná univerzita Štátna národná výskumná univerzita v Belgorode TECHNOLÓGIE TVORBY BEZPEČNOSTI ZABEZPEČUJÚCE VZNIK KANDIDÁTSKÉHO ŠTÁTU ZARIADENIA PRE ŠTÁTNE A KOMUNÁLNE A KOMUNÁLNE SLUŽBY Anotácia: Zhrnutie: Článok sa zaoberá...»

“Lidiya YANOVSKAYA POZNÁMKY O MIKHAILovi BULGAKOVOVI MOSKVA “TEXT” MDT 821.161.1 BBK 84 (2Ros-Rus)6-44 Y64 ISBN 978-5-7516-0660-2 ISBN 978-985-16-3 ISBN 978-985-16-3 ) „Text“, 2007 „BRAVO, BIS, ZÁLOŽŇA!“ "BRAVO, BIS, ZÁLOHA!" Neviem, kde dnes v Moskve sídli redakcia časopisu Yunost. Existuje ešte taký časopis? V polovici 70-tych rokov sa táto najmladšia a najkrajšia redakcia v Moskve nachádzala na Sadovaya-Triumfalnaya, vedľa Majakovského námestia a zaberala malú, ale mimoriadne pohodlnú ... “

„Príloha 1 formulára „T“ PRIHLÁŠKY DO SÚŤAŽE 2013. Titulná strana prihlášky do RHF Názov projektu Číslo projektu Typ projektu (a, c, d, e, f) Oblasť znalostí (kód) Kód klasifikátora RHF Kód GRNTI (http://www.grnti.ru/) Smer priority rozvoja vedy a techniky a technikov v Ruskej federácii, kritická technika1 Priezvisko, meno, priezvisko vedúceho Kontaktné telefónne číslo projektového manažéra projektu Celý a krátky názov organizácie, prostredníctvom ktorej...“

«Správa FNI 8/2014 Implementácia politík EÚ v oblasti klímy a energetiky v Poľsku: Od europeizácie k polonizácii? Jon Birger Skjrseth Implementácia klimatickej a energetickej politiky EÚ v Poľsku: Od europeizácie k polonizácii? Jon Birger Skjrseth [e-mail chránený] December 2014 Copyright © Inštitút Fridtjofa Nansena 2014 Názov Implementácia politík EÚ v oblasti klímy a energetiky v Poľsku: Od europeizácie k polonizácii? Typ publikácie a číslo Strany Správa FNI 8/2014 57 Autor ISBN 978-82-7613-683-8 Jon...”

""Vedecké poznámky TOGU" Ročník 6, č. 4, 2015 ISSN 2079-8490 Elektronická vedecká publikácia "Vedecké poznámky TOGU" 2015, ročník 6, č. 4, S. 173 - 178 Certifikát El č. FS 77-39676 zo dňa 05.05. .2010 http ://pnu.edu.ru/ru/ejournal/about/ [e-mail chránený] MDT 316,33 © 2015 I. A. Gareeva, doktorka sociológie. Sci., A. G. Kiseleva (Pacific State University, Chabarovsk) FORMOVANIE SYSTÉMOV SOCIÁLNEHO POISTENIA Tento článok analyzuje formovanie systémov sociálneho poistenia a jeho súčasný stav...»

Program konferencie Chiang Mai, Thajsko november 2015 APCBSS Ázijská konferencia o podnikaní a spoločenských vedách Medzinárodná konferencia ICEI o inováciách vo vzdelávaní APCLSE Ázijsko-pacifická konferencia o biologických vedách a inžinierstve APCBSS Ázijská tichomorská konferencia o podnikaní a spoločenských vedách ISBN978-986- 90263 -0-7 Medzinárodná konferencia ICEI o inováciách vo vzdelávaní ISBN 978-986-5654-33-7 Ázijsko-pacifická konferencia APCLSE o biologických vedách a inžinierstve ISBN 978-986-90052-9-6 Obsah...



Načítava...
Hore