EDA zbioru danych Irysy¶

Wiedza domenowa¶

Przedmiotem EDA będzie zbiór danych związany z kwiatami irysy. Irysy to piękne, wieloletnie rośliny ozdobne należące do rodziny kosaćcowatych (Iridaceae). Znane są ze swoich charakterystycznych, eleganckich kwiatów, które występują w szerokiej gamie kolorów, od bieli i żółci po fiolet i niebieski. Każdy kwiat irysa składa się z trzech wzniesionych płatków wewnętrznych oraz trzech skierowanych w dół działek kielicha, które często przyjmują formę "brody" na środku.

Irysy są popularne w ogrodach na całym świecie ze względu na swoją urodę, a także różnorodność form i kolorów. Szczególnie cenionymi gatunkami są Iris setosa, Iris versicolor i Iris virginica, które są również częścią klasycznego zbioru danych używanego w analizie statystycznej i uczeniu maszynowym. Te kwiaty nie tylko dodają estetyki do krajobrazów, ale także stanowią doskonały temat badań ze względu na wyraźne różnice między gatunkami, co czyni je idealnym modelem do nauki o klasyfikacji danych.

Rodzaje Irysów¶

info_irys

Podstawowe wymiary¶

wymiary_irys

Wstępna analiza danych¶

Na samym początku zostanie przeprowadzona krótka analiza ogólnego zarysu zbioru danych, m.in. sprawdzając losowe rekordy lub wartości unikatowe.

Losowe 5 rzędów¶

  • istnieją cztery główne wymiary (dł. i szer. kielicha oraz dł. i szer. płatka),
  • wyróżniamy trzy rodzaje irysów,
  • każdy irys ma odmienne wymiary (zależnie od rodzaju).
długość kielicha (sepal length) szerokość kielicha (sepal width) długość płatka (petal length) szerokość płatka (petal width) klasa (class)
6.3 2.5 4.9 1.5 Iris-versicolor
6.8 3.0 5.5 2.1 Iris-virginica
6.4 2.8 5.6 2.2 Iris-virginica
5.6 3.0 4.1 1.3 Iris-versicolor
4.9 3.1 1.5 0.1 Iris-setosa

Wartości unikatowe¶

Kolumna Liczba unikatowych wartości
długość kielicha (sepal length) 35
szerokość kielicha (sepal width) 23
długość płatka (petal length) 43
szerokość płatka (petal width) 22
klasa (class) 3

Statystyki opisowe¶

count mean std min 25% 50% 75% max
długość kielicha (sepal length) 150.0 5.84 0.83 4.3 5.1 5.80 6.4 7.9
szerokość kielicha (sepal width) 150.0 3.05 0.43 2.0 2.8 3.00 3.3 4.4
długość płatka (petal length) 150.0 3.76 1.76 1.0 1.6 4.35 5.1 6.9
szerokość płatka (petal width) 150.0 1.20 0.76 0.1 0.3 1.30 1.8 2.5

Podsumowanie wstępnej analizy:¶

  • zbiór danych zawiera 150 pomiarów irysów dla trzech rodzajów,
  • najmniejszy rozrzut od średniej występuje dla szerokości kielicha, gdzie średnia ~ mediana,
  • największy rozrzut pomiarów wystąpił dla długości płatka,
  • minimalny pomiar wyniósł 0.1 cm dla szerokości płatka - warto by było ustalić jakie narzędzie pomiarowe zostało zastosowane do tak małej wartości pomiaru,
  • z wartości unikatowych wynika, że największa powtarzalność jest przy długości płatka (ok. 29%), natomiast najmniejsza przy szerokości płatka i szerokości kielicha (ok. 15%),
  • wszystkie różnice w pomiarach mogą wynikać z błędu pomiarowego.

Analiza wartości brakujących¶

Sprawdzenie czy w danym zbiorze danych znajdują się wartości brakujące, które mogłyby zaburzyć końcowe wyniki.

Ilościowe zestawienie brakujących wartości w analizowanym zbiorze danych:¶

Kolumna Liczba brakujących wartości
długość kielicha (sepal length) 0
szerokość kielicha (sepal width) 0
długość płatka (petal length) 0
szerokość płatka (petal width) 0
klasa (class) 0

Podsumowanie analizy wartości brakujących:¶

  • nie ma żadnych brakujących wartości,
  • dane są precyzyjne i nie trzeba ich modyfikować.

Analiza pojedynczych wartości¶

Żeby jak najlepiej zrozumieć wszelkie korelacje pomiędzy danymi oraz ich istotność - należy najpierw zgłębić wiedzę dotyczącą pojedynczych rekordów.

Histogramy¶

Histogram irys-setosa:¶

No description has been provided for this image

Histogram wymiarów Irys-virginica:¶

No description has been provided for this image

Histogram dla irys-versicolor:¶

No description has been provided for this image

Wnioski płynące z histogramów:

  • irys-setos mają najczęstsze szer. płatka ~0.2 cm (prawie 30 pomiarów w tym zakresie),
  • dla trzech rodzajów irysa: szer. kielicha najczęściej mieści się od 2.75 do 3.5 cm,
  • pod względem wielkości tak prezentują się rodzaje irysów w kolejności rosnącej: irys-setosa -> irys-versicolor -> irys-virginica.

Wykres liniowy przedstawiający zakres pomiarów:¶

  • można zauważyć, że dł. płatka ma największe rozrzuty pomiędzy rodzajami irysa (najmniejsze wartości dla irys-setos),
  • szer. kielicha to wymiar, który ma najbardziej zbliżone wartości dla wszystkich rodzajów irysa.
No description has been provided for this image

Wykresy słupkowe¶

Barplot dla szerokości płatka:¶

  • najczęstszym pomiarem był pomiar szer. płatka dla irysa-setosa (pomiar ~0.2 cm stanowił ~19% wszystkich pomiarów),
  • zachowana jest zależność, że szer. płatka wzrasta ze zmianą rodzaju irysa.
No description has been provided for this image

Barplot dla długości płatka:¶

  • zachowana jest zależność, że szer. płatka wzrasta ze zmianą rodzaju irysa.
No description has been provided for this image

Barplot dla szerokości kielicha:¶

  • w odróżnieniu do wymiarów płatka -> irys-setos posiada najszerszy kielich,
  • najbardziej rozrzucone pomiary są dla iris-versicolor (od 2.5 aż do 3.4 cm),
  • najczęściej występuje szerokość kielicha ~3cm (szczególnie w przypadku irysa-virginica).
No description has been provided for this image

Barplot dla długości kielicha:¶

  • najbardziej rozrzucone pomiary są dla iris-versicolor (od 4.9 aż do 6.7 cm),
  • najmniejszą dł. kielicha ma iris-setosa a największą iris-virginica,
  • dla irysa-virginica kilka pomiarów było zauważalnie mniejszych od pozostałych.
No description has been provided for this image

Podsumowanie analizy pojedynczych wartości:¶

  • najczęstszy pomiar szerokości płatka występuje dla irysa-setosa i wynosi ~0.2 cm (co stanowi niemal 20% pomiarów),
  • wymiary płatka (szer. oraz dł.) rosną wraz ze zmianą rodzaju irysa: setosa->versicolor->virginica,
  • najmniejsze płatki mają irysy-setosa,
  • dla trzech rodzajów irysa: szer. kielicha najczęściej mieści się od 2.5 do 3.5 cm, co pokazuje, że na ten wymiar ma najmniejszy wpływ rodzaj irysa,
  • w odróżnieniu do wymiarów płatka -> irys-setos ma najszerszy kielich ze wszystkich irysów,
  • najwiekszy rozrzut w pomiarach wymiarów kielicha występuje dla irysa-versicolor,
  • najczęściej występuje szer. kielicha ~3 cm (co stanowi 18% wszystkich pomiarów),
  • dł. kielicha jest najmniejsza dla irysa-setosa a największa dla irysa-virginica.

Analiza korelacji¶

Po wstępnym oszacowaniu zarysu danych, zgłębieniu pojedynczych rekordów oraz zweryfikowaniu wartości brakujących - istnieje możliwość zrozumieć korelacyjność danych.

Macierz korelacji dla wymiarów irysa:¶

  • wymiary płatka (szer. i dł.) zależą wzajemnie od siebie,
  • na wymiary płatka (szer. i dł.) ma bardzo duży wpływ długość kielicha,
  • wymiary kielicha (szer. i dł.) są od siebie niemalże niezależne,
  • połowiczna odwrotna korelacja występuje pomiędzy szerokością kielicha a wymiarami płatka.
szerokość płatka (petal width) długość płatka (petal length) szerokość kielicha (sepal width) długość kielicha (sepal length)
szerokość płatka (petal width) 1.000000 0.962757 -0.356544 0.817954
długość płatka (petal length) 0.962757 1.000000 -0.420516 0.871754
szerokość kielicha (sepal width) -0.356544 -0.420516 1.000000 -0.109369
długość kielicha (sepal length) 0.817954 0.871754 -0.109369 1.000000

Wykresy punktowe dla rodzajów irysa oraz wymiarów irysa:¶

  • każdy rodzaj irysa ma inne wymiary płatków oraz kielichów.
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image

Wykresy punktowe dla największych korelacji pomiędzy wymiarami irysa:¶

  • Można zaobserwować korelacje dodatnią -> im większa szer. płatka tym większa dł. płatka.
No description has been provided for this image
  • Można zaobserwować korelacje dodatnią pomiędzy wymiarami płatka a długością kielicha -> im większa dł. kielicha tym większe będą szer. i dł. płatka.
No description has been provided for this image
  • Większa zależność występuje dla wymiarów: dł. płatka oraz dł. kielicha.
No description has been provided for this image
  • Pomiędzy dł. a szer. kielicha występuje korelacja zerowa -> te wymiary nie mają na siebie wpływu.
No description has been provided for this image

Podsumowanie analizy korelacji:¶

  • wymiary płatka (długość i szerokość) są w korelacji dodatniej,
  • wymiary kielicha nie zależą od siebie (korelacja zerowa),
  • im większa długość kielicha tym większe wymiary płatka (szer. i dł.),
  • rodzaj irysa wpływa ma wymiary kielicha oraz płatka.

Analiza wartości odstających¶

Aby wysnuć ostateczne wnioski - warto zweryfikować również czy w analizowanym zbiorze danych występują jakieś wartości odstające, które mogłyby wprowadzić niepotrzebny szum do analizy.

Boxplots dla wymiarów irysa w zależności od jego rodzaju¶

Boxplot dla szerokości płatka:¶

  • wartości odstające wystąpiły tylko dla rodzaju: iris-setosa (2 outliers),
  • w przypadku iris-setosa: mediana wyniosła ~0,2 cm (czyli najczęściej występujący pomiar) i była na równi z kwartylem 1 -> co oznacza, że 75% pomiarów było powyżej mediany,
  • największy rozrzut w pomiarach widać dla rodzaju: iris-virginica.
No description has been provided for this image

Boxplot dla długości płatka:¶

  • wartości odstające wystąpiły dla rodzajów: iris-setosa (3 outliers) oraz iris-versicolor (1 outlier),
  • największy rozrzut w pomiarach widać dla rodzaju: iris-virginica.
No description has been provided for this image

Boxplot dla szerokości kielicha:¶

  • wartości odstające wystąpiły tylko dla rodzaju: iris-virginica (2 outliers),
  • największy rozrzut w pomiarach widać dla rodzaju: iris-setosa.
No description has been provided for this image

Boxplot dla długości kielicha:¶

  • wartości odstające wystąpiły tylko dla rodzaju: iris-virginica (1 outlier),
  • największy rozrzut w pomiarach widać dla rodzaju: iris-virginica.
No description has been provided for this image

Podsumowanie analizy outliers:¶

  • dla wymiarów płatków (szer. i dł.) wartości odstające wystąpiły głównie dla rodzaju: iris-setosa (5) oraz jeden outlier dla iris-versicolor,
  • dla wymiarów płatków (szer. i dł.) największy rozrzut w pomiarach wystąpił dla rodzaju: iris-virginica,
  • dla wymiarów kielicha (szer. i dł.) wartości odstające wystąpiły jedynie dla rodzaju: iris-virginica (3),
  • dla dł. kielicha największy rozrzut w pomiarach wystąpił dla rodzaju: iris-virginica,
  • dla szer. kielicha największy rozrzut w pomiarach wystąpił dla rodzaju: iris-setosa,
  • w przypadku iris-setosa: mediana była na równi z kwartylem 1 -> co oznacza, że 75% pomiarów było powyżej mediany,
  • najmniejszy wpływ rodzaju irysa na wymiary można zauważyć przy szerokości kielicha.

Wnioski końcowe:¶

Przeanalizowano dane dotyczące irysów, w których znajdowały się trzy rodzaje kwiatów: irys-setosa, irys-versicolor oraz irys-virginica, jak również pomiary związane z kielichem (długość i szerokość) oraz płatkiem (długość i szerokość) poszczególnego irysa. Na podstawie danych - dokonano analizy EDA i wysnuto następujące wnioski:

  • rodzaj irysa wpływa na jego wymiary,
  • według danych występuje następująca kolejność rosnąca pod względem wielkości kwiatów: iris-setosa -> iris-versicolor -> iris-virginica (z wyłączeniem szer. kielicha - iris-setos cechuje się najszerszym kielichem),
  • najczętszym pomiarem był pomiar szerokości płatka dla rodzaju: iris-setosa i wyniósł ~0,2 cm (co stanowiło niemal 20% wszystkich pomiarów).
  • szerokość kielicha to wymiar, który ma najbardziej zbliżone wartości dla wszystkich rodzajów irysa,
  • długość płatka ma największy rozrzut w pomiarach pomiędzy rodzajami irysa,
  • najczęściej spotykana szerokość kielicha wynosi ok. 3 cm.
  • wymiary płatka zależą wzajemnie od siebie,
  • wymiary kielicha nie zależą od siebie,
  • im większa długość kielicha - tym większe wymiary płatka,
  • dla wymiarów płatków wystąpiło 5 wartości odstających dla rodzaju: irys-setosa -> może to być spowodowane jego najmniejszymi gabarytami i problematyką samego pomiaru,
  • kwiat irys-virginica miał największy rozrzut w pomiarach.