EDA zbioru danych Titanic¶
Opis danych¶
Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie, liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.
Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.
Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej tragicznych w historii morskiej.
Kolumny:
- pclass - Klasa biletu
- survived - Czy pasażer przeżył katastrofę ("1.0" - ocalały, "0.0" - ofiara katastrofy)
- name - Imię i nazwisko pasażera
- sex - Płeć pasażera
- age - Wiek pasażera
- sibsp - Liczba rodzeństwa/małżonków na pokładzie
- parch - Liczba rodziców/dzieci na pokładzie
- ticket - Numer biletu
- fare - Cena biletu
- cabin - Numer kabiny
- embarked - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)
- boat - Numer łodzi ratunkowej
- body - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)
- home.dest - Miejsce docelowe
Wstępna analiza danych¶
Na samym początku zostanie przeprowadzona krótka analiza ogólnego zarysu zbioru danych, m.in. sprawdzając losowe rekordy lub wartości unikatowe.
Losowe 5 rzędów¶
pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
3.0 | 0.0 | Willer, Mr. Aaron ("Abi Weller") | male | NaN | 0.0 | 0.0 | 3410 | 8.7125 | NaN | S | NaN | NaN | NaN |
3.0 | 0.0 | Baccos, Mr. Raffull | male | 20.0 | 0.0 | 0.0 | 2679 | 7.2250 | NaN | C | NaN | NaN | NaN |
2.0 | 1.0 | Herman, Miss. Alice | female | 24.0 | 1.0 | 2.0 | 220845 | 65.0000 | NaN | S | 9 | NaN | Somerset / Bernardsville, NJ |
1.0 | 0.0 | Cumings, Mr. John Bradley | male | 39.0 | 1.0 | 0.0 | PC 17599 | 71.2833 | C85 | C | NaN | NaN | New York, NY |
3.0 | 0.0 | Dika, Mr. Mirko | male | 17.0 | 0.0 | 0.0 | 349232 | 7.8958 | NaN | S | NaN | NaN | NaN |
Wartości unikatowe¶
Kolumna | Liczba unikatowych wartości |
---|---|
pclass | 3 |
survived | 2 |
name | 1307 |
sex | 2 |
age | 98 |
sibsp | 7 |
parch | 8 |
ticket | 929 |
fare | 281 |
cabin | 186 |
embarked | 3 |
boat | 27 |
body | 121 |
home.dest | 369 |
Wnioski:
- ponad 2200 ludzi wzięło udział w rejsie, natomiast dostarczone dane zawierają informacje tylko dla 1309 osób
Statystyki opisowe¶
count | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|
pclass | 1309.0 | 2.29 | 0.84 | 1.00 | 2.0 | 3.00 | 3.00 | 3.00 |
survived | 1309.0 | 0.38 | 0.49 | 0.00 | 0.0 | 0.00 | 1.00 | 1.00 |
age | 1046.0 | 29.88 | 14.41 | 0.17 | 21.0 | 28.00 | 39.00 | 80.00 |
sibsp | 1309.0 | 0.50 | 1.04 | 0.00 | 0.0 | 0.00 | 1.00 | 8.00 |
parch | 1309.0 | 0.39 | 0.87 | 0.00 | 0.0 | 0.00 | 0.00 | 9.00 |
fare | 1308.0 | 33.30 | 51.76 | 0.00 | 7.9 | 14.45 | 31.28 | 512.33 |
body | 121.0 | 160.81 | 97.70 | 1.00 | 72.0 | 155.00 | 256.00 | 328.00 |
Ilość pasażerów w poszczególnej klasie¶
pclass | name |
---|---|
1.0 | 323 |
2.0 | 277 |
3.0 | 709 |
Stosunek liczby ocalałych do ofiar oraz informacja ile ciał zostało odnalezionych¶
survived | name | body |
---|---|---|
0.0 | 809 | 121 |
1.0 | 500 | 0 |
Wnioski:
- najwięcej pasażerów płynęło w najuboższej - klasie 3 (aż 709 na 1309 osób)
- w rejsie wzięło udział całe spektrum wiekowe, od niemowlęcia (do 1 roku życia) aż po seniorów (o maksymalnym wieku - 80 lat),
- maksymalnie bilet kosztował 512.33 dolarów, przy czym średnia wartość biletu wyniosła 33.3 dolary,
- z danych wynika, że w rejsie poniosło śmierć 809 osób, natomiast tylko 121 ciał zostało odnalezionych.
- tylko 500 osób przeżyło katastofę.
Stosunek procentowy odnalezionych ciał do wszystkich ofiar katastrofy¶
percentage value [%] | |
---|---|
survived passengers | 38.17 |
founded bodies | 14.96 |
Podsumowanie wstępnej analizy:¶
- tylko 38% pasażerów przeżyło katastrofę,
- tylko 15% ciał zostało odnalezionych.
Analiza brakujących wartości¶
Sprawdzenie czy w danym zbiorze danych znajdują się wartości brakujące, które mogłyby zaburzyć końcowe wyniki.
Ilościowe i procentowe zestawienie brakujących wartości w analizowanym zbiorze danych:¶
Quantity missing values | Percentage missing values | |
---|---|---|
body | 1189 | 90.76 |
cabin | 1015 | 77.48 |
boat | 824 | 62.90 |
home.dest | 565 | 43.13 |
age | 264 | 20.15 |
embarked | 3 | 0.23 |
fare | 2 | 0.15 |
pclass | 1 | 0.08 |
survived | 1 | 0.08 |
name | 1 | 0.08 |
sex | 1 | 0.08 |
sibsp | 1 | 0.08 |
parch | 1 | 0.08 |
ticket | 1 | 0.08 |
Podsumowanie analizy wartości brakujących:¶
- najwięcej brakujących wartości wystąpiło dla numeru ciała (90.76%), bowiem jedynie 121 ciał zostało odnalezionych wśród 809 ofiar (co ukazują wnioski płynące ze wstępnej analizy).
Analiza pojedynczych wartości¶
Żeby jak najlepiej zrozumieć wszelkie korelacje pomiędzy danymi oraz ich istotność - należy najpierw zgłębić wiedzę dotyczącą pojedynczych rekordów.
- histogram 'age': potwierdza, że w rejsie wzięło udział całe spektrum wiekowe, ale najwięcej pasażerów było w młodym wieku (ok. 20-40 lat),
- histogram 'surived': potwierdza, że zdecydowanie więcej ludzi nie przeżyło katastrofy,
- histogramy 'pclass' oraz 'fare': potwierdzają, że najwięcej ludzi podróżowało w klasie 3 - gdzie ceny biletów były najniższe.
Analiza histogramów¶
- histogramy 'sibsp' oraz 'parch': potwierdzają, że najwięcej osób podróżowało w pojedynke (bez rodziny).
Najczęściej występujące imiona¶
Najczętsze cele podróży (miasta)¶
Najczęściej występujące roczniki wśród kobiet i mężczyzn oraz najliczniejsze grupy wiekowe¶
Sprawdzenie czy pasażerowanie częściej płynęli z rodziną czy w pojedynkę¶
Podsumowanie analizy wartości pojedynczych:¶
- najwięcej podróżujących mężczyzn miało na imie: 'William', natomiast kobiet: 'Mary',
- najczęściej obranym kursem było miasto docelowe: 'New York' - można również zauważyć, że podróżowali tam w większości pasażerowie z 1 klasy - o czym mogła świadczyć najwyższa cena biletu, gdyż Nowy Jork był ostatnim celem podróży.
- w rejsie wzięło udział najwięcej młodych osób (wśród obydwu płci) o rocznikach: 1888, 1890, 1891 i 1882, natomiast 10 najczęściej występujących grup wiekowych to byli ludzie w wieku: od 18 do 36 lat,
- aż 790 osób podróżowało samodzielnie (bez członków rodziny).
Po wcześniejszych transformacjach (wykorzystanych do generowania poszczególnych wykresów), usuwam nowopowstałe kolumny i przywracam pierwotny format danych¶
pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1.0 | 1.0 | Allen, Miss. Elisabeth Walton | female | 29.0000 | 0.0 | 0.0 | 24160 | 211.3375 | B5 | S | 2 | NaN | St Louis, MO |
1 | 1.0 | 1.0 | Allison, Master. Hudson Trevor | male | 0.9167 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | 11 | NaN | Montreal, PQ / Chesterville, ON |
2 | 1.0 | 0.0 | Allison, Miss. Helen Loraine | female | 2.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
3 | 1.0 | 0.0 | Allison, Mr. Hudson Joshua Creighton | male | 30.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | 135.0 | Montreal, PQ / Chesterville, ON |
4 | 1.0 | 0.0 | Allison, Mrs. Hudson J C (Bessie Waldo Daniels) | female | 25.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
838 | 3.0 | 0.0 | Gustafsson, Mr. Johan Birger | male | 28.0000 | 2.0 | 0.0 | 3101277 | 7.9250 | NaN | S | NaN | NaN | Ruotsinphytaa, Finland New York, NY |
839 | 3.0 | 0.0 | Gustafsson, Mr. Karl Gideon | male | 19.0000 | 0.0 | 0.0 | 347069 | 7.7750 | NaN | S | NaN | NaN | Myren, Sweden New York, NY |
1063 | 3.0 | 0.0 | Nirva, Mr. Iisakki Antino Aijo | male | 41.0000 | 0.0 | 0.0 | SOTON/O2 3101272 | 7.1250 | NaN | S | NaN | NaN | Finland Sudbury, ON |
1089 | 3.0 | 0.0 | Olsvigen, Mr. Thor Anderson | male | 20.0000 | 0.0 | 0.0 | 6563 | 9.2250 | NaN | S | NaN | 89.0 | Oslo, Norway Cameron, WI |
1281 | 3.0 | 0.0 | Waelens, Mr. Achille | male | 22.0000 | 0.0 | 0.0 | 345767 | 9.0000 | NaN | S | NaN | NaN | Antwerp, Belgium / Stanton, OH |
685 rows × 14 columns
Analiza korelacji¶
Po wstępnym oszacowaniu zarysu danych, zgłębieniu pojedynczych rekordów oraz zweryfikowaniu wartości brakujących - istnieje możliwość zrozumieć korelacyjność danych.
Macierz korelacji¶
- nie wykazano pełnych korelacji (biskich -1 albo 1),
- największa korelacja ujemna występuje dla zależności: fare-pclass (-0.51) oraz age-pclass (-0.42),
- największa korelacja dodatnia występuje dla zależności: parch-sibsp (0.38).
Wpływ wieku na posiadaną klasę¶
- w tym przypadku korelacja ujemna polega na tym, że im człowiek starszy tym dysponuje przeważnie większą liczbą pieniędzy -> zatem na klasę 1 (najdroższą) stać było więcej ludzi starszych, dlatego wybierali oni tę komfortową opcję rejsu.
Cena biletu a wykupiona klasa¶
- w tym przypadku korelacja ujemna polega na tym, że im cena biletu była wyższa tym większa możliwość wykupu rejsu najwyższą klasą, czyli klasą 1.
Zależności rodzinne¶
- w tym przypadku korelacja dodatnia polega na tym, że jak już ktoś nie podróżował w pojedynke to większe było prawdopodobieństwo, iż zabierze ze sobą większą część rodziny -> czyli np. jeśli zabrał ze sobą dzieci to zapewne również małżonka.
Ilu pasażerów przeżyło katastrofę ze względu na klasę (w ujęciu procentowym), czyli wpływ posiadanej klasy na przeżywalność katastrofy¶
- analizując wykres kołowy można zauważyć, że największe szanse na uratowanie, miały osoby z 1 klasy -> mogło to być spowodowane faktem, że mieli oni priorytet przy ewakuacji na łodzie ratunkowe w stosunku do pasażerów z klasy 2 oraz 3.
Podsumowanie analizy korelacji:¶
- zauważono, że na wpływ posiadanej klasy miała cena biletów jak również wiek pasażera - starsi ludzie częściej mogli sobie pozwolić na droższy rejs, a co za tym idzie lepszą klasę,
- liczba posiadanych członków rodziny była ze sobą zauważalnie skorelowana - podczas gdy dodatkowo podróżowały dzieci, podrózowali również inni członkowie rodziny, np. małżonek,
- jednak najważniejszą korelacją, którą można zaobserwować był wpływ posiadanej klasy na przeżywalność -> ponad 2krotnie większe szanse na przeżycie mieli pasażerowie z 1 klasy względem 3 klasy (miało na to wpływ priorytetowe przydzielanie do łodzi ratunkowych).
Analiza wartości odstających¶
Aby wysnuć ostateczne wnioski - warto zweryfikować również czy w analizowanym zbiorze danych występują jakieś wartości odstające, które mogłyby wprowadzić niepotrzebny szum do analizy.
Wartości odstające w przypadku osób podróżujących z członkami rodziny¶
- w tym przypadku wartości odstające nie są żadnym zdziwieniem, bowiem większość pasażerów podróżowało samodzielnie.
Wartości odstające dla wieku pasażerów¶
- znalazły się również dwie osoby w podeszłym wieku (powyżej 70 lat), które stanowią wartości odstające.
Wartości odstające dla cen biletów¶
10 najczęściej występujących cen biletów¶
10 najdroższych cen biletów¶
fare |
---|
512.3292 |
512.3292 |
512.3292 |
512.3292 |
263.0000 |
263.0000 |
263.0000 |
263.0000 |
263.0000 |
263.0000 |
Zależności pomiędzy cenami biletów w różnych klasach¶
fare | ||||
---|---|---|---|---|
min | max | mean | median | |
pclass | ||||
1.0 | 0.0 | 512.3292 | 87.508992 | 60.0000 |
2.0 | 0.0 | 73.5000 | 21.179196 | 15.0458 |
3.0 | 0.0 | 69.5500 | 13.302889 | 8.0500 |
Podsumowanie analizy wartości odstających:¶
- dla ceny biletów występuje najwięcej wartości odstających, co również nie jest zdziwieniem -> większość ludzi podróżowało z najtańszymi biletami: od 7.22 dolarów po 26.55 dolarów,
- jednak znalazły się osoby z klasy 1, które za bilety zapłaciły dużo więcej dla oferowanych w cenie luksusów (na pokładzie statku znalazły się znane osobistości, takie jak: Benjamin Guggenheim, Isidor Strauss czy Jan Jakub Astor IV z żoną - to głównie tego pokroju ludzie stanowią w tym przypadku wartości odstające),
- 10 najdroższych biletów kosztowało od 263 do nawet 512 dolarów.
- wartości odstające wystąpiły głównie dla różnorodnych cen biletu - pasażerowie 1 klasy mieli dużo możliwości do wyboru pod kątem oferowanych luksusów, stąd taka rozbieżność cenowa w biletach, dostosowana do poszczególnych zamożnych klientów.
Wnioski końcowe¶
Przeanalizowano dane związane z rejsem statkiem 'Titanic', który miał być najbardziej prestiżowy, a feralnie okazał się jedną z największych katastrof morskich w dziejach ludzkości. Dane dotyczyły m.in.: pasażerów, cen biletów, ocalałych lub miejsc docelowych, do których kierowali się pasażerowie. Dokonując analizy EDA wysnuto następujące wnioski:
- tylko 38% pasażerów przeżyło katastrofę,
- tylko 15% ciał zostało odnalezionych,
- najwięcej podróżujących było ludzi młodych, w klasie 3, bez rodziny,
- najbardziej rozmaite były ceny biletów, których średnia pomiędzy 2 a 3 klasą oscylowała od 13 do 21 dolarów, natomiast w 1 klasie wynosiła aż 87 dolarów (przy czym najdroższe bilety wahały się: od 247 do 512 dolarów),
- najważniejszym wnioskiem jest fakt, że pomimo iż śmierć jest egalitarna wobec wszystkich (zarówno bogatych i biednych), to jednak w tym przypadku posiadając 1 klasę - miało się 45% szans na przeżycie w stosunku do zaledwie 21% w klasie 3).
Niestety na pokładzie statku znajdowało się jedynie 20 szalup ratunkowych, które mogło pomieścić zaledwie 53% pasażerów. Dlatego też największą przeżywalność wykazali pasażerowie z klasy 1, którzy mieli większy priorytet w ewakujacji na łodzie ratunkowe (aniżeli członkowie 2 lub 3 klasy). Gdyby tak naprawdę łodzi ratunkowych było tyle ile potrzeba - być może nie wspominalibyśmy teraz tego wydarzenia jako jedna z największych tragedii ludzkich w naszej historii.