Data Analytics знае дали бихте оцелели на Титаник

Потъването на Титаник е едно от най-трагичните събития в съвременната морска история. То не е най-смъртоносното, но се превърна в символ на човешкото тесногръдие, поне що се отнася до технологичния напредък. През 1912 г., Титаник е най-големият и най-луксозният кораб, създаван някога. За него се е смятало, че е непотопяем. Както всички знаем, той потъва по време на първото си плаване към Ню Йорк.

Днес, модерният data analytics може да моделира съществуващи данни в опит да прогнозира потенциални резултати. Потъването на Титаник е добре документирано събитие и много данни могат да бъдат извлечени, класифицирани и подредени. Това е едно от най-популярните предизвикателства в Kaggle, общността на учени, работещи с големи данни и прогнозиране. Целта на предизвикателството е да прогнозира шансовете за оцеляване на пътниците. С изследването на фактори като пол, възраст, класа на билета и още много, machine learning алгоритми могат да прогнозират дали даден пътник би могъл да оцелее в катастрофата.

Патрик Триест прави детайлно описание в Python, като залага 13 променливи, за да захрани своя аналитичен модел, включително име, пол, възраст, брой роднини на борда, номер на билет, неговата цена, кабина, номер на спасителна лодка и т.н.

Входни данни показват, че бихте имали 38% шанс за оцеляване, ако сте сред пътниците и моряците на борда на Титаник. Презокеанският лайнер има само 20 спасителни лодки, 4 от тях сгъваеми с обща вместимост от 1178 души. На борда на Титаник е имало 2224 души, пътници и екипаж. В най-добрия случай, шансовете за оцеляване са 52,9%. За съжаление, реалният резултат е доста по-лош.

Статистическите данни от потъването на Титаник показват, че имате най-висок шанс за оцеляване (62%), ако имате билет за 1-а класа, в сравнение с 25,5 на сто за пътниците от 3-а класа. Разделете този сет от данни по признак пол и ще установите, че ако сте дама в 1-а класа имате почти 100% шанс да се спасите. Но ако сте от другата страна на социалната скала с билет за 3-а класа, шансовете се стапят до 20 на сто.

Патрик Триест прилага всички известни променливи за всеки пътник и моделира техните шансове като след това сравнява резултатите с действителния списък на оцелелите от потъването на Титаник. Следващата му стъпка е да стартира machine learning алгоритъм, чиято цел е да установи взаимовръзки между различните стойности, които биха имали отношение към евентуалното оцеляване. Следващата стъпка е дърво на решенията, чийто първи клон се разделя на пол, вторият – по класа и третият е получената от него прогноза.

Така, Триест постига точност от 77%, верифицирана с тестови данни. Той пробва да моделира дърво на решенията с невронни мрежи, които са по-добри от традиционния machine learning при откриването на взаимовръзки в неструктурирани данни като снимки и естествен език. Всички тези експерименти повишават точността до 80%.

Вероятно най-интересната част от аналитичната задача на Патрик Триест е фактическото кръстосване на прогнозния модел и реалните събития. Например, кончината на почти цялото милионерско семейство Алисън е изненадваща, доколкото съпругата Бетси Алисън и дъщерята Лорейн Алисън имат според алгоритъма почти 100% шансове за оцеляване, на база билетите им в първа класа и техния пол. Истината е, че семейство Алисън не успява да открие най-малкия член на семейството, синът Тревър Алисън и по тази причина отказва да се евакуира без него. В действителност, към този момент малкият Тревър Алисън вече е на сигурно място в спасителна лодка заедно със своята бавачка и се превръща в единствения член на семейството, преживял потъването на Титаник.

Когато работим с подобни данни, не трябва да смятаме човешкото поведение за сета от данни. В действителност, хората са предсказуеми до известна степен. Но човешката страна на историята не може да бъде уловена от статистически анализи и сложна математика. Те могат да ни дадат ценни прозрения, да ни насочат към сега зараждащи се тенденции, взаимовръзки и корелации, които могат да ни помогнат с разбирането на какво и защо се е случило.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *