Разбиваме 6 мита за големите данни

Доколкото в A4E сме силно ангажирани с големите данни и изкуствения интелект, не може да не бъдем изкушени да споделим нашите мисли за някои от митовете за големите данни. И да ги разбием с каквото ни падне под ръка най-вече с аргументи. Така, поне за малко ще се почувстваме като Mythbusters.

Машините ще заменят хората

Това е по-скоро философско схващане, отколкото нещо друго, но нека сме честни – все пак някой трябва да създаде машините, нали? Връщаме лентата почти век и половина назад, когато автомобилите са прохождали и са срещали огромна съпротива от омнибус компаниите, кочияшите и т.н., тъй като те са се притеснявали, че ще изгубят бизнеса си. Грешно и вярно в същото време.

Историята на цивилизацията ясно показва, че всяка успешна машина създава ползи. Започваме със съдомиялната машина и приключваме със сложните алгоритми за автоматизация, които елиминират човешкия труд. Така, хората получават хиляди възможности да инвестират времето си, както пожелаят. Разбира се, много неща ще се променят, но машините трудно ще заменят хората.

Големите данни са за големия бизнес

Действително, компаниите от Fortune 500 и сините чипове са нагазили дълбоко в големите данни и техния анализ. Също така е истина, че те могат да си позволят огромните бюджети, необходими за сложни инструменти и услуги, за нужната изчислителната мощност, както и учени и анализатори, които да превърнат големите данни в ценна информация.

Също така е истина, че демократизацията на големите данни вече е тук. Много стартиращи компании, също като A4E стъпват на тази сцена с ефективни бизнес модели, таргетирайки общи бизнес проблеми, като например прогнозирането на продажбите и кредитния скоринг, за да ги предолжат като услуга. Така, големите данни вече не са запазена територия за елитния бизнес клуб на мултимилионните бизнеси.

Аналитичното прогнозиране е лесна работа

Огромното количество инструменти за аналитично прогнозиране и визуализиране на данни биха могли да подведат хората, че data analytics е лесна работа. Истината е, че се нуждаете от подготовка по статистическо моделиране, висша математика и Business Intelligence, препоръчително на високо ниво. Желателно е и да имате опит в даден бизнес сектор, за да разбирате добре начина, по който функционира. Дипломирането, опитът и експертизата в тази посока е всичко друго, но не и лесна работа.

Големите данни предсказват бъдещето

Аналитичното прогнозиране действително е голяма възможност, но не е особено мъдро да бъде смятано за приложимо към абсолютно всичко. Също като прогнозирането на времето, не можете да имате точна прогноза за година напред и да знаете дали в съответния ден ще вали. Прогнозирането на времето с приемлива точност е постижимо за седмица, най-много 10 дни напред.

Бедещето на каквото и да било зависи от много променливи. Освен това, има множество събития от различен мащаб и с различно въздействие, за които никой не е наясно кога точно ще се случат.

Важно е да знаем, че с големите данни може да се прогнозира, не да се предсказва. Разликата е съществена.

Data analytics е нищо повече от мода

Изкуственият интелект и аналитичното прогнозиране привличат внимание през последните години и има основателна причина за това. Непредубедената информация, която получаваме като резултат дава възможност за спестяване на пари, време и работна сила. Всичко това са ценни ресурси и по тази причина има хора, които сочат data analytics за универсален бизнес пенкилер. Ето защо, аналитичното прогнозиране се смята за мода.

От друга страна, то е доста повече. Модерният бизнес произвежда огромно количество данни, които са основа за извличане на много и различни бизнес ползи. Без data analytics те ще си останат просто данни.

Колкото повече, толкова повече

Често срещан мит е, че колкото по-големи са данните, толкова по-добре. Е, нашият главен учен, доц. д-р Александър Ефремов коментира, че това не е винаги вярно, тъй като колкото по-голям сет от данни имаш с много променливи, толкова по-вероятно е логиката да бъде изгубена. Той казва още, че ако имаш твърде много наблюдения, представянето на data mining-а ще бъде редуцирано.

В първия случай се налага намаляване на променливите и най-добрият ориентир в тази посока е съществуващата бизнес логика. При втория, data mining-ът се усложнява, но това е правилният начин да се борим с погрешни статистически заключения по време на моделирането. От друга страна, когато поведението на дадена система се променя във времето, многото наблюдения могат да бъдат ирелевантни. Изчистването на този шум в данните изисква огромно количество изчислителна мощност, който превръща моделирането в по-бавен процес, без да е задължително да имаме по-добър резултат.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *