Многомерни регресионни модели – представяния и приложение

Днес човечеството разполага с огромни обеми от данни, касаещи много и различни области. Този феномен е главната предпоставка за все по-широкото разпространение на аналитичното моделиране. Когато моделът отчита повече величини, това дава потенциална  възможност за по-добро отчитане на спецификите на изследваната система. По тази причина многомерните модели, т.е. с много входове и много изходи (MIMO – Multiple Input, Multiple Output) често намират приложение в области като икономика, медицина и т.н., където е характерно наличието на множество входни и изходни величини.

Линейните (по параметри) модели са предпочитани и приложими в много случаи, защото са лесни за създаване и използване и интерпретиране. Освен това, линейните модели са доказано ефективни и при представянето на системи с нелинейно поведение от гл.т. на връзката между входните и изходите величини. Ключовият момент тук е намирането на подходящи трансформации на първоначалните величини (стига да е възможно). Например в кредитната индустрия вероятността кандидат да е ниско рисков се изменя по приблизително логаритмичен закон спрямо дохода. В такъв случай, ако доходът се логаритмува, се получава нова, трансформирана величина, чиято връзка с вероятността кандидатът да е добър е значително по-близка до линейна, в сравнение с оригиналния доход.

Защо бизнесът би искал да намали броя на факторите в модела?

За изграждането на математически модел в практиката се формулират два типа изисквания. Те са бизнес изисквания и статистически такива (доколкото моделът се построява и с използване на данни). Статистическите аспекти основно са свързани с избягване на нежелана преспецификация на модела, което влошава неговото качество, когато де прилага върху нови данни. В тази публикация няма да се спираме на статистическите изисквания, а като пример за бизнес изисквания, можем да приведем налагането на ограничения върху структурата на модела поради икономически причини. Оценката на кредитния риск, в голяма степен разчита на данни от кредитни бюра. Обикновено, тези величини са силно дискриминативни, което ги прави предпочитани пред информацията, подавана от потенциалния кредитополучател. Когато банкова или небанкова финансова институция оценява колко рисков е даден клиент, тя може да използва MIMO регресионен модел.

Обикновено, точността на модела се увеличава чувствително, когато се добавят характеристики предоставени от кредитни бюра. Но тъй като ползването им е свързано с допълнително заплащане, за кредитните институции е разумно да редуцира техния брой във финалния модел. Така, ако характеристиките извличани от бюрото влизат в модела на риска, за да се прогнозира даден изход, тогава е разумно тези величини да бъде използвани за прогнозиране и на други изходни величини.

Друг пример от медицината е когато се прогнозира вероятността даден пациент да има едно или повече заболявания на база набор от лабораторни изследвания. Също като в предишния пример, броят на факторите (резултатите от изследвания) трябва да бъде намален. В противен случай, моделът ще изисква твърде много изследвания да бъдат проведени, което е неудобство за пациентите, а това ще увеличи и разходите на лабораторията за консумативи, както и времето на персонала.

Има две възможни представяния на линейните MIMO модели и едното от тях дава възможност за отчитане на гореспоменатите бизнес изисквания. Двете представяния са описани по-долу.

Резултатът от линеен SISO модел (Single Input, Single Output) е сумата от произведенията между параметрите на модела и участващите в него величини – фактори (регресори). Тази сума може да бъде представена като скаларно произведение на два вектора: този на параметрите и на регресорите – резултатът е прогнозираният изход, който е скалар. От друга страна, изходът от MIMO модел за всяко отделно наблюдение е вектор с толкова елементи, колкото са и изходните величини. В такъв случай, изходният вектор може да бъде представен като произведение на матрица и вектор. От тази гледна точка, има две възможни представяния на линейните MIMO  регресионни модели, а именно представяне с матрица (РМ) и с вектор на параметрите (PV). В първия случай, всички параметри са в матрица и факторите са обединени във вектор, а при PV формата, параметрите са разположени във вектор, а факторите са подредени в матрица.

На пръв поглед няма принципна разлика между двете представяния – и в двата случая изходните величини са произведения между параметри и регресори. Но имайки предвид, че параметрите на модела се оценяват, двете представяния имат различни свойства. При РМ формата, ако даден фактор е в модела, то той участва в обяснението на всеки един от изходите. От друга страна, при PV формата няма подобно изискване: фактор описващ някои от изходите може да не участва във формирането на други изходи. И така, имайки предвид гореспоменатите бизнес изисквания – използването на минимален брой величини от кредитно бюро (които финансовата институция купува) е удачно да се използва PM представянето на модела. Така в математическото описание на кредитоискателите ще участват само най-допринасящите бюро величини. След изграждане на модел в PM форма може структурата на модела допълнително да се прецизира с използване на PV формата.

Естествено, ако няма бизнес потребност от намаляване на количеството фактори и когато моделът е MIMO, PV формата поначало е правилният избор. Причината, както беше споменато е, че всяка група от фактори описваща даден изход, което е всъщност MISO (от Multiple Input, Single Output) подмодел не зависи от фактори, участващи в други MISO подмодели. Така, двете възможни представяния на линейните MIMO модели не са еднакви и имат приложения в различни области.

Повече информация относно представянето на многомерните модели и тяхното изграждане с използване на данни може да намерите тук.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *