Всеки онлайн магазин би искал да предложи още нещо на база интересът, който потребителят е показал към един или друг продукт. Обикновено, хвърляме поглед към препоръките и ако намерим нещо интересно за себе си, се възползваме от тях. Как обаче се генерират тези препоръки и какво е общото им с големите данни и аналитичното прогнозиране?
Текст майнинг и аналитично прогнозиране
Терминът „текст майнинг“ описва процесът, при който естествената човешка реч и език стават обект на машинен анализ на съдържанието. Текст майнингът се използва често и за различни цели.
Нека фокусираме вниманието си върху една книжарница. Имате огромно количество книги и няколко задължителни късчета информация за всяка от тях. На първо място е авторът – ако проявявате интерес към няколко книги на Джон Гришам, вероятността да имате интерес към останалите е съществена. Но дори и да си падате по юридическите трилъри, да получите препоръки за заглавия на само един автор ще бъде прекалено. Така навлизаме по-дълбоко с жанровете. Физика, крими трилъри, направи си сам, езотерика, научна фантастика и т.н. са малка част от възможните жанрове. Те са ключов момент от подготовката на данните за една книга, т.е. нейната категоризация. Но няма потребители, които да бъдат заключени в един единствен жанр. Интересът на хората е много по-широк от просто един автор или един жанр.
Ето тук текст майнингът става полезен
Всяка книга има синопсис или кратко описание. Текст майнингът може да улови това съдържание и да елиминира от него всички ненужни думи като съюзи, предлози, местоимения и т.н., докато не остане само съществената информация. На хората това им се струва лесно, но за компютрите това може да бъде трудна, но не и невъзможна задача. Те обаче са много по-добри от нас в точните изчисления, в преброяването на думите, изчисляването на наситеността, както и създаване на връзки между различните текстови блокове.
Това е възможно благодарение на т.нар. латентен семантичен анализ. Той е техника от NLP – natural language processing, който изолира сетове от сходни документи или сходни термини. Зад идеята за латентния семантичен анализ стои допускането, че в сходни документи е по-вероятно да има сходни термини. На тази база се конструира т.нар. документно-терминологична матрица, която съдържа честотата на термините (колони) в документите (редове). След това, тя се разделя на три отделни матрици, чийто размер се редуцира чрез прилагане на анализ за значимостта. След това документите се сравняват с изчисляването на специфичната корелация между редовете в първата матрица. Така, ако стойността на сходството е близка до 1, толкова по-голямо сходство има между документите и обратно – ако корелацията е близка до 0, толкова по-малко близки са документите (на база честотата на термините в тях).
Нека се върнем към Джон Гришам и неговите юридически трилъри. Благодарение на аналитичното прогнозиране, уебсайтът на Barnes & Noble например препоръчва да прегледате още няколко от книгите на Гришам, но насочва и към заглавия от Дейвид Балдачи, Майкъл Конъли, Джеймс Патерсън, Лий Чайлд и т.н.
Съчетайте резултатите от текст майнинга с данните от минали покупки на съществуващи клиенти, синхронизирайте ги с поведението на потребителите в реално време и ще имате най-добрите препоръки.
Имате интерес към аналитични продукти и услуги, прогнозиране на продажбите, автоматизирани системи за взимане на решения? Потърсете ни онлайн на https://www.a4everyone.com/contacts