Неструктурирано съдържание:неизползван източник на гориво за AI и машинно обучение

От Алекс Уелш , вицепрезидент, Analytics Practice, Ephesoft

Бихте ли избрали къде да отидете на почивка, ако можете да получите достъп само до 10 до 20 процента от рецензиите и информацията на уебсайт за пътуване? Ако го направите, вероятно ще имате незабравимо пътуване, но по причини, които може да не ви харесат. И все пак правителствените организации и предприятия – от производството до застрахователните компании и здравеопазването до банкирането – взимат решения по същата линия. И те го правят от години. Те разглеждат лесната информация, която могат да получат от структурирани данни, като същевременно игнорират неструктурираните си данни, които според Deloitte могат да представляват 80 до 90 процента от съдържанието, генерирано в световен мащаб, което прави неструктурираните данни огромен източник на неизползвана стойност.

За щастие, напредъкът в AI (изкуственият интелект) и машинното обучение сега правят възможно и достъпно пресяването и намирането на смисъл в огромни количества неструктурирани данни, получени от видео и аудио файлове, имейли, регистрационни файлове, публикации в социалните медии и дори известия от устройства за Интернет на нещата (IoT). Всички тези данни могат да доведат до огромни ползи, като например когато се използват за автоматизиране на задачи, които са ръчно интензивни и често много повтарящи се. Една задача, например, е да внимавате за червени знамена:специфични критерии или поведение, които могат да показват, че нещо не е наред и трябва бързо да се предприемат коригиращи действия. Нека разгледаме няколко случая от различни индустрии.

Какво ще кажете за застрахователен иск, който изглежда добре на повърхността, но заслужава да бъде разследван, или кандидат за работа, който може да крие информация? Какво ще кажете за пратка на бързоразвалящи се фармацевтични продукти, които може да не са били охладени за част от пътуването си, или договор, който може да е в нарушение на законите на дадена държава или нарушава съществуващо споразумение с друга компания? Важното е, че червен флаг показва проблеми, които, ако не бъдат проверени, могат да причинят големи щети.

Изкуственият интелект е много гладен за данни

Как AI и машинното обучение позволяват по-ефективен и ефективен анализ на данни? Чрез подаване на данни. Като дава на модела за машинно обучение примери за добри и лоши транзакции, той се учи да прави разлика между двата типа. И колкото повече данни обработва моделът за машинно обучение, толкова по-силно затвърждава тези уроци, повишавайки точността.

Така че, въпреки че AI и машинното обучение постигат големи крачки, бизнесът и другите организации трябва да наваксват. Помислете за това по този начин:данните са като гориво. Нуждаем се от него, за да засили нашето мислене, за да вземаме мъдри решения. Но ние изкопахме всички лесни неща, структурираните данни, които пристигат в хубави и спретнати пакети. Но ето къде аналогията с горивото се разпада:въпреки че още един галон газ ни позволява да изминем още 20 до 30 мили мили, колкото повече данни въвеждаме, ни позволява да вземаме значително по-добри и по-точни решения - не само още 20 до 30 -Странни мили — и за да ги направим още по-бързи.

И все пак, толкова дълго време огромна част от нашите данни, нашите неструктурирани данни, остават неизползвани, защото са били твърде скъпи и твърде трудни за достъп и обработка. И въпреки че това вече не е така, тъй като става достъпна нова технология за събиране и анализиране на неструктурирани данни, много хора в бизнеса и други организации са пренебрегнали този напредък.

Къде са умните пари

Международната корпорация за данни (IDC) прогнозира, че до 2020 г. организации, които анализират както структурирани, така и неструктурирани данни – тоест всички релевантни данни – и предоставят полезна информация, ще постигнат допълнителни 430 милиарда долара печалба в производителността спрямо своите конкуренти, които не извършват такъв анализ на данни. И бизнесите, които разбират това, не чакат до 2020 г. Изпълнителен директор в мултинационална застрахователна компания, базирана в Германия, посочва неструктурираните данни като техния най-голям риск. Те разбират съответните числа и работят, за да гарантират, че няма да бъдат хванати неподготвени, като пишат застрахователни полици, които ги излагат на задължения, които биха могли да избегнат.

Комбинираната сила на големите данни, AI и машинното обучение може да улесни обработката на информация, свързана с още по-сложни предизвикателства. Например банките и други организации могат по-точно и по-бързо да откриват измами, укриване на данъци, пране на пари и други схеми, като копаят това, което преди това са били необработени, неструктурирани данни. Това им позволява да засичат и затварят случаи на измами и злоупотреби, както и да избягват многото фалшиви положителни резултати, които могат да възникнат, когато разчитат само на структурирани данни. Споразуменията за търговско финансиране, включително договори и множество източници на данни, между държави или компании също могат да бъдат проучени, за да се определи дали съществуват измами или неравенства, независимо дали са умишлени или не.

Освен това, AI и машинното обучение могат да помогнат на банките и други видове бизнес по-добре да идентифицират и проверяват самоличността на своите клиенти чрез автоматизирани процедури за познаване на клиента (KYC). Такива процедури могат да помогнат да се предотврати използването им, умишлено или по невнимание, за дейности по изпиране на пари, както и да помогнат за предотвратяване на възникване на подкупи и други форми на корупция. Процедурите за KYC също могат да позволят на бизнеса да разберат по-добре финансовите сделки и нуждите на своите клиенти, както и да им помогнат по-разумно да управляват риска. Други предимства включват ускоряване на времето за приходи при въвеждане на нови клиенти, което прави KYC не друг разход, а вместо това източник на печалба.

ИИ и машинното обучение могат да увеличат вашата конкурентоспособност

С всички предимства, получени чрез AI и машинното обучение – и напредъка в технологиите, използвани за обработка на структурирани и неструктурирани данни – време е повече фирми и организации да се възползват от най-големия наличен източник на информация:техните собствени неструктурирани данни.

За автора

Алекс Уелш ръководи глобалната практика за анализ на Ephesoft. Той е опитен търговски директор, мениджър на проекти и предприемач със страст за решаване на критични проблеми на клиентите с иновативни рентабилни технологични решения.