Огромная сила больших данных BigData

Tariq MalikТарик Малик*, старший консультант по государственному сектору корпорации Teradata. Ранее он в роли главы Национального агентства по управлению базами данных и регистрациями граждан Пакистана (NADRA) создал одну из самых крупных мультибиометрических систем в мире — «сатанинские знаки» получило более 100 млн граждан Пакистана, для хранения и обработки данных потребовалось около тысячи серверов и 9000 подключенных к ним компьютеров. Сбор и очистка данных потребовали немалых усилий: для раздачи биометрических идентификационных документов в горных районах пришлось даже нанимать альпинистов и лыжников. Но даже первые итоги работы того стоили!

Были выявлены получатели двойных и даже тройных пенсий, много шуму наделало вскрытие практики «сидельцев по найму», отбывающих наказание за других за умеренную мзду. В списках избирателей было обнаружено 37 млн неверных записей (45% от всей базы!) — дубликатов (некоторые лица были зарегистрированы более 20 раз) и просто «мертвых душ».

Tariq Malik Former Chairman, National Database & Registration Authority, Pakistan; Senior Industry Consultant (Government Systems), Teradata Corp., USA

Сколько "мертвых душ" паразитируют на соцзащите?  

Поскольку многие операции, прежде всего финансовые, требуют предъявления удостоверения личности, то их анализ позволил получить картину хозяйственной деятельности значительной части населения и выделить потенциальных налогоплательщиков: владельцев дорогих автомобилей и множества банковских счетов, жителей дорогих районов, активных потребителей. Из них 2,4 млн не имели ИНН, а еще 1,2 млн граждан, его получивших, не подавали налоговую декларацию. «Если значительное число уклонистов заплатило бы законные налоги, то, по нашим оценкам, всего за три месяца мы могли бы увеличить доходы бюджета по крайней мере на 100 миллиардов рупий, или на миллиард долларов, а это около 0,5 процента ВВП Пакистана», — уверен Тарик Малик. При этом он отказался от финансирования со стороны правительства и перевел NADRA на самоокупаемость, что позволило уменьшить политическое давление. Удостоверения личности выдаются бесплатно, деньги взимаются за ускоренную выдачу и за идентификацию при операциях. Например, при открытии счета банк платит за подтверждение личности 35 рупий (0,35 доллара). За пять лет доходы NADRA выросли в три раза, а число сотрудников увеличилось до 18 тыс. NADRA создала дочернюю публичную компанию NADRA Technologies Ltd, успешно работающую на зарубежных рынках.

В зоне внимания Большого Брата

России до этого еще далеко. Несмотря на пришедший из тоталитарного прошлого институт прописки, предполагающий контроль за каждым, государство по-прежнему мало что знает о своих гражданах. Ярким симптомом этого являются переписи, которые приходится регулярно проводить, несмотря на то, что, по словам переписчиков, 20–30% анкет просто «нарисованы». Однако можно надеяться, что постепенная унификация и объединение многочисленных государственных баз данных и развитие систем их анализа позволят и в России реализовать тотальный контроль контингента.

 

Что думают о больших данных банки?

Именно банки сейчас главные российские энтузиасты в применении анализа больших данных. Экономическая ситуация их явно стимулирует. «Сегодня выдавать кредиты смерти подобно, а не выдавать — верная смерть», — с грустью объясняет банкир, вынужденный срочно заняться апгрейдом системы скоринга.

«Вероятность возврата кредита можно прогнозировать по району проживания, марке автомобиля: наихудший прогноз для пешеходов и обладателей ГАЗов, наиболее дисциплинированные — владельцы “Фольксвагенов”», — рассказывает Михаил Левиев, руководитель компании «Алгомост», внедряющей сейчас скоринговую систему в одном из крупных розничных банков. Влияет на вероятность выплаты даже окончание фамилии. Например, самые добросовестные заемщики — обладатели армянских фамилий.