В соответствующем документе авторы пытаются ответить на вопрос, чем может быть полезна для компаний разработка (приобретение) технологии искусственного интеллекта (ИИ), работающей на основе машинного обучения, для целей предупреждения коррупции и какие действия необходимо предпринимать компании при его внедрении.
Возможности использования ИИ
Несмотря на то, что ни международные документы, ни национальное законодательство, как правило, не содержат прямых требований об использовании ИИ для целей борьбы с коррупцией, применение подобных технологий может быть целесообразным для организаций по ряду причин.
В частности, как отмечают эксперты C4I, использование ИИ может положительно оцениваться при анализе системы мер по предупреждению коррупции в организации. Так, в обновленной редакции руководства Министерства юстиции США «Оценка комплаенс-программ организаций» 2020 года прокурорам рекомендуется, в частности, смотреть на то, имеют ли сотрудники, реализующие функции комплаенса и контроля, необходимый прямой или непрямой доступ к соответствующим источникам данных с тем, чтобы осуществлять своевременный и эффективный мониторинг и/или проверку политик, механизмов контроля и сделок компании, а также на то, существуют ли какие-либо препятствия, ограничивающие доступ к соответствующим источникам данных и, если так, что делает компания, чтобы справиться с такими препятствиями. А в недавнем Соглашении об отсрочке судебного преследования, заключенном Минюстом США с Goldman Sachs Group (одно из крупнейших дел о нарушении Закона США о коррупционных практиках за рубежом, более подробную информацию о котором можно посмотреть в нашей инфографике) отмечалось, что в компании отсутствовало электронное наблюдение за перепиской или деятельностью руководителя организации, которое позволило бы установить, что в конкретную сделку компании был вовлечен контрагент, которому ранее были предъявлены обвинения в коррупции.
Кроме того, многие организации, особенно транснациональные, ведущие деятельность в десятках стран, вынуждены работать с большими объемами данных и учитывать множество разнородных факторов при анализе данных. Аккумуляция и обработка таких данных без использования информационных технологий, в том числе технологий ИИ, может оказаться непосильной задачей для антикоррупционных подразделений. Использование технологии машинного обучения, которое уже получило широкое распространение в корпоративном мире для борьбы с различными видами преступлений, в том числе мошенничеством, кражей личных данных и борьбой с отмыванием доходов, позволяет повысить эффективность выявления неправомерной деятельности (или рисков ее совершения). Так, по словам одного из разработчиков программного обеспечения, позволяющего отслеживать факты мошенничества, внедрение его продукта, работающего на основе ИИ, крупным европейским банком помогло последнему снизить количество ложных срабатываний на 60% и увеличить фактическое обнаружение мошенничества на 50%. А другой международный банк, которому регулирующие органы предписали проверить около 20 млн транзакций за несколько лет, используя технологии машинного обучения не только удовлетворил требования регулирующего органа, но и значительно сократил количество выявляемых подозрительных транзакций, повысив качество процесса их выявления.
В рамках предупреждения коррупции технологии машинного обучения могут быть использованы организацией для:
- оценки коррупционных рисков, как внутриорганизационных, так и внешних, связанных с привлекаемыми контрагентами или проводимыми транзакциями;
- комплексной проверки контрагентов, а также сделок с ними;
- периодического мониторинга действующей системы антикоррупционного комплаенса и принятия мер по ее совершенствованию с тем, чтобы «идти в ногу со временем», поскольку деятельность компании претерпевает постоянные изменения вслед за трансформацией бизнес-инфраструктуры – клиентов, рынков, продуктов, услуг и отношений с бизнес-партнерами, – и антикоррупционная стратегия компании должна меняться вместе с ней.
Определение целесообразности использования ИИ
Однако прежде, чем включать применение машинного обучения в реализуемую стратегию по предупреждению коррупции, организации следует ответить на ряд вопросов, касающихся целесообразности использования ИИ.
1. Будет ли ИИ, работающий на основе машинного обучения, более подходящим, чем системы, основанные на знаниях (knowledge-based systems)?
Компании следует учитывать объемы имеющихся для анализа данных и поставленные перед ней задачи: если масштабы деятельности организации подразумевают необходимость изучения большого объема информации и учета большого количества внешних факторов, то машинное обучение позволит скорее найти взаимосвязи между ними.
2. Достаточно ли сотрудников в антикоррупционном подразделении компании?
Как бы быстро ИИ ни генерировал результаты, они будут бесполезны, если компания не располагает достаточными человеческими ресурсами для своевременного и эффективного использования полученной информации.
3. Должен ли ИИ учитывать не только коррупционные, но и иные риски?
Любая корпоративная программа управления рисками должна учитывать целый ряд рисков, возникающих в деятельности организации: стратегические и операционные риски, риски, связанные с комплаенсом, риски информационной безопасности и т.п. В то же время для организации, возможно, будет более целесообразным начать ознакомление с возможностями использования ИИ для оценки рисков с небольшого узконаправленного участка – коррупционных рисков – и убедиться в необходимости и эффективности его применения, прежде чем расширять сферу его внедрения.
4. Окупит ли себя внедрение ИИ или затраты превысят ожидаемую выгоду?
Как отмечают эксперты C4I, затраты на внедрение технологий машинного обучения в деятельность компании могут потребовать значительных финансовых затрат, которые, в зависимости от уникальных потребностей компании в области выявления и минимизации рисков, могут варьироваться от сотен тысяч до миллионов долларов. Одновременно внедрение ИИ может принести копании долгосрочную инвестиционную выгоду. В этой связи авторы полагают, что внедрение ИИ может быть оправданным, если а) существующие системы контроля компании уже стоят ей несколько миллионов долларов, но не оказывают ощутимого влияния на снижение рисков и б) внедрение машинного обучения может значительно снизить затраты на выполнение функций комплаенса в компании.
Этапы внедрения ИИ
Если, ответив на все обозначенные вопросы, компания решит, что внедрение искусственного интеллекта является целесообразным, то она может приступать к процессу разработки соответствующего программного решение, пять главных этапов которого приводят в своем докладе эксперты C4I.
1. Постановка проблемы. Этап формулирования проблемы состоит из шести ключевых шагов:
- определить ту проблему (задачу) в борьбе с коррупцией, на решение которой будет направлено использование машинного обучение, в частности, точно сформулировать, какой конечный результат должен выдавать алгоритм и как именно будет происходить «прогнозирование», например, по принципу обнаружения аномалий (также известное как анализ выбросов), предполагающему поиск и идентификацию экземпляров, которые не соответствуют типичным данным в наборе данных, а также определить, какие данные будут анализироваться в ходе работы алгоритма;
- провести «инвентаризацию» имеющихся у компании структурированных и неструктурированных данных с целью выявления тех из них, которые могут быть использованы ИИ для решения поставленной задачи; при этом данные, скорее всего, будут иметься у компании в «сыром», непригодном для программной обработки виде, в этой связи потребуется выделить ресурсы на их сбор, обработку и маркировку, а также разработку архитектуры решения машинного обучения;
- разработать сценарии работы с данными, то есть определить, как должны быть представлены данные для работы ИИ и получения необходимых прогнозов, какие для этого требуются категории данных, какие существуют сложности получения доступа к ним, какой объем сведений нужен в рамках каждой категории и т.д., а также присвоить целевые значения для последующего контролируемого обучения модели;
- определить все источники структурированных и неструктурированных данных, которые компания потенциально может использовать для обучения ИИ; здесь важно понимать, что включение в построение и тестирование возможной модели данных, которые не имеют отношения (имеют только опосредованное отношение) к решению поставленной задачи, с одной стороны, потенциально может выявить закономерности, которые не способен обнаружить человек, но, с другой стороны, может стать причиной генерации прогнозов с большим количеством ложно-положительных и ложно-отрицательных результатов;
- определить и сделать приоритетным, по крайней мере на первых порах, использование легко получаемых данных – авторы советуют компании на данном этапе не пытаться определить все потенциальные исходные данные для разрабатываемой модели, а сосредоточиться на 1-3 категориях исходных данных, которые можно легко собрать (например, данные о расходах на подарки и развлечения и контракты с потенциальными и действующими контрагентами) и которые, по мнению компании, дадут разумный первоначальный результат;
- определить формат результатов работы ИИ: компании следует помнить, что алгоритмы и нейронные сети не могут выдавать качественные результаты – только количественные, а потому на данном этапе компании необходимо решить, какие виды количественных результатов (например, числа, метки или кластеры) ей нужны и для каких конкретных целей.
2. Создание набора данных. После постановки задачи, для решения который будет использоваться ИИ, компании необходимо определить набор данных (структурированных, неструктурированных, внутренних или внешних) достаточного размера, чтобы можно было начать обучение соответствующей модели. Как правило, чем больше набор данных, тем сложнее закономерности, которые может выявить программное решение для машинного обучения в сфере борьбы с коррупцией. При этом при выборе данных компании целесообразно ориентироваться на то, имеют ли они отношение к поставленной проблеме, можно ли их получить, приложив разумные усилия, и являются ли они «чистыми» (или могут быть «очищены» в приемлемые сроки и с приемлемыми затратами).
3. Преобразование данных. Прежде чем компания сможет приступить к обучению модели ИИ, ей необходимо «подготовить» требуемые наборы данных. Преобразование данных представляет собой процесс, в ходе которого компания берет данные из необработанного или нормализованного исходного состояния и «преобразует их в данные, объединенные вместе, смоделированные по размеру, де-нормализованные и готовые к анализу». Этапы преобразования данных могут включать изменение типов данных, обработку отсутствующих данных, удаление нецифровых символов и преобразование категориальных данных в числовые.
4. Обучение модели. Хотя при обсуждении предшествующих этапов речь шла только об одном наборе данных, для обучения модели на самом деле требуется три набора: обучающий, проверочный и тестовый. Большую часть всех данных (около 60%) составляет обучающий набор, также известный как набор исторических данных, который используется «для обучения алгоритма, чтобы понять, как применять такие концепции, как нейронные сети, учиться и выдавать результаты, и включает в себя как входные данные, так и ожидаемый выходной результат». Второй набор – проверочный – необходим для выбора и настройки окончательной модели машинного обучения, а третий – для проверки работы обученной модели.
При этом стадия проверки модели на данном этапе является крайне важной при внедрении технологий машинного обучения, так как позволяет компании понять, достаточного ли размера набор данных, на котором она собирается проводить обучение, проверку и тестирование, чтобы генерировать достоверные прогнозы. Использование слишком «маленького» набора данных может привести как минимум к двум проблемам:
- дисбалансу классов – ситуации, при которой в наборе данных есть один «перепредставленный» класс и один значительно «недопредставленный» класс, а задача, которую компания ставит перед ИИ, заключается в обнаружении редкого события; по сути, дисбаланс классов – это отсутствие разнообразия данных, то есть недостаточная широта и разнообразие меток данных и связанных с ними атрибутов для эффективного обучения модели на разнообразных сценариях, которые она должна анализировать и понимать;
- «переподгоке» и «недоподгонке» – ситуациях, при которых модель не может эффективно работать с набором данных, отличным от обучающего набора, или не справляется ни с обучающим, ни с тестовым набором данных.
Кроме того, вне зависимости от размера набора данных, при внедрении технологии машинного обучения для целей борьбы с коррупцией компания может столкнуться с еще одной проблемой – предвзятостью. Компании следует помнить, что используемые ей данные «всегда частичны и необъективны», так как они создаются в процессе абстрагирования и являются результатом человеческих решений и выборов.
Завершается этап обучения модели оценкой эффективность разработанного решения по таким характеристикам, как точность (доля верных прогнозов модели), достоверность (доля истинно положительных результатов), полнота прогноза (доля истинно положительных результатов, которые были определены правильно) и F-мера (гармоническое среднее между точностью и полнотой).
5. Составление прогнозов и оценка эффективности. Последним этапом внедрения технологии машинного обучения для целей предупреждения коррупции является анализ использования модели для составления прогнозов, то есть анализ прогнозов, генерируемых разработанной моделью с тем, чтобы убедиться в достаточной точности соответствия (т.е. насколько точно прогнозируемые значения модели совпадают с наблюдаемыми или истинными значениями) и в отсутствии проблем, связанных с пере-/недоподгонкой или дисбалансом классов. При этом такой анализ должен проводиться постоянно, так как ни одна модель не может быть статичной и, соответственно, требует корректировки (переобучения) по мере поступления новых данных и/или изменения внешних условий. Авторы доклада отмечают, что на «калибровку» разработанной модели может потребоваться не один месяц. Одновременно эксперты C4I напоминают компаниям о необходимости документировать каждый этап разработки, внедрения и пересмотра программного решения, чтобы при необходимости она могла продемонстрировать работу и эффективность выбранного решения аудиторам и иным регулирующим органам.
Сложности использования ИИ
Помимо приведенного рекомендуемого алгоритма внедрения технологии машинного обучения для целей предупреждения коррупции организациям следует учитывать ряд дополнительных вопросов, решения которых потребует его последующее применение, в том числе:
- безопасность и защита данных – сбор, обработка, использование и передача персональных данных, используемых для работы ИИ, должны соответствовать требованиям законодательства о конфиденциальности данных;
- кибербезопасность – организации потребуется обеспечить защиту конфиденциальных данных от кражи и иных, в том числе неочевидных, угроз, например, возможности непреднамеренного запоминания данных (ситуации, когда алгоритмы машинного обучения «запоминают» определенную последовательность текста и после ввода начала такой последовательности могут автоматически предложить продолжение текста, например, выводя после фразы «Мой номер социального страхования…» реальные номера страхования сотрудников компании);
- контроль работы ИИ – внедрение самообучающегося ИИ, по крайней мере на первых этапах, потребует постоянного контроля за результатами его работы с тем, чтобы своевременно выявлять ошибочные или нежелательные (например, дискриминирующие отдельные группы лиц) решения, а также следить за тем, чтобы ИИ учитывал требования применимого законодательства, в том числе вносимые в него изменения; для обеспечения такого контроля организации потребуется нанимать новых сотрудников или возлагать дополнительные обязанности на действующих сотрудников;
- приведение существующих структур и процессов управления и комплаенса в организации к единообразию, требующемуся для корректной работы ИИ, – на основе сведений, собранных по схожим правилам, формируется набор данных достаточного размера для того, чтобы формулировать прогнозы по всем имеющимся в компании подразделениям и направлениям деятельности.
Примеры использования ИИ
В своем докладе C4I также приводит примеры нескольких компаний, которые разработали и успешно внедрили в свою деятельность по предупреждению коррупции технологию ИИ, работающего на основе машинного обучения. Одна из них – крупнейшая пивоваренная компания Anheuser-Busch InBev (AB InBev), которая ведет свою деятельность в более чем 80 странах, в связи с чем подпадает под действие большого количества различных антикоррупционных и антимонопольных законов, устанавливающих для нее собственные требования и обязательства. По этой причине в 2015 году руководство AB InBev поставило перед собой задачу «более единообразно управлять рисками, которые могут возникнуть в разных странах, и сосредоточиться на создании централизованной программы обеспечения добросовестности». С этой целью было создано единое хранилище данных в масштабах всей компании, содержащее сведения из различных информационных систем, связанных с финансовой, юридической, кадровой и иной деятельностью. Созданная для анализа указанной информации платформа, получившая название «Operation BrewRIGHT», позволяет более эффективно выявлять подозрительные транзакции и контрагентов, взаимодействие с которыми связаны с повышенными коррупционными рисками, на основе ряда атрибутов риска (например, срочность платежа, перевод средств государственной компании и «ненадежный» поставщик) и большего веса таких атрибутов.
BrewRIGHT позволяет отслеживать множество различных рисков, например, связанных с отмыванием денег, нарушением антимонопольного законодательства, наличием конфликта интересов, взаимодействием с поставщиками, оплатой поездок и развлечений (блок с говорящим названием «Free Beer»). При этом оценка рисков включает различные «рабочие процессы», которые могут использоваться как отдельно, так и дополняя друг друга. Например, процесс может начаться с выявления поставщиков, аффилированных с государством, которое завершится присвоением поставщику профиля риска и балла риска; этот профиль может быть использован для отслеживания того, соответствует ли определенная экономическая деятельность целям деятельности поставщика, определенным в процессе проверки (например, поставщик был утвержден для выполнения деятельности А, но в конечном итоге ему заплатили за выполнение деятельности Б); результаты оценки риска затем могут быть использованы для оценки риска каждой отдельной сделки с данным поставщиком.
По оценкам компании, использование BrewRIGHT позволило сократить расходы, связанные с расследованием подозрительных платежей, на миллионы долларов: так, ранее проверка в отношении определенного типа поставщиков в трех странах стоила AB InBev около $1,8 млн; теперь ИИ позволяет провести проверку в отношении того же типа поставщиков в шести странах примерно за $250 тыс.