обрабатывать больше ваших данных, зная меньше о вас

Общества, экономики и услуги всех видов все больше полагаются на массовую обработку данных для принятия решений или просто для улучшения своего продукта. Это подразумевает, что каждый раз, когда мы выполняем действие в цифровом мире – и постепенно также в физическом – оно регистрируется где-то, обрабатывается и пересекается с другими базами данных различного происхождения.

Кроме того, на карту поставлена конфиденциальность пользователей, и наиболее выдающимся инструментом для ее сохранения является так называемый "дифференциальная конфиденциальность", Это определение применяет статистические и математические концепции, необходимые для того, чтобы надежным образом мы могли полагаться на неидентификацию этих данных, которая может быть во многих случаях чувствительной или критической, но позволяющей использовать великие тенденции, которые порождают из них.

Этот подход к обработке данных, предложенный дифференциальной конфиденциальностью – чье происхождение отчасти принадлежит публикациям Cynthia Dwork, исследователя из Microsoft, – внедряется технологическими гигантами, такими как Google, – который был привержен этому с тех пор, как даже не сделал этого. они называли это, это было пять лет назад в Chrome -, Apple или убер. Конечная цель: собирать и обрабатывать больше ваших данных всех видов, даже не имея возможности оценить, какие именно данные на самом деле их делают ваш,

Недавно Google выпустил часть библиотек, которые они используют для этой цели, так что любая компания или организация, которая обрабатывает большие объемы данных, может продолжать делать это, но с некоторыми определенные гарантии на уровне конфиденциальности и без необходимости программировать все с нуля. Мы говорим с Мигелем Геварой, менеджером по продуктам в отделе конфиденциальности и защиты данных в Google, который дает Hipertextual Некоторые из ключей к этой новой инициативе свободного программного обеспечения.

Бронированное лечение по статистике

Чтобы защитить чтение базы данных от конфиденциальных данных, недостаточно заменить часть данных закодированными строками – через хэширования из наиболее чувствительных, таких как имена – и явный прецедент для этого случая Netflix. В 2007 году, когда платформа начала транслировать видео по запросу, чтобы улучшить свою систему рекомендаций, она предложила приз в размере одного миллиона долларов тем, кому удалось улучшить производительность своего алгоритма как минимум на 10%.

Для этого они опубликовали базу данных с 100 миллионами оценок от 500 000 пользователей, с некоторыми элементами хешированноетаким образом, они не были непосредственно идентифицируемы. К его удивлению, эти данные были частично и легко деанонимизированы при пересчете с оценками IMDb. Несколько исследователей из Университета Техаса вскоре получили сведения о пользователях, которые использовали обе платформы, «обнаруживая их очевидные политические предпочтения и другую конфиденциальную информацию», когда мы читали аннотация публикации.

Конечно, этот риск возрастает, поскольку базы данных, частью которых мы являемся, имеют все больше записей на разных уровнях, которые позволяют устранить эту анонимность на основе контекстной информации которые во многих случаях могут быть получены относительно легко и даже через общедоступные.

Конфиденциальность, определенная надежно – и математически –

Дифференциальная конфиденциальность закрывает эту дыру и «позволяет узнать совокупную статистику о населении, – объясняет Гевара, – и в то же время очень систематическим образом предотвращает получение наблюдателем информации о конкретном пользователе». Это в основном добавив больше статистического шума к ответу, более конкретный вопрос Что мы делаем с базой данных. Как адаптация принципа неопределенности Гейзенберга в физике, примененного социальным императивом в науке о данных.

Если мы хотим получить очень конкретные данные по очень небольшому подмножеству субъектов в выборке, шум будет тем больше, чем меньше размер выборки, и поэтому результаты будут иметь тенденцию постепенно становиться все более бесполезным на практическом уровне, «В то время шум, который вы вносите, настолько велик, что результаты превращаются в мусор», – говорит Мигель Гевара. Таким образом, управление большими базами данных по разным схемам конфиденциальности становится априори довольно обнадеживающим.

Если вы ищете слишком много деталей в соответствии со стандартами дифференциальной конфиденциальности, «шум, который вы вносите, настолько велик, что результаты становятся мусором», – говорит Гевара.

В любом случае, использование дифференциальной конфиденциальности в данном проекте не защищает конкретную информацию о лицах, которые появляются в нем. По крайней мере per se, Есть несколько способов его применения, и это так называемая глобальная модель, в которой «контроллер может поместить слой между базой данных и теми, кто получает эту информацию, и этот уровень использует дифференциальную конфиденциальность, и это то, что мы делаем». с открытым исходным кодом«По словам менеджера по продуктам Google, который утверждает, что этот метод« очень гибкий ».

Такой подход позволяет компаниям работать с моделью дифференциальной конфиденциальности, всегда сохраняя контроль над данными, с которыми они работают, основываясь на представлении их руководителя. Мигель Гевара комментирует, что «это дает контролеру данных возможность принять очень рациональное решение относительно риска, которому он хочет подвергаться при обмене этими данными».

Конфиденциальность или справедливость

Гевара рассказывает, как, согласно недавним исследованиям, «вы не можете иметь в контексте машинного обучения справедливость и конфиденциальность»: «Представьте себе группу кечуа в высокогорье Перу, которая также хочет использовать интеллектуальную клавиатуру Google. Если мы хотим тренироваться Для их модели нам нужна какая-то информация об этих базах данных. Но если мы обучим их с разной конфиденциальностью, мы в конечном итоге создадим модель, которая не работает для очень маленьких групп населения ».

И, по его словам, «дебаты очень недавние», но, несмотря на то, что техника уже позволяет приспосабливаться к потребностям каждой среды: «параметры дифференциальной конфиденциальности позволяют, при желании, защитить наличие или отсутствие групп». Как пример, это «какое-то меньшинство, которое вы можете себе представить». Среди них особенно уязвимы этнические группы, такие как «мусульмане в стране, где их не так много».

Открытая и совместная инициатива

Google

С TensorFlow гигант Mountain View уже предоставляет один из наиболее часто используемых наборов библиотек в науке о данных. Также в области конфиденциальности и шифрования. С этим новым вкладом Google снова ожидает большой успех: «в этой области очень мало библиотек, особенно библиотек, работающих в масштабе», таких как те, которые они публикуют сейчас, и что «мы также используем их в своих службах внутри страны», – говорит Гевара. , «На разработку этой библиотеки у нас ушло много времени, два года, чтобы стать достаточно сильными. Я надеюсь, что организации, которые не имеют таких ресурсов или не имеют времени, могут использовать их для получения большей отдачи от имеющихся у них данных без ущерба для конфиденциальности своих пользователей. "

«Организации, которые не имеют таких ресурсов или не имеют времени, могут использовать его для получения большей пользы от данных, которые они имеют, без ущерба для конфиденциальности своих пользователей»

И это не однонаправленный процесс, но он также взаимен с сообществом, от которого они надеются получить определенные обратная связь на нескольких уровнях, и это даже позволяет усилить конфиденциальность в своих продуктах. «Мы очень вдохновлены криптографическим полем. В« крипто », чтобы доказать, что алгоритм шифрования безопасен, люди сделали для того, чтобы сообщить об этом сообществу, чтобы сообщество начало атаковать его и выяснить, есть ли сбои». или нет. " «Мы надеемся, что это исходит от организаций, гражданского общества, правительств и исследователей. Этот первый этап библиотеки очень ориентирован на людей, имеющих навыки в области программного обеспечения, или ученых-данных. Любая обратная связь приветствуется».

Благодаря этой технике всего за несколько лет жизни могут быть разработаны проекты, которые сохраняют конфиденциальность тех, кто в них появляется без необходимости изобретать велосипед в каждой реализации. Это то, что любят гиганты Apple или Uber может позволить себе, хотя, возможно, не другие более мелкие компании.

В Google они ожидают, что этот тип книжного магазина будет рассмотрен любой тип проекта, который обрабатывает значительный объем данных, Что касается его размера, Мигель говорит, что «любая компания или организация, которая управляет данными из более чем ста человек, может извлечь выгоду из этой библиотеки»: «социологи, экономисты» или, возможно, также обнаружить «модели потребления чувствительного характера». ».

Дискуссия, которая может возникнуть для компании, состоит в том, чтобы приложить дополнительные усилия для доступа к меньшему количеству данных или менее детализированным способом. На вопрос о том, достаточно ли стимула, который может быть этическим, но и превентивным, Гевара утверждает, что «то же самое сомнение, что у вас сейчас, у нас было внутри». «Мы обнаружили, что люди привыкли использовать не совсем точные данные, что является результатом различий в конфиденциальности. Это может быть медленный процесс из-за изменения взгляда на то, как мы понимаем данные сегодня. Это подразумевает принятие данных, к которым мы собираемся get будет иметь некоторый шум, который некоторые будут полностью подавлены, но важно помнить, что тенденции большого количества населения в базе данных остаются полностью там, и статистическая строгость все еще существует там ".

«Когда люди начинают понимать, как это работает, эта интуиция может дать им большую уверенность в том, как используются их данные».

Учитывая растущий сбор данных компаниями и после того, как возможное изменение восприятия в глазах пользователейГлава Google сравнивает ситуацию, сложившуюся при шифровании данных. «30 лет назад идея шифрования была очень странной для большинства людей. Я думаю, что это все еще так, но мы, как сообщество, достигли уровня интуитивного понимания, которое позволяет людям более или менее чувствовать безопасность, когда они знают, что ваша информация зашифрована. Я надеюсь, что нечто подобное случается с дифференциальной конфиденциальностью и что, когда люди начинают понимать, как это работает, эта интуиция может дать им большую безопасность в отношении того, как используются их данные ».

Бронированное лечение по статистике

Открытая и совместная инициатива

Add comment

Cancel reply