Когда вы первый раз включили свой iPhone, iPad, iPod touch или Mac, вам предложила система?
Среди вещей, с которыми народ обычно соглашается, была одна любопытная. Скорее всего, вы позволили Apple следить за всем, что делаете на устройстве. А вашу бдительность усыпили обещания, что полученные данные будут обезличены и никому больше не достанутся.
Дескать, ваши данные надёжно защищены с помощью случайного шума,
На практике всё оказалось несколько иначе. Рассказываем, как на самом деле работает технология дифференциальной безопасности, применяющаяся во всех продуктах Apple. И почему она в исполнении ребят из Купертино.
- Я пропустил, когда появилась дифференциальная безопасность?
- В чём заключается дифференциальная безопасность?
- Какие данные получает Apple от меня? Где посмотреть?
- Теперь к проблеме. Эпсилон? Что это такое?
- Какой эпсилон использует Apple и почему это важно?
- Что говорят исследования на тему безопасности?
- Почему методы Apple опасны?
- Как запретить Apple собирать мои данные?
- Выводы неутешительные. Приватность Apple только на словах
Я пропустил, когда появилась дифференциальная безопасность?
Дифференциальная безопасность была добавлена в iOS 10. В обзоре технологии Apple утверждает, что собирает данные пользователей – но только те, которыми они сами хотят поделится. Информацию использует встроенная система аналитики и другие сервисы, чтобы оптимизировать использование гаджета и софта на нём.
Дифференциальная безопасность применяется для:
- Разработки улучшений для Emoji и QuickType;
- Создания подсказок по поиску;
- Поиска элементов автоматического воспроизведения на сайтах для Safari, чрезмерного расхода энергии этим браузером и ресурсов, которые могут привести к проблемам в его работе (для iOS 11);
- Анализа использования приложения Health (также в iOS 11).
Все собранные данные хранятся до 18 месяцев. Apple заявила, что не собирает IP-адреса или идентификаторы устройств.
В чём заключается дифференциальная безопасность?
Чтобы отследить шаблоны поведения, информацию от множества пользователей сливают в единую базу данных. Но чтобы защитить конкретного пользователя, к его данным примешивается случайный математический шум. Он позволяет разорвать связь между устройством и конкретным набором данных.
Только эти зашумленные данные отправляются на сервера Apple.
В итоге система аналитики исследует обезличенную информацию. Она понимает, как именно владельцы пользуются устройствами, но не знает, к примеру, любите ли конкретно вы много скроллить или нажимать на кнопки, какой у вас любимый эмодзи. Или как вы себя чувствуете после чтения новостей (привет, фейсбук!).
Какие данные получает Apple от меня? Где посмотреть?
Данные, которые отправляются из iOS, можно посмотреть в меню «Настройки» -«Конфиденциальность» – «Аназиз» – «Данные аналитики» – «Дифференциальная приватность».
В macOS можно запустить приложение «Консоль» и увидеть данные в меню «Системные отчёты» – «Дифференциальная приватность» или в пункте «Данные анализа Mac».
Теперь к проблеме. Эпсилон? Что это такое?
До отправки на сервер данные шифруются с использованием хэш-кода и преобразуются в вектор. Каждую координату вектора могут затем изменить на неверное значением (шум) с вероятностью 1/(1+еƐ), где е – экспонента, основание натурального логарифма, приближенно 2,71828, а Ɛ – тот самый эпсилон.
Эпсилон – это параметр, который определяет уровень зашумления ваших данных.
Именно он определяет, как полученная Apple информация смешивается с цифровым шумом. Чем выше переменная эпсилон, тем больше верных персональных данных остаётся.
Какой эпсилон использует Apple и почему это важно?
Компания Apple раскрыла значения переменной Ɛ и частоты отправки данных с выходом iOS 11:
- Для подсказок в поиске и QuickType применяется добавление шума с эпсилон, равным четырём. Данные отправляются дважды в день.
- Для эмодзи эпсилон также равен четырём, но отправка данных выполняется один раз в сутки.
- Информация о приложении Health также отправляется ежедневно, но с эпсилон, равным двум. Причём это скорее не сами данные о здоровье, а то, как пользователи их меняют и насколько часто.
- Наконец, данные о работе Safari отправляются дважды в день с эпсилон, равным четырём.
Но исходные коды функции зашумления Apple, конечно же, не показала. И кто знает, что там на самом деле происходит.
Что говорят исследования на тему безопасности?
Учёные из университетов Южной Калифорнии, Индианы и Цинхуа покопались в коде macOS и iOS и выяснили, что дифференциальная приватность на практике применяется не так, как описано компанией.
Они отследили, как в личные данные добавляется случайный шум. И нашли расхождения с официальной позицией Apple.
Аналитики хотели проверить реальное значение эпсилон. И пришли к выводу: на сервера Apple уходит гораздо больше незашумленных данных, чем ожидалось.
Код операционных систем специалисты разобрали на части программой Hopper. Оказалось, что в реальности у macOS значение эпсилон равно , а у iOS 10 – !
Чем больше эпсилон, тем выше вероятность выследить вас по вашему набору данных. Скажем больше: все значения эпсилон больше единицы рассматриваются как серьёзная угроза безопасности.
К тому же с каждой загрузкой данных вероятность отслеживания повышается. А загрузка 1-2 раза в день – это много.
Конечно, исследователи тестировали macOS 10.12 и iOS 10. Теоретически возможно, что с выходом новых версий Apple уменьшила значения эпсилон.
Но в бета-версии iOS 11 значение эпсилон составляло 43. СОРОК ТРИ! Верите ли вы, что в финальной версии его уменьшили до 2 или 4?…
Почему методы Apple опасны?
Фрэнк МакШерри, один из основателей дифференциальной приватности и бывший сотрудник Microsoft, отметил: Apple будто надела на себя наручники при взаимодействии с вашими данными. Правда, оказывается, что они сделаны из бумаги.
Исследователь привёл следующие расчёты. Если с вашего iPhone ежедневно отправляются данные из приложения Health с эпсилон, равным 14, то компания может вас идентифицировать с вероятностью 50% уже после отправки. А через два дня степень уверенности вырастет почти до 100%.
Apple, конечно же, всё отрицает. Дескать, исследователи ошиблись, все типы информации свалили в кучу и т.п. Корреляции между данными для идентификации пользователей разработчики также отвергли.
Но выглядит это неубедительно. Хотя бы потому, что если бы Apple этим не занималась, то однажды кто-то другой провёл бы параллели между данными и опознал конкретных пользователей. Хотя дифференциальная приватность, вообще говоря, не должна такого допускать.
К слову, в Google Chrome также есть система дифференциальной приватности и инструмент для сбора данных RAPPOR. Внутреннее исследование показало, что для одного пакета данных эпсилон не превышает двух. А на длинной дистанции (отправка нескольких наборов данных) значение может расти до 8-9.
Что ж, зато исходный код RAPPOR лежит в свободном доступе, и все могут посмотреть, как работает анализ.
Как запретить Apple собирать мои данные?
Система предлагает пользователю выбрать, разрешать или не разрешать собирать данные, при первой загрузке. Но отменить решение и запретить отправку статистики можно в любой момент.
iOS 11: сделать это можно в приложении «Настройки» – «Конфиденциальность» – «Анализ» (сделать пункты в меню «Делиться Анализом iPhone, Watch» неактивными) и в настройках Safari «Конфиденциальность и безопасность». Варианты для более старых версий описаны здесь.
macOS: отправка данных отключается в меню «Apple» – «Системные настройки» – «Защита и безопасность» – «Конфиденциальность» – «Анализ». Нужно снять флажки «Отправлять разработчикам» в пункте «Доступ к данным Анализа Mac» и «Поделиться Анализом iCloud».
Выводы неутешительные. Приватность Apple только на словах
Знать наверняка, что о нас с вами знают создатели гаджетов и ПО, можно только при использовании продуктов с открытым исходным кодом и соответствующих навыков анализа кода. Да и то бывают нюансы.
Но если вы не хотите делиться с Apple личной информацией, теперь вы знаете, что делать. Хотя, конечно, и у iOS, и у macOS с безопасностью всё хуже, чем хотелось бы.
Вместо послесловия я соглашусь с мнением криптографа Мэтью Грина, профессора университета Джонса Хопкинса. Он отметил, далее прямая речь:
С одной стороны, как учёный я понимаю, насколько интересно наблюдать за внедрением передовых научных разработок в реальном продукте. И Apple предоставляет очень большую площадку для таких экспериментов. С другой стороны, компания должна при малейших вопросах показывать код, критически важный для безопасности (как Google сделала с RAPPOR), или хотя бы откровенно изложить, что конкретно она реализует.
Если Apple планирует собирать массивные объёмы новых данных с устройств, от которым мы так зависим, то мы должны быть действительно уверены, что они делают всё правильно — а не бурно аплодировать им за внедрение таких крутых идей.
Источник: