Неожиданный источник данных: Smart TV в роли прокси-серверов
По мере того как спрос на качественные наборы данных для обучения моделей искусственного интеллекта продолжает расти, компании, занимающиеся скрапингом и агрегацией контента, все активнее ищут новые, неочевидные источники трафика. В центре внимания оказались приложения для Smart TV, которые, по данным недавних расследований, могут незаметно собирать веб-данные пользователей для сторонних нужд, в том числе для тренировки нейросетей.
Ключевым игроком в этой сфере стала компания Bright Data, оператор крупной глобальной прокси-сети. Сообщается, что эта фирма интегрировала свой специальный SDK (Software Development Kit) в ряд приложений, доступных для платформ смарт-телевизоров, работающих, в частности, на операционных системах Tizen (Samsung) и webOS (LG).
По сути, после получения согласия пользователя, его домашний интернет-канал может быть задействован для маршрутизации стороннего веб-трафика. Этот трафик затем используется для сбора общедоступной информации из интернета, которая, в свою очередь, обрабатывается и продается клиентам, включая разработчиков ИИ.
Как работает «монетизация» через телевизор
Механизм, предложенный Bright Data, заключается в предложении пользователям некоторого бонуса — например, отключения рекламы или доступа к контенту без комиссий — в обмен на участие в их «сети монетизации».
В маркетинговых материалах компания позиционирует свою платформу как способ трансформации традиционного веб-скрейпинга в структурированную «доставку данных». Главный директор по продуктам Bright Data ранее заявлял, что SDK работает «незаметно, в фоновом режиме и полностью анонимно», и что пользователи ничего не замечают.
Однако расследования выявили, что код этого SDK был обнаружен в некоторых приложениях. Реакция разработчиков на запросы прессы была полярной: некоторые предпочли не комментировать ситуацию, а другие поспешили удалить интеграцию из своих продуктов. Примечательно, что, хотя LG заявила, что работа SDK на webOS «не гарантируется», компания ранее публиковала более двухсот собственных приложений в магазине LG.
Контекст: Эволюция дата-сбора и регуляторное давление
Эта ситуация разворачивается на фоне общей тенденции в индустрии ИИ: заканчивается эпоха легкого доступа к огромным массивам «сырых» веб-данных. Растет количество юридических рисков, а сам веб становится более «засоренным» контентом, сгенерированным самими же ИИ, что снижает качество обучающих выборок. В результате, компании, занимающиеся ИИ, все чаще вынуждены искать структурированные, очищенные или «белые» наборы данных, иногда даже выкупая к ним доступ.
В то же время в сфере регулирования усиливается внимание к вопросам данных. В Европейском Союзе в целом действуют строгие нормы, такие как GDPR, регулирующие обработку персональных данных. Кроме того, в ряде стран обсуждаются инициативы по обязательному раскрытию разработчиками ИИ информации о наборах данных, на которых обучались их модели, что ставит вопрос о прозрачности и происхождении информации.
Подобные процессы касаются и «умных» устройств. Владельцы Smart TV, особенно в ЕС, осведомлены о необходимости контролировать передачу данных, которые устройства собирают для персонализации рекламы или улучшения функций, таких как распознавание контента (ACR) или голосовое управление.
Последствия для пользователей и экосистем
Использование домашних интернет-каналов для проксирования трафика, даже если компания заявляет об анонимности и добровольности участия, вызывает серьезные опасения у экспертов по кибербезопасности.
Хотя Bright Data утверждает, что SDK не собирает личные данные напрямую и что пользователь может отказаться от участия в любой момент, сам факт незаметного использования пропускной способности и ресурсов домашнего устройства для сбора веб-данных сторонними компаниями может нарушать ожидания пользователей относительно конфиденциальности их сетевой активности.
Реакция экосистем также показала уязвимость такого подхода. После того как Google и Roku ввели политики, ограничивающие или запрещающие фоновые прокси-SDK, Bright Data прекратила поддержку этих платформ. Это подчеркивает напряженность между стремлением приложений к монетизации и необходимостью соблюдать правила безопасности и конфиденциальности, установленные операторами платформ.
Потребителям в Латвии и других странах ЕС, использующим Smart TV, рекомендуется внимательно изучать условия предоставления услуг и настройки приватности встроенных приложений, чтобы контролировать, какие именно данные передаются за пределы их домашней сети и для каких целей они используются.











Следите за новостями на других платформах: