+7 9339336202

Парсинг сайтов. Россия и мир. Как с точки зрения закона выглядит один из самых полезных инструментов?

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов "добычи" контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны.

Парсинг – не то же самое, что API. Например, компания может открыть доступ к API, чтобы позволить другим системам взаимодействовать с ее данными; при этом качество и количество доступных данных через API, как правило, ниже, чем можно получить, используя парсинг. Кроме того, парсинг предоставляет более актуальную информацию, чем через API, и значительно проще настраивается со структурной точки зрения.

Области применения «парсинговой» информации очень многочисленны. Спортивный журналист может использовать парсинг, чтобы исследовать бейсбольную статистику для статьи. Или, например, в электронной коммерции можно извлекать наименования товаров и цены на них из разных источников для последующего анализа.

Но, хоть парсинг и, несомненно, мощный инструмент, когда дело касается правовых вопросов, могут появиться трудности. Поскольку в процессе парсинга изначально существующий контент из разных источников присваивается тем, кто этот инструмент использует, появляются этические и юридические затруднения.

В чем разница между терминами "парсинг" и "краулинг"?

Давайте для начала определимся с терминами, чтобы быть уверенными, что думаем об одном и том же. Парсинг – это процесс регулярного автоматического скачивания данных с веб-страницы и извлечение из нее конкретной информации. Иными словами это то чем мы занимаемся для наших клиентов - парсим сайты так, чтобы данные поступали регулярно (в основном по товарам).

Извлеченная информация может храниться практически где угодно (в базе данных, файле и т.д.). Краулинг – это процесс автоматического скачивания данных с веб-страницы, извлечение гиперссылок, которые на ней есть, и переход по ним. Скачанные данные обычно хранятся в каталоге или в базе данных, чтобы можно было легко запустить поиск по ним.

Например, вы используете парсер, чтобы извлечь данные о прогнозе погоды с сайта метеорологической службы. Это позволит вам проанализировать их. С другой стороны, вы можете использовать краулер, чтобы скачать данные сразу со многих сайтов, и сделать поисковой движок. Может, вы уже слышали про Гуглбота (Googlebot), собственный веб-краулер Гугла. Выходит, по сути, парсеры и веб-краулеры используются в самых разных целях.

Почему парсинг часто представляют в негативном свете?

Репутация парсинга была сильно подмочена в последние несколько лет, и это справедливо:

  • Его все больше используют в интересах бизнеса, чтобы получить конкурентное преимущество. Так что часто за этим стоит финансовая мотивация.
  • Часто парсинг используют, совершенно игнорируя авторское право и условия обслуживания на сайте (правила использования). Хотя кто их вообще читает? :)
  • Парсинг нередко используют нечестно, злоупотребляют им. Например, парсеры могут посылать куда как больше запросов в секунду, чем человек, и это выливается в неожиданную нагрузку на сайты. Еще парсеры могут оставаться анонимными и никак себя не определять. И, в конце концов, они могут выполнять еще и запрещенные действия: обходить меры безопасности, которые защищают данные от автоматического скачивания и делают их недоступными в любом другом случае.

Множество людей и компаний используют свои собственные парсеры прямо сейчас. Их так много, что это уже стало головной болью компаний, чьи сайты парсят. Например, страдают социальные сети (типа Фейсбука, LinkedIn и т.д.) и онлайн-магазины (типа Амазона). Возможно, именно поэтому у Фейсбука есть отдельные правила для автоматического сбора данных.

С другой стороны, это исторический факт: краулинг использовался известными поисковыми движками (типа Гугла, Бинга и т.д.), чтобы скачивать и каталогизировать веб. За долгие годы эти компании заработали положительную репутацию, потому что они создали совершенно необходимые инструменты, которые сделали сайты, которые они краулят, более ценными. Так что, по сути, краулинг представляется в более выгодном свете, хотя им тоже иногда можно злоупотребить.

Так парсить законно или незаконно?

Посмотрим ситуацию в Европе и США, а далее вернемся к России (у нас ситуация гораздо "мягче", пока...)

Парсинг и краулинг не незаконны сами по себе. В конце концов, вы можете парсить или краулить свой собственный сайт, вам никто не указ. Проблема может возникнуть, когда вы парсите чей-то чужой сайт, не получив письменного разрешения или вопреки условиям обслуживания (правила пользования, обычно на них есть ссылка в футере сайта, хотя кто же их читает :). По сути, вы сами ставите себя в слегка уязвимую позицию.

Только подумайте об этом. Вы используете чужую пропускную способность, свободно получаете и используете чужие данные. Логично было бы решить, что владельцу данных это не понравится, потому что то, что вы делаете, может ему каким-нибудь образом навредить. Так что, в зависимости от многих факторов (и настроения владельца), он полностью вправе преследовать вас в судебном порядке.

Знаю, о чем вы сейчас подумали. «Ой да ладно! Это же смешно! С какой стати владелец будет подавать на меня в суд?». Конечно, он может вас просто проигнорировать. Или просто использовать свои технические возможности, чтобы заблокировать вас. Или просто прислать вам запретительное письмо. Но технически ничто не может помешать владельцу подать на вас в суд.

Нужны доказательства? Дело LinkedIn против неизвестных ответчиков: LinkedIn подал в суд на примерно 1-100 человек, которые анонимно парсили сайт. И за что он подал в суд на всех этих людей?

Давайте посмотрим:

  • Нарушение Закона о компьютерном мошенничестве и злоупотреблении.
  • Нарушение уголовного кодекса Калифорнии.
  • Нарушение Закона об авторском праве в цифровую эпоху.
  • Нарушение договора.
  • Вторжение на чужую территорию.
  • Хищение.

Этот судебный процесс вызывает реальное беспокойство, потому что на самом деле неясно, что будет с теми «анонимными» людьми. Учтите: если на вас подадут в суд, вы не сможете просто отклонить иск (я правда не очень понимаю, что будет если мы в России будем парсить зарубежные сайты и на нас подадут в суд в Калифорнии). Вам нужно будет защищаться в суде, чтобы доказать, что вы не сделали ничего противоправного. И неважно, честно это или нет, действительно вы сделали что-то незаконное или нет.

Другая проблема состоит в том, что право – это скорее всего нечто, к чему вы непривычны. Потому что в то время как вы будете использовать логику, здравый смысл и техническую экспертизу, они будут использовать правовой язык и серую зону права, чтобы доказать, чтобы вы сделали что-то плохое. Это определенно не та ситуация, в которой приятно оказаться. Так что вам понадобится адвокат, и это может стоить вам кучу денег.

К тому же, если отталкиваться от судебного процесса LinkedIn, описанного выше, можно увидеть, что дела несомненно могут становиться довольно сложными и объемными, даже если вы «просто парсили сайт».

Типичные контраргументы

Я прекрасно понимаю, что в целом люди стараются оправдать парсинг и краулинг, принижая их значимость. И у таких людей обычно одни и те же типичные аргументы, которые используются снова и снова. Давайте сделаем обзор самых распространенных.

«Я могу делать все что угодно с общедоступными данными»

Проблема в том, что авторские права на «творческую расстановку» данных могут кому-то принадлежать, как описано на сайте cendi.gov: «Авторское право на факты не может кому-то принадлежать. Тем не менее, творческая выборка, координация и расстановка информации и материалов, которые формируют базу данных или компиляцию, могут быть защищены законом (а могут и не быть). Однако заметьте, что защита авторского права распространяется только на творческие аспекты, не на сами факты, которые хранятся в базе данных или компиляции.

Итак, сайт – включая его страницы, дизайн, планировку и базу данных – может быть защищен законом об авторском праве, потому что считается творческой работой. И если вы парсите этот сайт, чтобы извлечь информацию, то даже сам факт простого копирования и сохранения веб-страницы с помощью парсера может быть расценен как нарушение авторского права. В Соединенных Штатах авторская работа защищена Законом об авторском праве в цифровую эпоху.

«Это добросовестное использование!»

Это серая зона:

  • В деле Келли против Arriba Soft Corp. суд постановил, что Ditto.com, поисковой движок, работавший по изображениям, добросовестно использовал фотографии профессиональных фотографов, показывая только иконки-превью.
  • В деле Assosiated Press против Meltwater U.S. Holdings, Inc. суд постановил, что новостной агрегатор Meltwater недобросовестно использовал статьи Associated Press, даже несмотря на то, что полученные парсером статьи были показаны только в качестве выдержек из оригиналов.

«Это то же самое, что обычно делает мой браузер- парсинг сайта технически не отличается от использования веб-браузера. В любом случае, я мог бы собрать данные вручную!»

Неверно. Условия обслуживания (пользовательское соглашение) часто содержат пункты, которые запрещают краулинг/парсинг/харвестинг и вообще автоматическое использование сопутствующих услуг. Ваши руки связаны этими условиями. Неважно, что вы могли бы собрать данные вручную. Еще раз подчеркну, что это не про Россию.

«Худшее, что может случиться, если я нарушу условия обслуживания, – меня забанят или заблокируют».

Это серая зона:

  • В деле Фейсбук против Пита Уордена адвокат Фейсбука угрожал мистеру Уордену подать на него в суд, если он опубликует свой набор данных, который состоит из сотен миллионов профилей Фейсбук.
  • В деле Linkedin Corporation против Майкла Джорджа Китинга Linkedin заблокировал мистера Китинга, лишил доступа к сайту, потому что он создал инструмент который, как думали в компании, был предназначен для парсинга их сайта. Они ошиблись. Но тем не менее, Китинг так никогда и не смог восстановить свой аккаунт. К счастью, дальше это дело не зашло.
  • В деле LinkedIn Corporation против Robocog Inc. последняя (она же HiringSolved) была вынуждена заплатить Linkedin 40 тысяч долларов, потому что без разрешения парсила их сайт.

«Это абсолютно нечестно! Гугл краулит/парсит весь веб сколько существует!»

Верно. Но, видимо, право не имеет ничего общего с честностью. Оно основано на правилах, которые интерпретируют люди.

«Если на меня когда-нибудь подадут в суд, я сумею прекрасно защитить себя!»

Удачи! Круто, если вы знаете право и правовой язык на высоком уровне.

«Но я использовал автоматизированный скрипт, так что я не заключал никаких договоров с сайтом»

Это серая зона:

  • В деле Internet Archive против Сюзанны Шелл суд постановил, что Internet Archive виновен в нарушении договора, так как копировал и архивировал страницы с сайта миссис Шелл, используя краулеры. На своем сайте миссис Шелл выставила предупреждение, в котором говорится, что если вы копируете с сайта контент, то автоматически соглашаетесь с договором. По нему вы должны ей 5 тысяч долларов за каждую скопированную страницу (!!!). В этом деле стороны, по видимому, достигли мирового соглашения.
  • В деле Southwest Airlines Co. против BoardFirst, LLC суд признал BoardFirst виновными в нарушении лицензионного соглашения, которое было выложено на сайте Southwest Airlines. BoardFirst создали инструмент, который автоматически скачивал посадочные талоны клиентов Southwest Airlines, чтобы предложить места получше.

«Условия обслуживания все равно не имеют силы. У них нет правового статуса».

Неверно. Юридическая фирма Bingham McCutchen LLP опубликовала довольно подробную статью на эту тему, и там говорится:

«Как и в случае с любым другим контрактом, по правилам, условия обслуживания сайта имеют силу, если обе стороны приняли условия. […] Неважно, нужно ли кликнуть, чтобы дать согласие, или условия обслуживания – лицензионное соглашение, выложенное на сайте. То, что ответчик не прочитал условия, никак не влияет, условия все равно имеют силу. Один суд не согласился с тем, что от стороны, которая использует краулинговые или парсинговые инструменты, нельзя требовать знания условий обслуживания соглашения с ними, не согласился, что эта сторона не могла знать о них. Также и другой суд решил, что ответчик – сторона, неоднократно использовавшая такие инструменты на определенном сайте, – знал об условиях обслуживания. Тем не менее, эти дела, опять таки, очень сильно зависят от фактов, и суды также, бывало, отклоняли прошение придать юридическую силу условиям обслуживания, когда истец не мог доказать, что ответчик точно знал или мог знать эти условия (т.к. условия были незаметными). Такое бывало даже в случаях, когда ответчик неоднократно использовал краулинговые и парсинговые инструменты на определенном сайте».

Другими словами, условия обслуживания (пользовательское соглашение) будут (могут) иметь юридическую силу, если так постановит суд и если есть существенные доказательства того, что вы в курсе этих условий.

«Я ознакомился с robots.txt и краулил на разумной скорости, так что я не могу попасть в неприятности, правильно?»

Это серая зона.

Robots.txt определяется как «технологический инструмент, предназначенный для сдерживания нежелательного краулинга или парсинга». Но неважно, принимаете вы его во внимание или нет, вы все еще нарушаете условия обслуживания.

«Ладно, но это для личного использования. Только для моего личного исследования. Я не буду публиковать его или производный набор данных, и продавать тоже не буду. Так что все в порядке, так?»

Это серая зона. Условия обслуживания часто запрещают автоматический сбор данных – для любых целей.Обратимся к юридической фирме bingham McCutchen LLP: «Часто условия эксплуатации сайтов включают пункты, запрещающие доступ к сайту или его использование с помощью веб-краулеров, парсеров или других роботов – в том числе и для сбора данных, который является самоцелью. Суды постановили, что соглашения были нарушены использованием краулинговых или парсинговых инструментов».

«Но у сайта нет robots.txt. Так что, я могу делать, что хочу, верно?»

Неверно. Ваши руки все еще связаны условиями обслуживания, а контент все еще защищен авторским правом.

Учитывая все написанное выше, вы уже определенно можете понять, что должны быть особо осторожными с парсингом и веб-краулингом.

Вот несколько советов по поводу парсинга:

  • Если возможно, используйте API вместо того, чтобы парсить данные напрямую.
  • Не нарушайте условия обслуживания.
  • Не нарушайте правила robots.txt.
  • Устанавливайте разумное значение скорости краулинга, то есть не бомбардируйте сайт запросами. Не нарушайте установленные в robots.txt перерывы. Если таковых нет, используйте консервативное значение краулинга (1 запрос каждые 10-15 секунд).
  • Определяйте свой парсер допустимой строкой агента пользователя. Создайте страницу, которая объясняет, что вы делаете и почему, и добавьте ссылку на нее в свою строку агента пользователя (то есть, ‘MY-BOT (+https://имя-вашего-сайта.com/mybot.html)’).
  • Если условия обслуживании или robots.txt не дают вам провести краулинг или парсинг, возьмите письменное разрешение у владельца сайта перед тем как начать делать что-то еще.
  • Не публикуйте данные, которые краулили или парсили, также не публикуйте никаких производных наборов данных без сверки с лицензией на эти данные или без полученного письменного разрешения правообладателя.
  • Если вы сомне