Как скачать документ, книгу с защищенного сайта(только чтение) (Для примера взял книгу с открытым доступом)?
(заранее извиняюсь, что цитирую того человека, просто ту тему я найти не могу, она не высвечивается в браузере, как ранее. Некоторые важные моменты сохранились. Если вдруг автор скажет что-то удались — сразу удалю)
Буду раскрывать все карты — поэтапно, поскольку пока что вообще не разбираюсь коде, но один добрый человек вдохновил меня на поиски решения. Но пришлось на некоторое время забыть. Как видите — по итогу безуспешно, раз пишу сюда (потому что слишком туп). Теперь по существу: «предмет исследования» — книга-пример с открытым доступом из сайта юрайт: https://urait.ru/viewer/grazhdanskoe-pravo-i-proce. . «объект исследования» — возможность скачать ее любым способом (пожалуйста, только не надо предлагать нажать «сохранить как» правой кнопкой мыши несколько сотен раз.)
Так вот, внезапно тот добрый человек кидает результат через день: https://disk.yandex.ru/d/wOHMnfNx-rsxaQ (не в том порядке страницы, но меня удивил сам факт того, что это получилось). Я его стал расспрашивать что да как. Он отвечает, что в отладке (F12) увидел, что каждая страница качается в .svg по ссылке вида */page_N.svg.gz выкачал все страницы конвертировал в pdf и объединил. Далее он пишет что есть куча способов выкачать ссылку, от curl и wget, до python скрипта. Он использовал Download Master «добавить группу закачек» На сайтах, где требуется авторизация, он из консоли разработчика скрипт писал, чтобы ссылки выкачать.
Это все что тогда я успел взять с развития темы. После пост удален скорее всего. Сейчас появился CHAT GPT. Я в шоке с его возможностей, но из-за своего непонимания ситуации даже он мне не помог. Я ему предложил написать код для скачивания всех картинок на примере данных с этого URL: https://urait.ru/library/svobodnyy-dostup/pravo-yu. (уже другая книга, но тоже с открытым доступом) . Он мне скинул этот код:
В этом коде, вы создаете цикл от 1 до 302, который загружает каждую страницу в формате .svg.gz. Затем, используя fetch API, вы загружаете этот файл в бинарный формат. Наконец, вы создаете ссылку на этот файл и скачиваете его с помощью метода click.
Я: Вставил эту команду, все 302 файла скачались, но формат файлов не поддерживается и они имеют одинаковый размер. Вылезала ошибка в консоли 302 раза: Failed to load resource: the server responded with a status of 404 ()
ЧатЖПТ: Судя по всему, сервер не поддерживает скачивание этих файлов или они просто не существуют. Возможно, эти файлы генерируются динамически при запросе или требуется определенный доступ для их загрузки. Попробуйте найти информацию об этом на сайте или у администратора сайта.
Я: забыл добавить еще ошибку: Не удалось загрузить карту исходного кода с помощью инструментов разработчика: Не удалось загрузить контент для https://static.isu.pub/fe/product-header-frontend/. : Ошибка HTTP. Код статуса 403, net::ERR_HTTP_RESPONSE_CODE_FAILURE.
ЧатЖПТ: Эти ошибки говорят о том, что ваш браузер не может загрузить какие-либо файлы, потому что сервер вернул статус ошибки 404 или 403. Ошибка 404 означает, что сервер не нашел файл, который вы запрашиваете. Ошибка 403 означает, что ваш доступ к файлу запрещен. В этом случае, вам нужно обратиться к владельцу сайта или администратору, чтобы убедиться, что у вас есть необходимые права доступа.
Доступно только для пользователей (как получить ссылку на скачивание файлов без регистрации)
Часто можно встретить надпись на разных сайтах «Доступно только для пользователей». Значит. чтобы увидеть ссылку на скачивание файла, необходимо зарегистрироваться. Но иногда (не всегда!) можно легко обойти это и получит ссылки безо всякой регистрации.
Получаем ссылку без регистрации
Для получения ссылки нам нужно увидеть HTML-код веб-страницы. Для этого кликаем правой кнопкой мыши на странице и выбираем: «Исходный код» (Opera), «Просмотр исходного кода страницы» (Mozilla Firefox), «Просмотр HTML-кода» (Internet Explorer), «Просмотреть источник страницы» (Google Chrome, которым я с переменным успехом пользовался несколько днея назад). Не отвечаю за абсолютную правильность, т.к. у меня три из четырех браузеров на украинском.
Внимание! Для просмотра HTML-кода можно просто нажать комбинацию клавиш Ctrl+U во всех браузерах.
Далее необходимо подключить поиск: в Opera — клик правой кнопкой мыши > «Создать поиск». Комбинация клавиш для всех браузеров: Ctrl+F. Искать мы будем слова, которые написаны на странице рядом с надписью «Доступно только…». Я выбрал «Медведев и Путин».
На странице может встретиться несколько таких надписей, но (домашнее задание!) несложно определить искомую.
Сразу за ней будет идти знакомая надпись про «Доступно…»
Лирическое отступление: самые сообразительные спросят, а почему бы сразу не искать именно этот текст, «Доступно только для пользователей»? Отвечаю: этот текст, как правило, скрытый, и ваш браузер его не найдет. Хотите — проверьте! (Скамейка окрашена)
Следом за надписью про доступ можно увидеть ссылки на файлообменники: в данном случае это — DepositFiles и LetItBe. Вот они-то нам и нужны.
Выделим и скопируем (Ctrl+C), например, ссылку на депозитфайлз…
Откроем новую вкладку (Ctrl+T) и вставим ссылку в адресную строку (Ctrl+V). Нажимаем Enter и нашему взору открывается нужная страница для скачивания файлов.
Аналогично происходит и со ссылкой на летитбит. Удачи!
Вечно ваш, дядя Шурик.
Все мои подобные посты — с тегом «HTML»
P.S. Переходы в мой дневник по поисковым фразам сегодня радуют!
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.
Как скачать файлы с сайта через код страницы
Иногда возникает необходимость создать какую-то систему, сделать программу для скачивания определённых файлов с вашего сайта. Это могут быть абсолютно любые файлы — изображения, текст, архивы и так далее, главное, что бы пользователь мог их каким-либо образом скачать себе на компьютер.
Как вариант, для размещения файлов можно использовать различные сторонние сервисы, а пользователям просто указывать ссылки на скачивание, но согласитесь, выглядит это не совсем правильно. Раз у вас есть свой сайт, значит все подобные процессы должны происходить именно на нём, без обращения куда либо ещё. Ко всему прочему, организовать контролируемое скачивание (например, на платной основе) намного проще и удобнее на своём сайте, чем со стороннего сервиса.
Сразу стоит отметить: сделать скачивание файлов с сайта абсолютно не сложно, однако понадобиться прописать определённый код, а для этого нужно знать основы HTML и PHP.
Начнём с простого примера.
Создайте на своём сайте папку, в которой будут располагаться файлы для скачивания — это пригодится и в дальнейшем (во всём должен быть порядок!). Назовите её как вам будет удобно, например, my_content .
Создайте на компьютере какой-нибудь файл архива (например, content.zip ) абсолютно с любым содержимым и поместите в эту папку.
Теперь откройте код любой страницы, на которой имеется изображение и сделайте это изображение ссылкой на созданный файл. В результате вы получите что-то типа
Можно даже сразу оформить это как кнопку:
Сохраните, откройте эту страницу и кликните на изображение. Через 1-2 секунды откроется диалоговое окно с предложением установить (скачать) данный файл на компьютер. Нажмите на ниже расположенную кнопку и убедитесь в этом сами:
Что в результате мы получили?
К артинку, при клике на которую на компьютер пользователя поступает предложение скачать нужный контент. Казалось бы, желаемый результат достигнут, однако не всё так просто! Во-первых, в таком варианте не все типы файлов воспринимаются браузером как объект для скачивания. Во-вторых, адрес скачиваемого файла виден всем пользователям, а это далеко не самый лучший вариант. Рассмотрим всё это по порядку.
Как скачивать файлы изображений, текстовые и другие
Файлы типа .zip браузер сразу же выводит на скачивание, а вот другие будет стараться открыть и/или показать — так уж он устроен. Например, если кликнуть на ссылку с изображением, браузер откроет это изображение, так как это его работа — выводить текст и изображения на страницу. Если кликнуть на файл типа .pdf, то браузер, умеющий работать с такими файлами, откроет и его, но в обоих случаях будет предложено скачать данный файл. Т.е. браузер будет пытаться сначала обработать, открыть указанный файл и только потом предложит его скачать.
А как сделать, что бы браузер не открывал файлы, а сразу предлагал их скачивать? Всё просто: нужно указать в ссылке атрибут download:
<a href=»/адрес файла» download>Текст или изображение</a>
Попробуйте перейти по этой кнопке, имеющей стандартную ссылку на файл изображения:
<a href=»https://web-development-school.ru/images/foto/japanese-spitz.jpg»> . </a>
Браузер выведет изображение на экран и предложит его сохранить или напечатать. А теперь попробуйте сделать тоже самое, но с добавленным атрибутом download:
<a href=»https://web-development-school.ru/images/foto/japanese-spitz.jpg» download> . </a>
Если для данного атрибута указать значение, то файл скачается с новым именем (с сохранением расширения):
<a href=»/адрес файла» download=’новое_имя’>Текст или изображение</a>
Теперь в диалоговом окне вместо изначального файла japanese-spitz.jpg будет предложено скачать файл с именем Японский шпиц.jpg.
Зачем нужно скрывать полный путь к скачиваемому файлу?
Если в выше приведённом примере вы посмотрите код страницы (клавиши Ctrl + U ), то увидите, что адрес скачиваемого файла лежит в открытом доступе. В некоторых браузерах вообще достаточно навести курсор на изображение и внизу отразится соответствующая ссылка. Хорошо это или плохо?
Файл, находящийся в открытом доступе, может скачать кто угодно. Если вы по каким-либо причинам не хотите, что бы это происходило (например, у вас платное скачивание или скачивание только для зарегистрированных пользователей), путь к файлу необходимо скрыть, убрать со страницы. Да и просто не стоит показывать всем какие папки есть на вашем сайте!
Как сделать, что бы адрес скачиваемого файла не отражался на странице?
Основной смысл такой системы скачивания заключается в том, что доступ к требуемому файлу будет иметь не какой-либо элемент на странице (изображение, кнопка), а соответствующий этому элементу скрипт, расположенный на сайте. Проще говоря, кнопка будет запускать скрипт, который в свою очередь выведет на экран диалоговое окно с предложением загрузить выбранный контент на компьютер; соответственно сама кнопка не будет иметь прямого доступа к файлу и путь к нему (адрес) не будет отображаться на странице.
Рассмотрим общую схему такой системы на примере простого компонента для CMS Joomla, ведь в данном случае тип CMS не играет никакого значения: важно понять общий принцип и слегка адаптировать код под свой сайт.
Папка для хранения скачиваемого контента уже создана, поэтому остаётся не забыть запретить к ней доступ в файле robots.txt, находящемуся в корне сайта. Для этого нужно дописать всего одну строку:
Теперь рассмотрим схему и код работы системы (компонента) для скачивания.
Пользователи CMS Joomla при желании могут установить компонент на свой сайт (кнопка внизу страницы), изучить и использовать по назначению. Перед установкой создайте в папке my_content помимо уже созданного ранее content.zip ещё два файла с любым содержимым (это нужно исключительно для демонстрации работы): content.pdf и content.jpg .
Данный компонент создаёт отдельную страницу, на которую выводятся все скачиваемые файлы (в нашем примере — три). Для каждого создаётся отдельный блок, содержащий изображение, пояснительный текст и кнопку для загрузки. Доступ к этой странице осуществляется через соответствующий пункт в главном меню, например, «Мои изображения», «Загрузки» или что-то в этом роде.
Как вариант, вы можете просто разместить код таких блоков на любой странице независимо от CMS.
Самый простой код каждого такого блока выглядит примерно так:
<!— Блок 1 —>
<div style =’ min-height: 270px; ‘ >
<hr>
<div style =’ float: left; margin-right: 12px; ‘ > <img src =’путь к изображению’ title =» alt =» / ></div>
<h2> Файлы .zip </h2>
<p style color: #0000ff;»>text-align: justify; » > Пояснительный текст </p>
<p style =’ text-align: center; ‘ >
<button name =’ btn_1 ‘ value =’ on ‘ type =’ submit ‘ style =’ background: none; border: none; ‘ >
<img src =’путь к изображению на кнопке’ title =’Скачать’ alt =’Скачать’ >
</button>
</p>
</div>
Как видите, весь блок для удобства заключён в теги <div> . </div>. Внутри находится изображение, так же помещённое в блок <div> . </div>, для которого установлено обтекание по правой стороне; соответственно, справа от изображения располагаются название (в виде заголовка) и пояснительный текст. Под текстом находится кнопка, которая при клике отправляет на сервер значение в виде пары имя_кнопки — > значение (‘btn_1 — > ‘on’). Какое именно значение будет отправлено роли не играет, важно какой кнопкой это сделано, т.е. её имя. Не сложно догадаться, что для второго блока кнопка будет иметь имя btn_2, для третьего — btn_3 и так далее.
Соответственно, все блоки находятся внутри формы, указывающей параметры отправления данных на сервер:
<form name color: #0000ff;»>form_my_cont » method color: #0000ff;»>post » action =»index.php?option=com_my_content&view=my_content&task=download» enctype color: #0000ff;»>multipart/form-data » >
.
</form>
где в action указан адрес обработчика формы.
При клике на любую кнопку форма отправит на сервер соответствующие данные методом POST. При поступлении запроса контроллер компонента перенаправит эти данные файлу обработчика формы ext_download.php , находящемуся в папке process (для других CMS схема может немного отличаться, но суть остаётся прежней).
Что же сделает обработчик при поступлении запроса? Ничего сложного! Рассмотрим детально его код, но для начала условимся, что на выше созданной странице существуют три кнопки — btn_1, btn_2 и btn_3, позволяющие отправить файлы content.zip, content.pdf и content.jpg соответственно.
<?php
defined( ‘_JEXEC’ ) or die (‘ Restricted access’ );
if (isset( $_POST[‘btn_1’] )) <
$file = $_SERVER[‘DOCUMENT_ROOT’] . ‘ /my_content/content.zip ‘;
$fyles_type = ‘.zip’;
> elseif (isset( $_POST[‘btn_2’] )) <
$file = $_SERVER[‘DOCUMENT_ROOT’] . ‘ /my_content/content.pdf ‘;
$fyles_type = ‘.pdf’;
> elseif (isset( $_POST[‘btn_3’] )) <
$file = $_SERVER[‘DOCUMENT_ROOT’] . ‘ /my_content/content.jpg ‘;
$fyles_type = ‘.jpg’;
>
if (file_exists( $file )) <
header (‘ Content-Description: File Transfer ‘);
header (‘ Content-Type: application/ ‘ . $fyles_type );
header (‘ Content-Disposition: attachment; filename= «‘.basename( $file ).'»‘);
header (‘ Expires: 0 ‘);
header (‘ Cache-Control: must-revalidate ‘);
header (‘ Pragma: public ‘);
header (‘ Content-Length: ‘ . filesize( $file ));
readfile ( $file );
exit ;
>
?>
В начале при помощи конструкции if / elseif в зависимости от наличия переменной $_POST[‘имя кнопки’] переменным $file и $file_type присваивается имя и тип запрашиваемого файла соответственно.
Особое внимание нужно уделить адресу файла, а точнее — пути к нему. Из-за особенностей работы функции readfile() указать адрес в виде «чистого» URL нельзя: система просто не сработает; поэтому проще всего воспользоваться переменной $_SERVER[‘DOCUMENT_ROOT’] или (для CMS Joomla) JPATH_BASE.
Далее если указанный файл существует передаются соответствующие заголовки header , которые дают команду браузеру создать диалоговое окно загрузки и предложить пользователю загрузить файл с определённым именем; за это отвечает строка
header (‘ Content-Disposition: attachment; filename= «‘.basename( $file ).'»‘);
Обратите внимание: в данном случае функция basename подставляет тоже имя, которое есть у исходного файла. Если по каким-то причинам вы хотите это имя заменить, то вместо данной конструкции пропишите соответствующее имя с указанием того же расширения.
В конце функция readfile ( $file ) считывает исходный файл и помещает его в буфер обмена.
Так же обратите внимание на завершающую команду exit : без неё система выдаст ошибку!
Всё! Теперь пользователь может без проблем скачать на свой компьютер нужный ему файл. Вот пример вышеописанного кода целиком (для загрузки трёх различных файлов):
Страница загрузок
<!— Блок 1 —>
<div style =’ min-height: 270px; ‘ >
<hr>
<div style =’ float: left; margin-right: 12px; ‘ > <img src =’путь к изображению’ title =» alt =» / ></div>
<h2> Файлы .zip </h2>
<p style color: #0000ff;»>text-align: justify; » > Пояснительный текст </p>
<p style =’ text-align: center; ‘ >
<button name =’ btn_1 ‘ value =’ on ‘ type =’ submit ‘ style =’ background: none; border: none; ‘ >
<img src =’путь к изображению на кнопке’ title =’Скачать’ alt =’Скачать’ >
</button>
</p>
</div><!— Блок 2 —>
<div style =’ min-height: 270px; ‘ >
<hr>
<div style =’ float: left; margin-right: 12px; ‘ > <img src =’путь к изображению’ title =» alt =» / ></div>
<h2> Файлы .zip </h2>
<p style color: #0000ff;»>text-align: justify; » > Пояснительный текст </p>
<p style =’ text-align: center; ‘ >
<button name =’ btn_2 ‘ value =’ on ‘ type =’ submit ‘ style =’ background: none; border: none; ‘ >
<img src =’путь к изображению на кнопке’ title =’Скачать’ alt =’Скачать’ >
</button>
</p>
</div><!— Блок 3 —>
<div style =’ min-height: 270px; ‘ >
<hr>
<div style =’ float: left; margin-right: 12px; ‘ > <img src =’путь к изображению’ title =» alt =» / ></div>
<h2> Файлы .zip </h2>
<p style color: #0000ff;»>text-align: justify; » > Пояснительный текст </p>
<p style =’ text-align: center; ‘ >
<button name =’ btn_3 ‘ value =’ on ‘ type =’ submit ‘ style =’ background: none; border: none; ‘ >
<img src =’путь к изображению на кнопке’ title =’Скачать’ alt =’Скачать’ >
</button>
</p>
</div>Обработчик формы
<?php
defined( ‘_JEXEC’ ) or die (‘ Restricted access’ );
if (isset( $_POST[‘btn_1’] )) <
$file = $_SERVER[‘DOCUMENT_ROOT’] . ‘ /my_content/content.zip ‘;
$fyles_type = ‘.zip’;
> elseif (isset( $_POST[‘btn_2’] )) <
$file = $_SERVER[‘DOCUMENT_ROOT’] . ‘ /my_content/content.pdf ‘;
$fyles_type = ‘.pdf’;
> elseif (isset( $_POST[‘btn_3’] )) <
$file = $_SERVER[‘DOCUMENT_ROOT’] . ‘ /my_content/content.jpg ‘;
$fyles_type = ‘.jpg’;
>
if (file_exists( $file )) <
header (‘ Content-Description: File Transfer ‘);
header (‘ Content-Type: application/ ‘ . $fyles_type );
header (‘ Content-Disposition: attachment; filename= «‘.basename( $file ).'»‘);
header (‘ Expires: 0 ‘);
header (‘ Cache-Control: must-revalidate ‘);
header (‘ Pragma: public ‘);
header (‘ Content-Length: ‘ . filesize( $file ));
readfile ( $file );
exit ;
>
?>
Как видите, ничего сложного нет и подобный код можно легко установить на любую CMS.
В следующей статье читайте о том, как сделать платное скачивание с вашего сайта — как всегда, всё подробно и доступным языком. Но если вы ещё не изучили основательно статью про обычное скачивание — настоятельно рекомендуем начать именно с неё, так как тема платного скачивания является её продолжением.
11 фишек для извлечения и сохранения данных с сайтов
В закладки
БЕЗ скриптов, макросов, регулярных выражений и командной строки.
Эта статья пригодится студентам, которые хотят скачать все картинки с сайта разом, чтобы потом одним движением вставить их в Power Point и сразу получить готовую презентацию. Владельцам электронных библиотек, которые собирают новые книги по ресурсам конкурентов. Просто людям, которые хотят сохранить интересный сайт/страницу в соцсети, опасаясь, что те могут скоро исчезнуть, а также менеджерам, собирающим базы контактов для рассылок.
Есть три основные цели извлечения/сохранения данных с сайта на свой компьютер:
- Чтобы не пропали;
- Чтобы использовать чужие картинки, видео, музыку, книги в своих проектах (от школьной презентации до полноценного веб-сайта);
- Чтобы искать на сайте информацию средствами Spotlight, когда Google не справляется (к примеру поиск изображений по exif-данным или музыки по исполнителю).
Ситуации, когда неожиданно понадобится автоматизированно сохранить какую-ту информацию с сайта, могут случиться с каждым и надо быть к ним готовым. Если вы умеете писать скрипты для работы с утилитами wget/curl, то можете смело закрывать эту статью. А если нет, то сейчас вы узнаете о самых простых приемах сохранения/извлечения данных с сайтов.
1. Скачиваем сайт целиком для просмотра оффлайн
В OS X это можно сделать с помощью приложения HTTrack Website Copier, которая настраивается схожим образом.
Пользоваться Site Sucker очень просто. Открываем программу, выбираем пункт меню File -> New, указываем URL сайта, нажимаем кнопку Download и дожидаемся окончания скачивания.
Чтобы посмотреть сайт надо нажать на кнопку Folder, найти в ней файл index.html (главную страницу) и открыть его в браузере. SiteSucker скачивает только те данные, которые доступны по протоколу HTTP. Если вас интересуют исходники сайта (к примеру, PHP-скрипты), то для этого вам нужно в открытую попросить у его разработчика FTP-доступ.
2. Прикидываем сколько на сайте страниц
Перед тем как браться за скачивание сайта, необходимо приблизительно оценить его размер (не затянется ли процесс на долгие часы). Это можно сделать с помощью Google. Открываем поисковик и набираем команду site: адрес искомого сайта. После этого нам будет известно количество проиндексированных страниц. Эта цифра не соответствуют точному количеству страниц сайта, но она указывает на его порядок (сотни? тысячи? сотни тысяч?).
3. Устанавливаем ограничения на скачивание страниц сайта
Если вы обнаружили, что на сайте тысячи страниц, то можно ограничить число уровней глубины скачивания. К примеру, скачивать только те страницы, на которые есть ссылка с главной (уровень 2). Также можно ограничить размер загружаемых файлов, на случай, если владелец хранит на своем ресурсе tiff-файлы по 200 Мб и дистрибутивы Linux (и такое случается).
Сделать это можно в Settings -> Limits.
4. Скачиваем с сайта файлы определенного типа
В Settings -> File Types -> Filters можно указать какие типы файлов разрешено скачивать, либо какие типы файлов запрещено скачивать (Allow Specified Filetypes/Disallow Specifies Filetypes). Таким образом можно извлечь все картинки с сайта (либо наоборот игнорировать их, чтобы места на диске не занимали), а также видео, аудио, архивы и десятки других типов файлов (они доступны в блоке Custom Types) от документов MS Word до скриптов на Perl.
5. Скачиваем только определенные папки
Если на сайте есть книги, чертежи, карты и прочие уникальные и полезные материалы, то они, как правило, лежат в отдельном каталоге (его можно отследить через адресную строку браузера) и можно настроить SiteSucker так, чтобы скачивать только его. Это делается в Settings -> Paths -> Paths to Include. А если вы хотите наоборот, запретить скачивание каких-то папок, то их адреса надо указать в блоке Paths to Exclude
6. Решаем вопрос с кодировкой
Если вы обнаружили, что скачанные страницы вместо текста содержат кракозябры, там можно попробовать решить эту проблему, поменяв кодировку в Settings -> Advanced -> General. Если неполадки возникли с русским сайтом, то скорее всего нужно указать кодировку Cyrillic Windows. Если это не сработает, то попробуйте найти искомую кодировку с помощью декодера Лебедева (в него надо вставлять текст с отображающихся криво веб-страниц).
7. Делаем снимок веб-страницы
Сделать снимок экрана умеет каждый. А знаете ли как сделать снимок веб-страницы целиком? Один из способов — зайти на web-capture.net и ввести там ссылку на нужный сайт. Не торопитесь, для сложных страниц время создания снимка может занимать несколько десятков секунд. Еще это можно провернуть в Google Chrome, а также в других браузерах с помощью дополнения iMacros.
Это может пригодиться для сравнения разных версий дизайна сайта, запечатления на память длинных эпичных перепалок в комментариях или в качестве альтернативы способу сохранения сайтов, описанного в предыдущих шести пунктах.
8. Сохраняем картинки только с определенной страницы
Идем на owdig.com, указываем нужную ссылку, ждем когда отобразятся все картинки и кликаем на оранжевую полоску справа, чтобы скачать их в архиве.
9. Извлекаем HEX-коды цветов с веб-сайта
Идем на colorcombos.com и набираем адрес искомой страницы и получаем полный список цветов, которые использованы на ней.
10. Извлекаем из текста адреса электронной почты
Предположим, что вам надо сделать рассылку по сотрудникам компании, а их email-адреса есть только на странице корпоративного сайта и копировать их оттуда в ручную займет лишние 20-30 минут. В такой ситуации на помощь приходит сервис emailx.discoveryvip.com. Просто вставьте туда текст и через секунду вы получите список всех адресов электронной почты, которые в нем найдены.
11. Извлекаем из текста номера телефонов
Идем на convertcsv.com/phone-extractor.htm, копируем в форму текст/html-код, содержащий номера телефонов и нажимаем на кнопку Extract.
А если надо отфильтровать в тексте заголовки, даты и прочую информацию, то к вам на помощь придут регулярные выражения и Sublime Text.
Есть и другие способы извлечения данных с сайтов. Можно попросить какую-ту информацию непосредственно у владельца ресурса, cохранять части веб-страниц с помощью iMacros и парсить сайты с помощью Google Apps Script. Еще можно пойти традиционным путем и написать для парсинга bash-скрипт, но статей об этом на iPhones.ru пока нет.
В закладки