Python и регулярные выражения
Для того, чтобы «вытянуть» почтовые адреса с веб-страницы можно использовать язык программирования Python. Гутмахер опубликовал ссылку на уже написанный и документированный код, который может это делать. Чтобы воспользоваться этим скриптом, сначала нужно сохранить страницу на компьютере и вставить ее содержимое в документ Word. Python-код будет работать в веб-интерфейсе, для него не нужно загружать платные программы и приложения, а результат будет выводиться в консоль на экране. Для работы с Python нужно будет скачать сам этот язык программирования и установить редактор исходного кода. Для загрузки полной версии Python нужно зайти на continuum.io/downloads и cкачать Anaconda (полная версия бесплатна для Windows, Mac и Linux). Если не хочется тратить много места на диске, то можно установить более экономичную версию под названием Miniconda. Что касается бесплатного редактора исходного кода Atom, то им достаточно просто пользоваться. Для этого достаточно нажать «Install Packages» («Установить пакет») или воспользоваться горячими клавишами Ctrl+Shift+P, напечатать слово «Script» в поисковой строке программы (первым результатом будет нужное «Script – run code in Atom»), а дальше – нажать кнопку «Install» («Установить»). Можно еще дополнительно прочитать соответствующее обсуждение на Quora, чтобы настроить нужную для работы версию Python. После установки Script, Atom нужно закрыть и перезапустить. После этого в нем можно создавать новые файлы и пользоваться следующими командами для работы с программой:- Ctrl+n – создать новый файл;
- Ctrl+s – сохранить файл;
- Ctrl+o – открыть уже существующий файл;
- Shift+Ctrl+b – протестировать написанный код.
JavaScript
Принцип работы с JavaScript почти не отличается от работы в Python. Актуальный код можно найти по ссылке. Документ с построчными комментариями этого кода можно найти здесь. Чтобы запустить код в браузере, нужно осуществить следующие действия:- Создать новую закладку или добавить её в избранное;
- Выделить и скопировать код с первой js. страницы (начиная с «javascript:»)
- Нажать на новую закладку/избранную закладку и нажать «Редактировать». Затем удалить прошлый URL этой закладки и добавить в код (то, что начиналось с http, теперь начинается с javascript:), а потом нажать OK для того, чтобы сохранить этот код.
- Закладки javascript действуют непосредственно на самой странице (без загрузки в файлы);
- Python и JavaScript по-разному реагируют на гиперссылки. Например, если на странице написано «Отправить сообщение», но в исходном коде прописан адрес mailto:[email protected], то JavaScript выделяет актуальный почтовый адрес, а не слова «Отправить сообщение». В то же время JavaScript игнорирует электронные адреса, в то время как Python распознает их в любом виде.