Базовые навыки программирования для IT рекрутера: парсим email-адреса кандидатов с веб-страниц без использования платного софта

21.08.2017
Создатель портала Recruiting Online и профессиональный рекрутер Гленн Гутмахер опубликовал в блоге Eremedia статью о том, как можно найти электронную почту потенциального кандидата без применения платного софта, а только с помощью базовых навыков программирования. Мы подготовили адаптированную версию этого материала.

Python и регулярные выражения

Для того, чтобы «вытянуть» почтовые адреса с веб-страницы можно использовать язык программирования Python. Гутмахер опубликовал ссылку на уже написанный и документированный код, который может это делать. Чтобы воспользоваться этим скриптом, сначала нужно сохранить страницу на компьютере  и вставить ее содержимое в документ Word. Python-код будет работать в веб-интерфейсе, для него не нужно загружать платные программы и приложения, а результат будет выводиться в консоль на экране. Для работы с Python нужно будет скачать сам этот язык программирования и установить редактор исходного кода. Для загрузки полной версии Python нужно зайти на continuum.io/downloads и cкачать Anaconda (полная версия бесплатна для Windows, Mac и Linux). Если не хочется тратить много места на диске, то можно установить более экономичную версию под названием Miniconda.   Что касается бесплатного редактора исходного кода Atom, то им достаточно просто пользоваться.  Для этого достаточно нажать «Install Packages» («Установить пакет») или воспользоваться горячими клавишами Ctrl+Shift+P, напечатать слово «Script» в поисковой строке программы (первым результатом будет нужное «Script – run code in Atom»), а дальше – нажать кнопку «Install» («Установить»). Можно еще дополнительно прочитать соответствующее обсуждение на Quora, чтобы настроить нужную для работы версию Python. После установки Script, Atom нужно закрыть и перезапустить. После этого  в нем можно создавать новые файлы и пользоваться следующими командами для работы с программой:
  • Ctrl+n – создать новый файл;
  • Ctrl+s – сохранить файл;
  • Ctrl+o – открыть уже существующий файл;
  • Shift+Ctrl+b – протестировать написанный код.
Все эти команды работают как для Windows, так и для Mac, но также подробней о них можно узнать на www.atom.io/docs (для Mac) и на www.youtube.com/watch?v=AtMRdxJTmPE (среди существующих, это видео – одно из лучших). Автор поста создал скрипт, который позволяет сразу открывать список email-аккаунтов в Excel, импортировать их в Google Sheets или CRM. Для использования скрипта нужно заменить путь к папкам и названия файлов в третьей, шестой и седьмой строчках на те, которые сохранены на компьютере пользователя.

JavaScript

Принцип работы с JavaScript почти не отличается от работы в Python. Актуальный код можно найти по ссылке. Документ с построчными комментариями этого кода можно найти здесь. Чтобы запустить код в браузере, нужно осуществить следующие действия:
  •      Создать новую закладку или добавить её в избранное;
  •      Выделить и скопировать код с первой js. страницы (начиная с «javascript:»)
  •      Нажать на новую закладку/избранную закладку и нажать «Редактировать». Затем удалить прошлый URL этой закладки и добавить в код (то, что начиналось с http, теперь начинается с javascript:), а потом нажать OK для того, чтобы сохранить этот код.
Разница между версиями скрипта Python и JavaScript заключается в том, что:
  •      Закладки javascript действуют непосредственно на самой странице (без загрузки в файлы);
  •      Python и JavaScript по-разному реагируют на гиперссылки. Например, если на странице написано «Отправить сообщение», но в исходном коде прописан адрес mailto:[email protected], то JavaScript выделяет актуальный почтовый адрес, а не слова «Отправить сообщение». В то же время JavaScript игнорирует электронные адреса, в то время как Python распознает их в любом виде.  

Скачивание с помощью VBA

VBA – это язык программирования Excel. Его код сохраняется в макросах в файлах Excel, которыми, в свою очередь, можно делиться (filetype .xlsm) и которые можно запускать всего несколькими щелчками мышки. То есть, макрос VBA может выполнять ту же работу, что и Python и JavaScript, создавая в таблице Excel отдельную колонку для электронных адресов напротив каждого анализируемого URL адреса или же создавая отдельный файл со всеми адресами. Более конкретно о данном механизме Гутмахер обещает рассказать в следующей статье.
Поделиться:

Другие статьи:

Летние апдейты продукта
26.06.2023
AI ежедневно мелькает в нашей новостной ленте, оказывая огромное влияние на бизнес и тренды в современном рекрутменте. Потребность в автоматизации процесса найма...
Читать далее
121 телеграм-чат для IT-рекрутеров
01.02.2022
Современный рынок труда давно перегрет, и рекрутерам нередко приходится проходиться по уже имеющейся базе кандидатов. В то же время существуют менее тривиальные,...
Читать далее
Как начать использовать X-Ray поиск от Google: 4 простых шага
27.01.2022
Специалист по рекрутингу и сорсингу в компании Objective Paradigm Сара Голдберг (Sarah Goldberg) опубликовала в 2017 году статью с практическими советами для тех, кто только...
Читать далее