Базовые навыки программирования для IT рекрутера: парсим email-адреса кандидатов с веб-страниц без использования платного софта

21.08.2017
3 609
Создатель портала Recruiting Online и профессиональный рекрутер Гленн Гутмахер опубликовал в блоге Eremedia статью о том, как можно найти электронную почту потенциального кандидата без применения платного софта, а только с помощью базовых навыков программирования. Мы подготовили адаптированную версию этого материала.

Python и регулярные выражения

Для того, чтобы «вытянуть» почтовые адреса с веб-страницы можно использовать язык программирования Python. Гутмахер опубликовал ссылку на уже написанный и документированный код, который может это делать. Чтобы воспользоваться этим скриптом, сначала нужно сохранить страницу на компьютере  и вставить ее содержимое в документ Word. Python-код будет работать в веб-интерфейсе, для него не нужно загружать платные программы и приложения, а результат будет выводиться в консоль на экране. Для работы с Python нужно будет скачать сам этот язык программирования и установить редактор исходного кода. Для загрузки полной версии Python нужно зайти на continuum.io/downloads и cкачать Anaconda (полная версия бесплатна для Windows, Mac и Linux). Если не хочется тратить много места на диске, то можно установить более экономичную версию под названием Miniconda.   Что касается бесплатного редактора исходного кода Atom, то им достаточно просто пользоваться.  Для этого достаточно нажать «Install Packages» («Установить пакет») или воспользоваться горячими клавишами Ctrl+Shift+P, напечатать слово «Script» в поисковой строке программы (первым результатом будет нужное «Script – run code in Atom»), а дальше – нажать кнопку «Install» («Установить»). Можно еще дополнительно прочитать соответствующее обсуждение на Quora, чтобы настроить нужную для работы версию Python. После установки Script, Atom нужно закрыть и перезапустить. После этого  в нем можно создавать новые файлы и пользоваться следующими командами для работы с программой:
  • Ctrl+n – создать новый файл;
  • Ctrl+s – сохранить файл;
  • Ctrl+o – открыть уже существующий файл;
  • Shift+Ctrl+b – протестировать написанный код.
Все эти команды работают как для Windows, так и для Mac, но также подробней о них можно узнать на www.atom.io/docs (для Mac) и на www.youtube.com/watch?v=AtMRdxJTmPE (среди существующих, это видео – одно из лучших). Автор поста создал скрипт, который позволяет сразу открывать список email-аккаунтов в Excel, импортировать их в Google Sheets или CRM. Для использования скрипта нужно заменить путь к папкам и названия файлов в третьей, шестой и седьмой строчках на те, которые сохранены на компьютере пользователя.

JavaScript

Принцип работы с JavaScript почти не отличается от работы в Python. Актуальный код можно найти по ссылке. Документ с построчными комментариями этого кода можно найти здесь. Чтобы запустить код в браузере, нужно осуществить следующие действия:
  •      Создать новую закладку или добавить её в избранное;
  •      Выделить и скопировать код с первой js. страницы (начиная с «javascript:»)
  •      Нажать на новую закладку/избранную закладку и нажать «Редактировать». Затем удалить прошлый URL этой закладки и добавить в код (то, что начиналось с http, теперь начинается с javascript:), а потом нажать OK для того, чтобы сохранить этот код.
Разница между версиями скрипта Python и JavaScript заключается в том, что:
  •      Закладки javascript действуют непосредственно на самой странице (без загрузки в файлы);
  •      Python и JavaScript по-разному реагируют на гиперссылки. Например, если на странице написано «Отправить сообщение», но в исходном коде прописан адрес mailto:glenn@whatever.com, то JavaScript выделяет актуальный почтовый адрес, а не слова «Отправить сообщение». В то же время JavaScript игнорирует электронные адреса, в то время как Python распознает их в любом виде.  

Скачивание с помощью VBA

VBA – это язык программирования Excel. Его код сохраняется в макросах в файлах Excel, которыми, в свою очередь, можно делиться (filetype .xlsm) и которые можно запускать всего несколькими щелчками мышки. То есть, макрос VBA может выполнять ту же работу, что и Python и JavaScript, создавая в таблице Excel отдельную колонку для электронных адресов напротив каждого анализируемого URL адреса или же создавая отдельный файл со всеми адресами. Более конкретно о данном механизме Гутмахер обещает рассказать в следующей статье.
Поделиться:

Другие статьи:

Sourcing Summit Europe 2018: наши впечатления и лучшие доклады
30.10.2018
328
Недавно мы побывали в Амстердаме на одном из крупнейших европейских мероприятий для профессионалов в сфере рекрутмента – Sourcing Summit Europe. Своими впечатлениями от...
Читать далее
Чем нам запомнится Hiring Success в Берлине
08.10.2018
535
Недавно мы побывали на рекрутинговой конференции Hiring Success в Берлине. Вдохновились, узнали много нового и познакомились с крутыми профессионалами. Своими...
Читать далее
Наши впечатления от поездки на Sourcing Summit London
03.07.2018
1 657
Наталья Березина, руководитель группы рекрутмента в IT-рекрутинговом агентстве GMS поделилась с нами впечатлениями о поездке в Лондон на Sourcing Summit. В этом году в...
Читать далее