Распознавание резюме

Обсудим?

Сидит рекрутер, скучает. САП сам все за него делает, даже поработать нечего. Заявочки на поиск от руководителей сами на внутренний портал, внешние сайтики и КА валятся. Отзывы обратно руководителям отправляются. Все интегрировано. Резюме само считывается из почты [email protected], разбирается по косточкам и в базу кандидатов сохраняется. Собеседования с телефончика назначаются, комнатки сами бронируются. Тоска, а не жизнь.

Со всем понятно, но резюме? Мы знаем, что почти любое резюме состоит из типового скелета, где есть персональная информация, контакты, стаж работы. Каждую часть можно формализовать, разобрать на составляющие и оценить множество вариантов оформления.

Мы понимаем, что Имя Фамилия могут соответствовать названию файла, никогда не пишутся через знаки препинания, всегда начинаются с большой буквы или состоят из заглавных, обычно находятся в верхней части документа.

Мы понимаем, что контактный телефон имеет ограниченное количество форматов, и он рядом с именем и адресом электронной почты (если только это не референсы, но в России их почти никто не пишет).

Мы понимаем, что опыт есть последовательность однотипных блоков с указанием места работы, периода, позиции, функций. Это табличка, которую можно вычленить из документа каким-то образом. Например экспортировать в XML, где уже можно понять количество однотипных элементов больше одного.

А как найти все это в тексте? Да тоже элементарно. Есть такая штука как регулярные выражения. Читать тут.

А вот так с ними работать в ABAP:
FIND REGEX ‘A*B’ IN ‘ABAP’.
REPLACE ALL OCCURRENCES OF REGEX regpattern
IN text
WITH new
REPLACEMENT COUNT cnt.

Или вот так можно найти любой адрес электронной почты в тексте:

Data v_pattern = ‘^([0-9a-zA-Z]([-.\w]*[0-9a-zA-Z])*@([0-9a-zA-Z][-\w]*[0-9a-zA-Z]\.)+[a-zA-Z]{2,9})$’. lr_matcher = cl_abap_matcher=> create (pattern = v_pattern Text = ’[email protected]’). CALL METHOD lr_matcher->match RECEIVING success = v_sucess. IF v_sucess = abap_false. Message ‘Invalid email id’ TYPE ‘I’. ENDIF.

(с) Примеры коды взяты с SDN. Автор
Author: Shaira Madhu
Company: Applexus Software Solutions (P) Ltd
Created on: 25 October 2010

Что вы думаете по этому поводу?

Распознавание резюме: 5 комментариев

  1. Vasiliy

    Вместе с EHP3 к SAP E-Recruiting можно стандартно подключать внешний Resume Parsing. Но на практике я встречал клиентскую разработку.

    В облачном SuccessFactors Recruiting тоже есть парсинг резюме – предварительно нужно настроить таблицы соответствий.

  2. VirVit Автор записи

    А по каким критериям/принципу оно разбирает резюме? Точно любой вордовый или PDF файл скушает?:)

  3. Vasiliy

    Если вопрос по SuccessFactors, pdf съест – но только если там текст, а не картинка 🙂
    Языки: Dutch, English, German, French, Spanish, Swedish, Danish,
    Polish, Romanian, Italian, Slovak, Czech, Russian, Portuguese, Chinese

  4. Calm

    Я думаю, что нужно очень-очень много работы, чтобы автоматически обработалась лишь незначительная часть резюме.
    Взять хотя бы про ФИО. Да с чего это в названии файла не может быть знаков препинания?
    “Пупкин В.П.”
    “Резюме Пупкина”
    “ПУПКИН”
    “Резюме для ООО РОГА И КОПЫТА”.

    Это так, на вскидку.
    Предыдущие места работы и вовсе зачем парсить? Рекрутеру без разницы что читать, исходный текст 🙂 или распарсенный вариант.

    imho, с произвольно заполненными файлами не взлетит.

  5. Calm

    Хотя может это имеет смысл в условиях многовековых традиций писания резюме на родине Шайры Мадху 🙂
    В РФ не прокатит.

Добавить комментарий