Распознавание резюме в SAP HCM

VirVit
11/06/2015

Обсудим?

Сидит рекрутер, скучает. САП сам все за него делает, даже поработать нечего. Заявочки на поиск от руководителей сами на внутренний портал, внешние сайтики и КА валятся. Отзывы обратно руководителям отправляются. Все интегрировано. Резюме само считывается из почты [email protected], разбирается по косточкам и в базу кандидатов сохраняется. Собеседования с телефончика назначаются, комнатки сами бронируются. Тоска, а не жизнь.

Со всем понятно, но резюме? Мы знаем, что почти любое резюме состоит из типового скелета, где есть персональная информация, контакты, стаж работы. Каждую часть можно формализовать, разобрать на составляющие и оценить множество вариантов оформления. Попробуем подумать как сделать распознавание резюме в SAP HCM?

Мы понимаем, что Имя Фамилия могут соответствовать названию файла, никогда не пишутся через знаки препинания, всегда начинаются с большой буквы или состоят из заглавных, обычно находятся в верхней части документа.

Мы понимаем, что контактный телефон имеет ограниченное количество форматов, и он рядом с именем и адресом электронной почты (если только это не референсы, но в России их почти никто не пишет).

Мы понимаем, что опыт есть последовательность однотипных блоков с указанием места работы, периода, позиции, функций. Это табличка, которую можно вычленить из документа каким-то образом. Например экспортировать в XML, где уже можно понять количество однотипных элементов больше одного.

А как найти все это в тексте? Да тоже элементарно. Есть такая штука как регулярные выражения regexp. Читать тут.

А вот так с ними работать в ABAP:
FIND REGEX ‘A*B’ IN ‘ABAP’.
REPLACE ALL OCCURRENCES OF REGEX regpattern
IN text
WITH new
REPLACEMENT COUNT cnt.

Или вот так можно найти любой адрес электронной почты в тексте:

Data v_pattern = ‘^([0-9a-zA-Z]([-.\w]*[0-9a-zA-Z])*@([0-9a-zA-Z][-\w]*[0-9a-zA-Z]\.)+[a-zA-Z]{2,9})$’. lr_matcher = cl_abap_matcher=> create (pattern = v_pattern Text = ’[email protected]’). CALL METHOD lr_matcher->match RECEIVING success = v_sucess. IF v_sucess = abap_false. Message ‘Invalid email id’ TYPE ‘I’. ENDIF.

(с) Примеры коды взяты с SDN. Автор
Author: Shaira Madhu
Company: Applexus Software Solutions (P) Ltd
Created on: 25 October 2010

Что вы думаете по этому поводу?

5 комментариев вЗаметки на полях

5 комментариев

VirVit

11 июня, 2015 в 4:45 пп

А по каким критериям/принципу оно разбирает резюме? Точно любой вордовый или PDF файл скушает?:)

Vasiliy

11 июня, 2015 в 4:42 пп

Вместе с EHP3 к SAP E-Recruiting можно стандартно подключать внешний Resume Parsing. Но на практике я встречал клиентскую разработку.

В облачном SuccessFactors Recruiting тоже есть парсинг резюме — предварительно нужно настроить таблицы соответствий.

11 июня, 2015 в 5:12 пп

Если вопрос по SuccessFactors, pdf съест — но только если там текст, а не картинка 🙂
Языки: Dutch, English, German, French, Spanish, Swedish, Danish,
Polish, Romanian, Italian, Slovak, Czech, Russian, Portuguese, Chinese

Calm

15 июня, 2015 в 10:49 дп

Я думаю, что нужно очень-очень много работы, чтобы автоматически обработалась лишь незначительная часть резюме.
Взять хотя бы про ФИО. Да с чего это в названии файла не может быть знаков препинания?
«Пупкин В.П.»
«Резюме Пупкина»
«ПУПКИН»
«Резюме для ООО РОГА И КОПЫТА».

Это так, на вскидку.
Предыдущие места работы и вовсе зачем парсить? Рекрутеру без разницы что читать, исходный текст 🙂 или распарсенный вариант.

imho, с произвольно заполненными файлами не взлетит.

15 июня, 2015 в 10:53 дп

Хотя может это имеет смысл в условиях многовековых традиций писания резюме на родине Шайры Мадху 🙂
В РФ не прокатит.

Распознавание резюме в SAP HCM

Похожие заметки:

5 комментариев

VirVit

Vasiliy

Vasiliy

Calm

Calm

Добавить комментарий