Обсудим?
Сидит рекрутер, скучает. САП сам все за него делает, даже поработать нечего. Заявочки на поиск от руководителей сами на внутренний портал, внешние сайтики и КА валятся. Отзывы обратно руководителям отправляются. Все интегрировано. Резюме само считывается из почты [email protected], разбирается по косточкам и в базу кандидатов сохраняется. Собеседования с телефончика назначаются, комнатки сами бронируются. Тоска, а не жизнь.
Со всем понятно, но резюме? Мы знаем, что почти любое резюме состоит из типового скелета, где есть персональная информация, контакты, стаж работы. Каждую часть можно формализовать, разобрать на составляющие и оценить множество вариантов оформления. Попробуем подумать как сделать распознавание резюме в SAP HCM?
Мы понимаем, что Имя Фамилия могут соответствовать названию файла, никогда не пишутся через знаки препинания, всегда начинаются с большой буквы или состоят из заглавных, обычно находятся в верхней части документа.
Мы понимаем, что контактный телефон имеет ограниченное количество форматов, и он рядом с именем и адресом электронной почты (если только это не референсы, но в России их почти никто не пишет).
Мы понимаем, что опыт есть последовательность однотипных блоков с указанием места работы, периода, позиции, функций. Это табличка, которую можно вычленить из документа каким-то образом. Например экспортировать в XML, где уже можно понять количество однотипных элементов больше одного.
А как найти все это в тексте? Да тоже элементарно. Есть такая штука как регулярные выражения regexp. Читать тут.
А вот так с ними работать в ABAP:
FIND REGEX ‘A*B’ IN ‘ABAP’.
REPLACE ALL OCCURRENCES OF REGEX regpattern
IN text
WITH new
REPLACEMENT COUNT cnt.
Или вот так можно найти любой адрес электронной почты в тексте:
Data v_pattern = ‘^([0-9a-zA-Z]([-.\w]*[0-9a-zA-Z])*@([0-9a-zA-Z][-\w]*[0-9a-zA-Z]\.)+[a-zA-Z]{2,9})$’. lr_matcher = cl_abap_matcher=> create (pattern = v_pattern Text = ’[email protected]’). CALL METHOD lr_matcher->match RECEIVING success = v_sucess. IF v_sucess = abap_false. Message ‘Invalid email id’ TYPE ‘I’. ENDIF.
(с) Примеры коды взяты с SDN. Автор
Author: Shaira Madhu
Company: Applexus Software Solutions (P) Ltd
Created on: 25 October 2010
Что вы думаете по этому поводу?
5 комментариев
VirVit
А по каким критериям/принципу оно разбирает резюме? Точно любой вордовый или PDF файл скушает?:)
Vasiliy
Вместе с EHP3 к SAP E-Recruiting можно стандартно подключать внешний Resume Parsing. Но на практике я встречал клиентскую разработку.
В облачном SuccessFactors Recruiting тоже есть парсинг резюме — предварительно нужно настроить таблицы соответствий.
Vasiliy
Если вопрос по SuccessFactors, pdf съест — но только если там текст, а не картинка 🙂
Языки: Dutch, English, German, French, Spanish, Swedish, Danish,
Polish, Romanian, Italian, Slovak, Czech, Russian, Portuguese, Chinese
Calm
Я думаю, что нужно очень-очень много работы, чтобы автоматически обработалась лишь незначительная часть резюме.
Взять хотя бы про ФИО. Да с чего это в названии файла не может быть знаков препинания?
«Пупкин В.П.»
«Резюме Пупкина»
«ПУПКИН»
«Резюме для ООО РОГА И КОПЫТА».
Это так, на вскидку.
Предыдущие места работы и вовсе зачем парсить? Рекрутеру без разницы что читать, исходный текст 🙂 или распарсенный вариант.
imho, с произвольно заполненными файлами не взлетит.
Calm
Хотя может это имеет смысл в условиях многовековых традиций писания резюме на родине Шайры Мадху 🙂
В РФ не прокатит.