We are looking for the best
LLM Engineer(Data Platform)는 Generative Model 학습에 필요한 Peta Byte단위의 Text, Image, Video 데이터를 수집하여 효율적으로 관리할 수 있는 시스템을 개발합니다. 개발된 플랫폼은 ML 학습 파이프라인과 연동되어, 필요한 데이터를 효율적으로 공급하며, 필요한 데이터를 신뢰성 있게 공급함으로써 서비스 품질을 높이는 핵심 역할을 맡게 됩니다. 최신 AI 기술 및 데이터 엔지니어링 도구를 다루며, LLM 학습 데이터의 설계 및 최적화 과정에서 기술적 리더십을 키울 수 있습니다.
책임 (Responsibilities)
데이터 수집,처리,저장 및 활용 Pipeline 설계: Peta byte 단위의 텍스트·이미지·비디오 데이터를 정제하여 모델 성능 향상에 기여대규모 Synthetic Data 생성: 대용량의 Synthetic Data를 생성·관리하여, 모델 학습의 품질 개선에 기여데이터 품질 관리 및 자동화: 데이터 품질 지표를 정의하고, 품질 검증 및 모니터링 자동화 시스템을 설계 및 구축데이터 전처리 및 처리 효율화: Parquet, WebDataset, TorchData, TFRecord, datatrove 등 industrial standard의 데이터 처리 포맷 및 도구를 활용하여 데이터 전처리 효율 극대화데이터 레이블링 및 버전 관리: 지속적으로 변화하는 데이터셋에 대한 버전 관리 및 레이블링 프로세스 자동화보안을 고려한 데이터 관리 및 공급: 데이터 무결성과 보안성을 고려한 저장·전송 기술 개발 및 관련 법규·내부 보안 정책 준수,
자격요건 (Qualifications)
소프트웨어·데이터 엔지니어관련 업무 경력 5년 이상Spark, Hadoop 등 대규모 분산 처리 환경에서 데이터 엔지니어링 수행 경험클라우드 환경(AWS, GCP, Azure 등)에서의 개발 경험S3, EMR, DataProc등 클라우드 기반 스토리지·분산 처리 플랫폼 사용 능력대규모 데이터셋의 압축, 인덱싱, 샤딩을 통한 최적화 경험Python, C++ 등을 포함한 프로그래밍 언어에 대한 높은 숙련도와 탄탄한 소프트웨어 엔지니어링 역량모델 학습 및 전처리, 최적화 과정에 대한 이해와 협업 능력,
우대사항 (Preferred Qualifications)
Image, Audio 데이터 실시간/대용량 분산 처리 시스템 개발 경험자영어, 스페인어, 프랑스어 중 1개 이상 언어 능통자Data 관련 오픈소스 프로젝트 기여 경험자,
전형절차 (Interview Process)
서류전형 - 코딩테스트 - 화상면접 (1시간 내외) - 대면 혹은 화상면접 (3시간 내외) - 최종합격전형절차는 직무별로 다르게 운영될 수 있으며, 일정 및 상황에 따라 변동될 수 있습니다.전형일정 및 결과는 지원서에 등록하신 이메일로 개별 안내드립니다.,
참고사항 (Additional Information)
이력서 제출 시 주민등록번호, 가족관계, 혼인 여부, 연봉, 사진, 신체조건, 출신 지역 등 채용절차법상 요구 금지된 정보는 제외 부탁드립니다.모든 제출 파일은 30MB 이하의 PDF 양식으로 업로드를 부탁드립니다. (이력서 업로드 중 문제가 발생한다면 이력서와 함께 지원하시고자 하는 포지션의 URL을 recruit@42dot.ai으로 전송 부탁드립니다.)인터뷰 프로세스 종료 후 지원자의 동의하에 평판조회가 진행될 수 있습니다.국가보훈대상자 및 취업보호 대상자는 관계법령에 따라 우대합니다.장애인 고용 촉진 및 직업재활법에 따라 장애인 등록증 소지자를 우대합니다.42dot은 의뢰하지 않은 서치펌의 이력서를 받지 않으며, 요청하지 않은 이력서에 대해 수수료를 지불하지 않습니다.※ 지원 전 아래 내용을 꼭 확인해 주세요.