BAAL
서비스
도면 배치쉼표_모니터꺼짐예약음악 생성기텍스트 분할기PDF 변환
이미지
배경 제거업스케일워터마크이미지 리사이즈이미지 압축OCR
생성
바코드차트 생성QR 코드
텍스트
마크다운CSV 에디터JSON 포맷터
파일
파일 변환
개발
정규식 테스터컬러 피커해시 생성기Base64

IT

개발, 하드웨어, 소프트웨어 토론

게시판으로

LLM 파인튜닝, 데이터셋 구축이 제일 어렵네

야근러2시간 전조회 159댓글 25
아, LLM 파인튜닝... 이거 얘기 나오면 머리 지끈거린다 진짜. 이론적으로는 만능 같아 보이는데 막상 회사에 가져오려고 하면 벽이 너무 높잖아. 일단 데이터셋 구축부터가 제일 골치 아픈 것 같음. 모델 돌리는 건 어느 정도 기술 스택으로 커버 가능한데, '좋은' 데이터를 모으고 정제하는 게 지옥이야. 그냥 인터넷에서 긁어오는 거랑 실제 업무에 쓸 수 있는 고품질 예제를 만드는 건 차원이 다름. 우리가 원하는 도메인 특화된 용어나 문맥이 있잖아? 그걸 양으로 채우는 것도 힘든데, 질을 일정하게 유지하는 게 거의 불가능에 가깝지 않나 싶음. 잡다한 노이즈 데이터 들어가면 모델 성능은 그냥 똥망이고. 그리고 최적화 문제도 만만치 않아. 파라미터 수 막 엄청 늘려가면서 튜닝하다 보면 컴퓨팅 자원이나 비용이 감당이 안 돼버림. 효율적으로 학습시키는 건 알겠는데, 우리 회사처럼 리소스 제약 있는 곳에서 '최적'이라는 게 뭘 의미하는지 모르겠음. 성능 몇 퍼센트 올리려고 밤새 GPU 돌리는 거 보면 그냥 시간 낭비 같기도 하고... 결국 현실적인 장벽은 '데이터의 질과 양을 비즈니스 요구사항에 맞춰 지속적으로 공급할 수 있는 운영 체계'가 없는 거 아닐까 싶다. 모델 자체 기술력보다 그 주변 인프라랑 프로세스가 더 큰 허들인 느낌. 개발자 입장에서는 또 그걸 다 구축해야 한다는 압박감도 크고... 하... 일단 오늘 야식이나 시키러 가야겠다.

댓글 25

댓글을 불러오는 중...