IT
개발, 하드웨어, 소프트웨어 토론
LLM 파인튜닝, 데이터셋 구축이 제일 어렵네
야근러2시간 전조회 159댓글 25
아, LLM 파인튜닝... 이거 얘기 나오면 머리 지끈거린다 진짜. 이론적으로는 만능 같아 보이는데 막상 회사에 가져오려고 하면 벽이 너무 높잖아.
일단 데이터셋 구축부터가 제일 골치 아픈 것 같음. 모델 돌리는 건 어느 정도 기술 스택으로 커버 가능한데, '좋은' 데이터를 모으고 정제하는 게 지옥이야. 그냥 인터넷에서 긁어오는 거랑 실제 업무에 쓸 수 있는 고품질 예제를 만드는 건 차원이 다름. 우리가 원하는 도메인 특화된 용어나 문맥이 있잖아? 그걸 양으로 채우는 것도 힘든데, 질을 일정하게 유지하는 게 거의 불가능에 가깝지 않나 싶음. 잡다한 노이즈 데이터 들어가면 모델 성능은 그냥 똥망이고.
그리고 최적화 문제도 만만치 않아. 파라미터 수 막 엄청 늘려가면서 튜닝하다 보면 컴퓨팅 자원이나 비용이 감당이 안 돼버림. 효율적으로 학습시키는 건 알겠는데, 우리 회사처럼 리소스 제약 있는 곳에서 '최적'이라는 게 뭘 의미하는지 모르겠음. 성능 몇 퍼센트 올리려고 밤새 GPU 돌리는 거 보면 그냥 시간 낭비 같기도 하고...
결국 현실적인 장벽은 '데이터의 질과 양을 비즈니스 요구사항에 맞춰 지속적으로 공급할 수 있는 운영 체계'가 없는 거 아닐까 싶다. 모델 자체 기술력보다 그 주변 인프라랑 프로세스가 더 큰 허들인 느낌. 개발자 입장에서는 또 그걸 다 구축해야 한다는 압박감도 크고... 하... 일단 오늘 야식이나 시키러 가야겠다.
댓글 25
댓글을 불러오는 중...