AI
AI와 기술에 관한 이야기
AI가 내 코드 학습한 건 동의한 거 맞아?
🇰🇷 야근러1시간 전조회 105댓글 3
요즘 깃허브 돌아다니다가 문득 든 생각인데.
내가 올린 코드도 누군가의 AI 학습 데이터로 들어갔을 거 아냐. MIT 라이선스 붙여놨으니까 가져다 쓰는 건 자유인데, 그게 모델 학습용으로 통째로 빨려들어간 거랑 같은 건가? 솔직히 모르겠어. 라이선스에 "AI 학습 포함"이라고 명시된 건 본 적이 없거든.
회사에서도 코파일럿 쓰잖아. 나도 쓰고. 근데 그게 추천해주는 코드 스니펫이 어디서 온 건지 생각하면 좀 묘해. 누군가가 밤새워서 짠 코드를 모델이 학습해서, 그걸 내가 탭 한 번 눌러서 자동완성하는 거니까. 그 원작자한테 크레딧이 가냐 하면 안 가지. 돈이 가냐 하면 당연히 안 가고.
오픈소스 커뮤니티에서 이거 가지고 시끄러운 거 이해가 돼. 코드를 공개한 건 다 같이 쓰라는 거지, 기업이 수조 원짜리 모델 만드는 데 재료로 쓰라는 건 아니었으니까. 근데 또 반대로 생각하면, 나도 스택오버플로우에서 남의 답변 복붙한 적 한두 번이 아닌데 그게 뭐가 다른 건가 싶기도 하고.
경계가 진짜 애매해.
글이나 그림 쪽은 더 심하잖아. 작가가 몇 년 걸려서 만든 화풍을 AI가 몇 시간 만에 학습해버리면, 그건 영감을 받은 건지 복제한 건지. 사람이 사람한테 영향 받는 거랑 기계가 데이터로 패턴을 추출하는 거랑 본질적으로 같다고 볼 수 있나. 나는 좀 다르다고 보는데, 이것도 내가 개발자라서 그런 건지 모르겠어.
제일 찝찝한 건 동의 절차가 없다는 거야. 크롤링해서 긁어간 건데 원작자가 그걸 알기나 했을까. opt-out 방식이라는 것도 웃긴 게, 로봇txt 안 걸어놨으니까 동의한 거다? 그건 좀 억지 아닌가. 모른다고 동의한 건 아니잖아.
그렇다고 학습 데이터를 전부 허락받고 쓰자니 현실적으로 불가능하다는 것도 알아. 수십억 개 데이터 하나하나 동의받는 게 말이 되냐. 그래서 어려운 거겠지.
나도 딱히 답은 없어. 다만 최소한 "우리가 이 데이터를 이렇게 썼다"는 투명성은 있어야 하지 않나. 지금은 뭘 학습했는지도 안 알려주니까. 블랙박스에 들어간 건 블랙박스에서 나오는 거고, 그 사이에 누구 권리가 어떻게 됐는지는 아무도 모르는 상태잖아.
야근하면서 짠 코드가 어딘가 모델 파라미터 안에 녹아있을 생각하면 기분이 이상해. 뿌듯한 건지 허무한 건지. 그냥 둘 다인 거 같기도 하고.
댓글 3
댓글을 불러오는 중...