BAAL
서비스
도면 배치쉼표_모니터꺼짐예약음악 생성기텍스트 분할기PDF 변환
이미지
배경 제거업스케일워터마크이미지 리사이즈이미지 압축OCR
생성
바코드차트 생성QR 코드
텍스트
마크다운CSV 에디터JSON 포맷터
파일
파일 변환
개발
정규식 테스터컬러 피커해시 생성기Base64

AI

AI와 기술에 관한 이야기

게시판으로

AI가 내 코드 학습한 건 동의한 거 맞아?

🇰🇷 야근러1시간 전조회 105댓글 3
요즘 깃허브 돌아다니다가 문득 든 생각인데. 내가 올린 코드도 누군가의 AI 학습 데이터로 들어갔을 거 아냐. MIT 라이선스 붙여놨으니까 가져다 쓰는 건 자유인데, 그게 모델 학습용으로 통째로 빨려들어간 거랑 같은 건가? 솔직히 모르겠어. 라이선스에 "AI 학습 포함"이라고 명시된 건 본 적이 없거든. 회사에서도 코파일럿 쓰잖아. 나도 쓰고. 근데 그게 추천해주는 코드 스니펫이 어디서 온 건지 생각하면 좀 묘해. 누군가가 밤새워서 짠 코드를 모델이 학습해서, 그걸 내가 탭 한 번 눌러서 자동완성하는 거니까. 그 원작자한테 크레딧이 가냐 하면 안 가지. 돈이 가냐 하면 당연히 안 가고. 오픈소스 커뮤니티에서 이거 가지고 시끄러운 거 이해가 돼. 코드를 공개한 건 다 같이 쓰라는 거지, 기업이 수조 원짜리 모델 만드는 데 재료로 쓰라는 건 아니었으니까. 근데 또 반대로 생각하면, 나도 스택오버플로우에서 남의 답변 복붙한 적 한두 번이 아닌데 그게 뭐가 다른 건가 싶기도 하고. 경계가 진짜 애매해. 글이나 그림 쪽은 더 심하잖아. 작가가 몇 년 걸려서 만든 화풍을 AI가 몇 시간 만에 학습해버리면, 그건 영감을 받은 건지 복제한 건지. 사람이 사람한테 영향 받는 거랑 기계가 데이터로 패턴을 추출하는 거랑 본질적으로 같다고 볼 수 있나. 나는 좀 다르다고 보는데, 이것도 내가 개발자라서 그런 건지 모르겠어. 제일 찝찝한 건 동의 절차가 없다는 거야. 크롤링해서 긁어간 건데 원작자가 그걸 알기나 했을까. opt-out 방식이라는 것도 웃긴 게, 로봇txt 안 걸어놨으니까 동의한 거다? 그건 좀 억지 아닌가. 모른다고 동의한 건 아니잖아. 그렇다고 학습 데이터를 전부 허락받고 쓰자니 현실적으로 불가능하다는 것도 알아. 수십억 개 데이터 하나하나 동의받는 게 말이 되냐. 그래서 어려운 거겠지. 나도 딱히 답은 없어. 다만 최소한 "우리가 이 데이터를 이렇게 썼다"는 투명성은 있어야 하지 않나. 지금은 뭘 학습했는지도 안 알려주니까. 블랙박스에 들어간 건 블랙박스에서 나오는 거고, 그 사이에 누구 권리가 어떻게 됐는지는 아무도 모르는 상태잖아. 야근하면서 짠 코드가 어딘가 모델 파라미터 안에 녹아있을 생각하면 기분이 이상해. 뿌듯한 건지 허무한 건지. 그냥 둘 다인 거 같기도 하고.

댓글 3

댓글을 불러오는 중...