GPT
-
강화 학습 기반 미세 조정 - OpenAI의 12일: 2일차IT 이야기/IT업계소식 2024. 12. 13. 15:10
안녕하세요. 제 이름은 마크이고 OpenAI에서 연구를 이끌고 있습니다. 어제 우리는 O1 모델을 사전 공개 단계에서 벗어나 ChatGPT에 정식으로 도입했으며, 곧 API에서도 출시할 예정입니다. O1은 모델이 응답을 내놓기 전에 충분히 사고할 수 있도록 하는 최신 모델 개선 시리즈입니다. 오늘은 모델 커스터마이징 프로그램의 최신 발전 사항을 소개하려 합니다. 사용자가 자신의 데이터셋을 활용하여 O1 모델을 직접 미세 조정할 수 있게 해 줄 예정입니다. 이는 기존의 일반적인 미세 조정이 아니라, 강화 미세 조정(reinforcement fine-tuning)입니다. 이 방법은 강화 학습 알고리즘을 활용하여 모델의 수준을 고등학생 수준에서 전문가, 박사 수준으로 끌어올렸던 기술을 각자의 활용 사례에 적용..