강화 학습 기반 미세 조정 - OpenAI의 12일: 2일차

강화 학습 기반 미세 조정 - OpenAI의 12일: 2일차

IT 이야기/IT업계소식 2024. 12. 13. 15:10

반응형

안녕하세요. 제 이름은 마크이고 OpenAI에서 연구를 이끌고 있습니다. 어제 우리는 O1 모델을 사전 공개 단계에서 벗어나 ChatGPT에 정식으로 도입했으며, 곧 API에서도 출시할 예정입니다. O1은 모델이 응답을 내놓기 전에 충분히 사고할 수 있도록 하는 최신 모델 개선 시리즈입니다. 오늘은 모델 커스터마이징 프로그램의 최신 발전 사항을 소개하려 합니다. 사용자가 자신의 데이터셋을 활용하여 O1 모델을 직접 미세 조정할 수 있게 해 줄 예정입니다. 이는 기존의 일반적인 미세 조정이 아니라, 강화 미세 조정(reinforcement fine-tuning)입니다. 이 방법은 강화 학습 알고리즘을 활용하여 모델의 수준을 고등학생 수준에서 전문가, 박사 수준으로 끌어올렸던 기술을 각자의 활용 사례에 적용하도록 돕습니다.

이 기능은 내년에 정식으로 출시될 예정이지만, 현재는 미리보기를 통해 대학, 연구자, 기업 등에서 접근할 수 있도록 정보를 제공할 예정입니다. 왜 이 기능이 필요할까요? 이 기능은 여러분의 고유 데이터셋을 활용해 자신만의 독창적인 AI 기능을 제공하며, 여러분의 사용자와 고객에게 OpenAI 모델이 제공하는 마법과도 같은 경험을 선사할 수 있습니다. 이 기능에 대해 더 자세히 설명드릴게요.

안녕하세요. 저는 OpenAI의 엔지니어 존 앨러드입니다.

안녕하세요. 저는 OpenAI의 연구원 줄리 W입니다.

안녕하세요. 저는 버클리 랩의 컴퓨팅 생물학자 저스틴 리입니다.

오늘 우리는 O1 모델 시리즈의 새로운 커스터마이징 방법인 강화 미세 조정(RFT)을 소개하게 되어 기쁩니다. 개발자, 연구자, 머신러닝 엔지니어가 처음으로 강화 학습을 활용하여 특정 도메인에서 탁월한 성능을 발휘할 전문 모델을 만들 수 있게 되었습니다. 법률, 금융, 공학, 보험 등과 같이 AI 모델에 깊은 전문 지식이 필요한 모든 분야에 이 기술이 도움이 될 것으로 기대합니다. 예를 들어, 우리는 최근 Thomson Reuters와 협력하여 O1 Mini 모델을 강화 학습으로 조정해 법률 보조 도구인 Co-Counsel AI를 개발했습니다. 이 도구는 법률 전문가가 가장 분석적인 업무를 수행하도록 돕습니다.

여러분 중에는 작년에 출시된 지도 학습 미세 조정 API를 이미 알고 계신 분도 있을 것입니다. 지도 학습은 입력 텍스트나 이미지를 바탕으로 모델이 특정 기능을 재현하도록 만드는 데 강력한 도구입니다. 이는 모델의 톤, 스타일, 응답 형식을 변경하는 데 유용합니다. 하지만 강화 미세 조정은 그와 다릅니다. 단순히 입력을 모방하도록 모델을 학습시키는 것이 아니라, 새로운 방식으로 문제를 해결하도록 모델을 훈련시킵니다.

강화 학습은 모델이 문제를 보고 이를 사고할 여지를 준 뒤, 최종 응답을 평가하여 학습 방향을 강화합니다. 올바른 응답을 이끌어낸 사고 과정을 강화하고, 잘못된 응답을 이끈 사고 과정을 억제합니다. 불과 몇십 개의 예제만으로도 모델이 새로운 방식으로 사고할 수 있도록 훈련하는 것이 가능합니다.

우리는 내부적으로 Frontier 모델(예: GPT-4 및 O1 시리즈)을 훈련할 때 동일한 기술을 사용합니다. 과학 연구는 강화 미세 조정이 매우 유용한 분야 중 하나입니다. 저스틴 리 박사가 희귀 유전 질환의 원인을 연구하는 방법에 대해 말씀해 주실 것입니다.

반응형

저스틴: 안녕하세요. 희귀 유전 질환은 개별적으로는 드물지만, 전 세계적으로 약 3억 명이 영향을 받는 흔한 문제입니다. 이들은 진단을 받기까지 수개월에서 수년이 걸리는 경우가 많습니다. 희귀 질환을 연구하려면 의료 지식과 생의학 데이터를 체계적으로 분석할 수 있는 능력이 모두 필요합니다. O1 모델의 추론 능력은 이러한 문제를 해결하는 데 큰 도움을 줄 수 있습니다.

우리는 희귀 질환에 대한 사례 보고서를 바탕으로 데이터셋을 구축했습니다. 각 데이터 포인트는 환자의 증상, 배제된 증상, 진단된 질환, 그리고 원인 유전자를 포함합니다. 이 데이터를 활용해 모델이 특정 증상을 가진 환자의 유전적 원인을 추론할 수 있도록 훈련합니다.

우리는 O1 Mini 모델을 이용해 이를 구현했습니다. 이는 빠르고 저렴한 모델로, Justin의 데이터셋을 사용해 O1 Mini의 성능을 O1의 성능 수준 이상으로 끌어올릴 수 있음을 보여주었습니다. 모델 훈련 과정에서는 JSONL 형식의 데이터셋과 평가용 그레이더를 사용했습니다. 데이터셋은 환자의 사례 보고서, 증상 목록, 정답 유전자로 구성됩니다. 중요한 점은 훈련 과정에서 모델이 정답을 보지 못한다는 것입니다. 모델의 응답은 정답과 비교되어 0과 1 사이의 점수로 평가됩니다.

훈련 작업은 몇 시간에서 며칠이 걸릴 수 있습니다. 우리는 이미 훈련된 모델의 결과를 살펴보며 강화 미세 조정의 효과를 확인했습니다. 검증 데이터셋에 대한 모델의 점수가 향상되었고, 모델이 일반화를 학습했음을 알 수 있었습니다.

안녕하세요 여러분. 제 이름은 마크이며, OpenAI에서 리서치를 담당하고 있습니다. 어제, 우리는 O1 모델을 정식으로 공개하며 ChatGPT에 도입하였고, 곧 API에서도 사용할 수 있게 될 것입니다. O1은 우리가 새롭게 개선한 모델 시리즈로, 응답을 내놓기 전에 잠시 생각하는 능력을 탑재한 최신 모델입니다. 오늘은 모델 커스터마이징 프로그램의 최신 발전을 소개하며, 사용자가 자신만의 데이터 세트를 활용해 O1을 미세 조정할 수 있도록 하는 기능을 미리 공개하려고 합니다. 이는 일반적인 미세 조정과는 다릅니다. 강화 학습 기반의 미세 조정으로, 고등학교 수준의 AI 모델을 전문가 수준의 박사 과정 능력으로 끌어올리는 데 활용되었던 강화 학습 알고리즘을 여러분의 특정 용도에 맞게 활용할 수 있게 합니다.

다시 말씀드리지만, 이번 발표는 내년에 공개될 기능의 미리보기입니다. 하지만 대학, 연구 기관, 또는 기업이라면 이 프로그램에 어떻게 접근할 수 있을지에 대한 정보를 곧 제공해 드릴 것입니다.

이 기능이 왜 필요할까요? 이 기술은 여러분의 고급 데이터 세트를 독특한 서비스로 변환할 수 있도록 해줍니다. 여러분의 사용자와 고객을 위한 동일한 수준의 마법 같은 기능을 구현할 수 있습니다. 이제 존, 줄리, 그리고 저스틴이 더 자세히 설명해 드릴 겁니다.

안녕하세요, 저는 OpenAI의 엔지니어 존 앨러드입니다.

안녕하세요, 저는 OpenAI 연구원 줄리 W입니다.

안녕하세요, 저는 버클리 연구소의 계산 생물학자인 저스틴 리입니다.

오늘, 우리는 O1 모델 시리즈를 위한 새로운 커스터마이징 방식인 **강화 학습 기반 미세 조정(RFT)**을 소개하게 되어 매우 기쁩니다. 이제 개발자, 연구자, 그리고 머신러닝 엔지니어는 자신만의 도메인에서 전문적인 성과를 낼 수 있는 AI 모델을 강화 학습으로 제작할 수 있습니다. 우리는 법률, 금융, 공학, 보험과 같은 심층적인 전문성이 필요한 모든 분야가 이 기술의 혜택을 받을 수 있다고 믿습니다.

예를 들어, 최근 우리는 톰슨 로이터와 협력하여 O1 Mini를 법률 보조 AI로 미세 조정했습니다. 이 도구는 법률 전문가들이 복잡한 분석 워크플로를 수행하는 데 도움을 주고 있습니다.

작년에 발표된 지도 학습 기반 미세 조정 API를 알고 계신 분들도 있을 텐데, 지도 학습 기반 미세 조정은 입력 텍스트나 이미지를 통해 모델이 특정 패턴을 복제하도록 훈련하는 강력한 방법입니다. 하지만 강화 학습 기반 미세 조정은 완전히 다릅니다. 단순히 입력을 모방하도록 가르치는 것이 아니라, 새로운 방식으로 문제를 해결할 수 있는 논리적 사고를 학습시키는 데 중점을 둡니다. 모델이 문제를 접했을 때 스스로 사고할 시간을 주고, 최종 응답을 평가한 뒤, 정확한 응답을 이끌어낸 사고 과정을 강화하고, 잘못된 사고 과정을 억제하는 방식으로 학습이 진행됩니다. 놀랍게도, 단 몇십 개의 사례만으로도 모델이 새로운 방식으로 효과적으로 사고할 수 있게 됩니다.

이 과정은 OpenAI가 내부적으로 GPT-4나 O1 시리즈와 같은 프론티어 모델을 훈련하는 데 사용하는 기술과 동일한 방식으로 이루어집니다.

과학 연구에서의 활용

과학 연구는 이 기술이 특히 유망하게 적용될 수 있는 분야 중 하나입니다. 예를 들어, 버클리 연구소의 저스틴 리 박사는 희귀 질환의 유전적 원인을 이해하기 위해 계산 방법을 연구하고 있습니다.

저스틴 박사에 따르면, 희귀 질환은 개별적으로는 드물지만, 모든 희귀 질환을 합치면 전 세계적으로 약 3억 명에 이르는 흔한 문제입니다. 이러한 환자들은 정확한 진단을 받기까지 수개월에서 수년의 긴 시간이 걸리기도 합니다. 그는 희귀 질환을 분석하고 치료를 향상시키기 위해 강화 학습 기반 모델의 논리적 추론 능력을 활용하고자 합니다.

그의 연구팀은 독일의 샤리테 병원, 피터 로빈슨 교수 연구팀과 협력하여 희귀 질환 관련 정보를 수백 편의 과학 논문에서 추출했습니다. 이 데이터에는 환자의 증상, 나타나지 않은 증상, 그리고 해당 질환의 원인 유전자가 포함되어 있습니다.

강화 학습 기반 미세 조정을 통해 이 모델이 희귀 질환의 원인을 보다 효과적으로 분석할 수 있는 능력을 가지게 될 것으로 기대됩니다. OpenAI는 이러한 기술을 사용하여 Justin의 데이터 세트를 기반으로 O1 Mini 모델의 성능을 더욱 향상시켰습니다.

이러한 사례는 강화 학습 기반 미세 조정 기술이 AI 모델을 사용자의 특정 요구에 맞게 효율적으로 커스터마이즈할 수 있다는 점을 보여줍니다. 여러분이 법률, 의학, 금융 등 어떤 분야에 있든, 이 기술을 통해 기존 모델의 한계를 넘어서는 성과를 얻을 수 있을 것입니다.

반응형

저작자표시 비영리 변경금지 (새창열림)
관련글 관련글 더보기

ABOUT ME

김정훈닷컴 김정훈닷컴

과학 연구에서의 활용

티스토리툴바

ABOUT ME

과학 연구에서의 활용

관련글 관련글 더보기

티스토리툴바