모델 카탈로그 살펴보기
Microsoft Foundry의 모델 카탈로그 는 특정 생성 AI 사용 사례에 적합한 언어 모델을 찾기 위해 찾아볼 수 있는 모델의 중앙 리포지토리를 제공합니다.
생성 AI 앱의 기본 모델을 선택하는 것은 앱의 작동 방식에 영향을 주기 때문에 중요합니다. 앱에 가장 적합한 모델을 찾으려면 다음 질문을 통해 구조화된 방식을 활용할 수 있습니다.
- AI가 내 사용 사례를 해결할 수 있을까요?
- 내 사용 사례에 가장 적합한 모델을 선택하려면 어떻게 해야 하나요?
- 실제 워크로드에 맞게 크기를 조정할 수 있나요?
각 질문을 살펴보겠습니다.
AI가 내 사용 사례를 해결할 수 있을까요?
요즘에는 선택할 수 있는 언어 모델이 수천 개나 됩니다. 가장 큰 챌린지는 사용자의 요구 사항을 충족하는 모델이 있는지 파악하고 AI가 내 사용 사례를 해결할 수 있을까?라는 질문에 답하는 것입니다.
이 질문에 답하려면 먼저 모델을 검색하고, 필터링하고, 배포해야 합니다. 세 가지 다른 카탈로그를 통해 사용 가능한 언어 모델을 탐색할 수 있습니다.
- Hugging Face: 다양한 도메인에 걸친 광범위한 오픈 소스 모델 카탈로그입니다.
- GitHub: GitHub Marketplace 및 GitHub Copilot를 통해 다양한 모델에 액세스합니다.
- Microsoft Foundry: 강력한 배포 도구가 포함된 포괄적인 카탈로그입니다.
이러한 각 카탈로그를 사용하여 모델을 탐색할 수 있지만 Microsoft Foundry의 모델 카탈로그를 사용하면 모델을 가장 쉽게 탐색하고 배포하여 프로토타입을 빌드하는 동시에 최상의 모델을 제공할 수 있습니다.
적합한 모델을 검색할 때 고려해야 하는 몇 가지 옵션을 살펴보겠습니다.
크고 작은 언어 모델 중에서 선택
우선 LLM(대규모 언어 모델)과 SLLM(소규모 언어 모델) 중에서 선택할 수 있습니다.
GPT-4, Mistral Large, Llama3 70B, Llama 405B, Command R+와 같은 LLM은 심층적 추론, 복잡한 콘텐츠 생성, 광범위한 컨텍스트 이해가 필요한 작업을 위해 설계된 강력한 AI 모델입니다.
Phi3, Mistral OSS 모델, Llama3 8B와 같은 SLM은 효율적이고 비용 효율적이면서도 일반적인 NLP(자연어 처리) 작업을 많이 처리합니다. 이러한 모델은 비용과 속도가 모델 복잡성보다 더 중요한 저사양 하드웨어나 에지 디바이스에서 실행하는 데 적합합니다.
형식, 작업 또는 도구에 집중
GPT-4 및 Mistral Large와 같은 언어 모델은 채팅 완료 모델로도 알려져 있으며, 일관되고 상황에 맞는 텍스트 기반 응답을 생성하도록 설계되었습니다. 수학, 코딩, 과학, 전략, 물류와 같은 복잡한 작업에서 더 높은 수준의 성과가 필요한 경우 DeepSeek-R1 및 o1과 같은 추론 모델을 사용할 수도 있습니다.
텍스트 기반 AI를 넘어 일부 모델은 다중 모달이어서 텍스트와 함께 이미지, 오디오 및 기타 데이터 형식을 처리할 수 있습니다. GPT-4o 및 Phi3-vision과 같은 모델은 텍스트와 이미지를 모두 분석하고 생성할 수 있습니다. 다중 모달 모델은 Computer Vision이나 문서 분석과 같이 애플리케이션이 이미지를 처리하고 이해해야 할 때 유용합니다. 또는 이미지나 차트를 설명하는 디지털 강사처럼 시각적 콘텐츠와 상호 작용하는 AI 앱을 만들려고 할 때도 있습니다.
이미지 생성과 관련된 사용 사례인 경우 DALL·E 3 및 Stability AI와 같은 도구를 사용하면 텍스트 프롬프트에서 사실적인 시각적 효과를 만들 수 있습니다. 이미지 생성 모델은 마케팅 자료, 일러스트레이션, 디지털 아트를 설계하는 데 매우 유용합니다.
또 다른 작업별 모델 그룹은 Ada 및 Cohere와 같은 포함 모델입니다. 포함 모델은 텍스트를 숫자 표현으로 변환하고 의미 체계 의미를 이해하여 검색 관련성을 개선하는 데 사용됩니다. 이러한 모델은 유사한 콘텐츠를 연결하여 권장 사항 엔진을 강화하기 위해 RAG(검색 증강 생성) 시나리오에서 종종 구현됩니다.
다른 소프트웨어 도구와 동적으로 상호 작용하는 애플리케이션을 빌드하려면 함수 호출 및 JSON 지원을 추가할 수 있습니다. 이러한 기능을 통해 AI 모델은 구조화된 데이터로 효율적으로 작업할 수 있으므로 API 호출, 데이터베이스 쿼리, 구조화된 데이터 처리를 자동화하는 데 유용합니다.
지역 및 도메인별 모델 전문화
어떤 모델은 특정 언어, 지역 또는 업계에 맞춰 설계되었습니다. 이러한 모델은 각각의 분야에서 범용 생성형 AI보다 성능이 더 뛰어납니다. 예를 들면 다음과 같습니다.
- Core42 JAIS는 아랍어 LLM이므로 아랍어 사용자를 대상으로 하는 애플리케이션에 가장 적합합니다.
- Mistral Large는 유럽 언어에 중점을 두고 다국어 애플리케이션의 언어적 정확도를 더욱 향상합니다.
- Nixtla TimeGEN-1은 시계열 예측을 전문으로 하므로 재무 예측, 공급망 최적화, 수요 예측에 이상적입니다.
프로젝트에 지역적, 언어적 또는 업계별 요구 사항이 있는 경우 이러한 모델은 범용 AI보다 더욱 관련성 있는 결과를 제공할 수 있습니다.
개방형 모델과 독점 모델을 사용하여 유연성과 성능 균형 조정
또한 오픈 소스 모델을 사용할 것인지, 아니면 독점 모델을 사용할 것인지도 결정해야 합니다. 각 모델에는 고유한 장점이 있습니다.
독점 모델은 최첨단 성능과 엔터프라이즈 사용에 가장 적합합니다. Azure는 업계 최고의 AI 기능을 제공하는 OpenAI의 GPT-4, Mistral Large, Cohere Command R+와 같은 모델을 제공합니다. 이러한 모델은 엔터프라이즈 수준의 보안, 지원 및 높은 정확도가 필요한 엔터프라이즈에 이상적입니다.
오픈 소스 모델은 유연성과 비용 효율성 면에서 가장 좋습니다. Hugging Face의 Microsoft Foundry 모델 카탈로그와 Meta, Databricks, Snowflake 및 Nvidia의 모델에서 사용할 수 있는 수백 개의 오픈 소스 모델이 있습니다. 개방형 모델은 개발자에게 더 많은 제어권을 제공하여 미세 조정, 사용자 지정 및 로컬 배포가 가능합니다.
어떤 모델을 선택하든 Microsoft Foundry 모델 카탈로그를 사용할 수 있습니다. 모델 카탈로그를 통해 모델을 사용하면 다음과 같은 주요 엔터프라이즈 사용 요구 사항을 충족할 수 있습니다.
- 데이터 및 개인 정보 보호: 사용자는 사용자의 데이터를 어떻게 처리할지 결정할 수 있습니다.
- 보안 및 규정 준수: 기본 제공 보안입니다.
- 책임 있는 AI와 콘텐츠 보안: 평가와 콘텐츠 보안입니다.
이제 사용 가능한 언어 모델을 알았으니 AI가 실제로 사용자의 사용 사례를 해결할 수 있는지 이해할 수 있을 것입니다. 언어 모델이 애플리케이션을 풍부하게 만들 것이라고 생각되면 배포하고 통합하려는 특정 모델을 선택해야 합니다.
내 사용 사례에 가장 적합한 모델을 선택하려면 어떻게 해야 하나요?
사용 사례에 가장 적합한 언어 모델을 선택하려면 모델을 필터링하는 데 사용할 조건을 결정해야 합니다. 기준은 모델에 대해 식별하는 데 필요한 특성입니다. 고려할 수 있는 네 가지 특성은 다음과 같습니다.
- 작업 종류: 모델이 수행해야 하는 작업 종류는 무엇인가요? 텍스트만 이해하는 것인가요, 아니면 오디오나 동영상, 혹은 여러 형식도 이해하는 것인가요?
- 정밀도: 기본 모델이 충분히 좋은가요? 아니면 특정 기술이나 데이터 세트에 대해 학습된 미세 조정된 모델이 필요한가요?
- 개방성: 모델을 직접 미세 조정할 수 있기를 원하나요?
- 배포: 모델을 로컬로, 서버리스 엔드포인트에 배포하려고 하나요? 아니면 배포 인프라를 관리하려고 하나요?
여러분은 이미 이전 섹션에서 다양한 형식의 모델을 살펴보았습니다. 이제 모델을 선택할 때 정밀도와 성능이 어떻게 중요한 요소인지 자세히 살펴보겠습니다.
정밀도를 위한 필터 모델
생성형 AI에서 정밀도는 모델이 정확하고 관련성 있는 출력을 생성하는 정확도를 의미합니다. 생성된 모든 출력 중에서 진양성 결과(정확한 출력)의 비율을 측정합니다. 높은 정밀도는 무관하거나 잘못된 결과가 적다는 것을 의미하므로 모델의 신뢰성이 높아집니다.
앱에 언어 모델을 통합할 때 기본 모델이나 미세 조정 모델 중에서 선택할 수 있습니다. GPT-4와 같은 기본 모델은 대규모 데이터 세트에 대해 미리 학습되어 다양한 작업을 처리할 수 있지만 특정 도메인에 대한 정확도가 부족할 수 있습니다. 프롬프트 엔지니어링과 같은 기술을 통해 이를 개선할 수 있지만 때로는 미세 조정이 필요합니다.
미세 조정된 모델은 더 작고 작업별 데이터 세트를 통해 추가로 학습되어 정확도가 개선되고 특정 애플리케이션에 적합한 출력을 생성하는 기능이 개선됩니다. 미세 조정된 모델을 사용할 수도 있고, 직접 모델을 미세 조정할 수도 있습니다.
성능을 위한 필터 모델
다양한 평가 방법을 사용하여 여러 단계에서 모델 성능을 평가할 수 있습니다.
Microsoft Foundry 모델 카탈로그를 통해 모델을 탐색하는 경우 모델 벤치마크 를 사용하여 모델 및 데이터 세트의 일관성 및 정확도와 같은 공개적으로 사용 가능한 메트릭을 비교할 수 있습니다. 이러한 벤치마크는 초기 탐색 단계에서는 도움이 되지만, 특정 사용 사례에서 모델이 어떻게 수행될지에 대한 정보는 거의 제공하지 않습니다.
| 벤치마크 | 설명 |
|---|---|
| 정확성 | 모델 생성 텍스트를 데이터 세트에 따라 정답과 비교합니다. 생성된 텍스트가 응답과 정확히 일치하는 경우 결과는 1이고, 그렇지 않으면 0입니다. |
| 일관성 | 모델 출력이 매끄럽게 흐르고, 자연스럽게 읽히며, 인간과 유사한 언어와 유사한지 여부를 측정합니다. |
| 유창성 | 생성된 텍스트가 문법 규칙, 구문 구조 및 어휘의 적절한 사용을 얼마나 잘 준수하는지 평가하여 언어적으로 정확하고 자연스러운 응답을 생성합니다. |
| 근거 | 모델의 생성된 답변과 입력 데이터 간의 맞춤을 측정합니다. |
| GPT 유사성 | 지상 진리 문장(또는 문서)과 AI 모델에서 생성된 예측 문장 간의 의미 체계 유사성을 정량화합니다. |
| 품질 인덱스 | 0에서 1 사이의 비교 집계 점수이며, 성능이 우수한 모델은 더 높은 값을 채점합니다. |
| 비용 | 토큰당 가격을 기준으로 모델을 사용하는 비용입니다. 비용은 품질을 비교할 수 있는 유용한 메트릭으로, 필요에 따라 적절한 절충을 결정할 수 있습니다. |
선택한 모델이 특정 요구 사항에 따라 어떻게 수행되는지 평가하려면 수동 또는 자동 평가를 고려할 수 있습니다. 수동 평가를 통해 모델의 응답을 평가할 수 있습니다. 자동화된 평가에는 기존의 기계 학습 메트릭과 사용자를 위해 계산되고 생성된 AI 지원 메트릭이 포함됩니다.
모델의 성능을 평가할 때 수동 평가부터 시작하는 것이 일반적입니다. 수동 평가는 모델 응답의 품질을 빠르게 평가하기 때문입니다. 보다 체계적인 비교를 위해 정확도, 재현율, F1 점수와 같은 메트릭을 자체 참조 자료에 따라 사용하는 자동 평가는 더 빠르고 확장 가능하며 객관적인 방식을 제공합니다.
실제 워크로드에 맞게 크기를 조정할 수 있나요?
사용자는 사용 사례에 맞는 모델을 선택하고 프로토타입을 성공적으로 빌드했습니다. 이제 실제 워크로드에 맞춰 크기 조정하는 방법을 이해해야 합니다.
생성 AI 솔루션의 크기를 조정하기 위한 고려 사항은 다음과 같습니다.
- 모델 배포: 성능과 비용의 최상의 균형을 위해 모델을 배포할 위치는 어디인가요?
- 모델 모니터링 및 최적화: 모델 성능을 모니터링, 평가 및 최적화하려면 어떻게 해야 할까요?
- 프롬프트 관리: 생성된 응답의 정확도와 관련성을 최대화하기 위해 프롬프트를 오케스트레이션하고 최적화하려면 어떻게 해야 할까요?
- 모델 수명 주기: 지속적인 GenAIOps( 생성 AI 작업 ) 수명 주기의 일부로 모델, 데이터 및 코드 업데이트를 관리하려면 어떻게 해야 할까요?
Microsoft Foundry는 확장 가능한 생성 AI 솔루션을 빌드하고 유지 관리하는 데 도움이 되는 시각적 개체 및 코드 우선 도구를 제공합니다.