상세 컨텐츠

본문 제목

애플, AI 투자 확대와 함께 멀티모달 AI 연구에서 진전 보여

news/IT

by goldtagworks 2024. 3. 20. 21:20

본문

반응형

* VentureBeat 기사 - Apple researchers achieve breakthroughs in multimodal AI as company ramps up investments

https://venturebeat.com/ai/apple-researchers-achieve-breakthroughs-in-multimodal-ai-as-company-ramps-up-investments/

# 기사 일부 Claude 3 Opus 번역.



애플 연구진은 텍스트와 이미지 모두를 활용하여 대규모 언어 모델을 학습하기 위한 새로운 방법들을 개발했습니다. 이러한 발전은 더욱 강력하고 유연한 AI 시스템을 구현할 수 있게 하며, 인공지능과 애플의 미래 제품에 있어 중요한 진전이 될 것으로 기대됩니다.



이번 주 arxiv.org에 조용히 게시된 'MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training'이라는 제목의 연구 논문에 따르면, 다양한 유형의 학습 데이터와 모델 아키텍처를 신중하게 결합하는 것이 여러 AI 벤치마크에서 최첨단 성능을 달성할 수 있음을 보여주고 있습니다.

https://arxiv.org/abs/2403.09611



연구진은 "저희가 이미지-캡션, 이미지-텍스트 교차, 텍스트 전용 데이터를 신중하게 혼합하여 대규모 멀티모달 사전 학습을 진행하는 것이 다양한 벤치마크에서 최첨단 퓨샷(few-shot) 결과를 달성하는 데 중요하다는 점을 증명했습니다."라고 밝혔습니다. 시각적 정보와 언어적 정보를 포괄하는 다양한 데이터 세트로 모델을 학습시킨 결과, MM1 모델은 이미지 캡션 생성, 시각적 질의응답, 자연어 추론과 같은 작업에서 우수한 성능을 나타냈습니다.



연구진은 또한 이미지 인코더의 선택과 입력 이미지의 해상도가 모델 성능에 큰 영향을 미친다는 것을 발견했습니다. 그들은 "저희는 이미지 인코더가 이미지 해상도와 이미지 토큰 수와 함께 상당한 영향을 미치지만, 비전(vision)-언어 커넥터 설계는 상대적으로 중요하지 않다는 점을 확인했습니다."라고 말했습니다. 이러한 멀티모달 모델의 시각적 구성 요소에 대한 지속적인 확장과 개선이 추가적인 성능 향상을 위한 핵심이 될 것으로 보입니다.



300억 개 파라미터를 가진 대규모 MM1 모델은 놀라운 문맥 내 학습 능력을 보여주었습니다. 그 결과, 퓨샷(few-shot) 연속 추론(chain-of-thought) 프롬프팅을 사용하여 여러 입력 이미지에 대한 다단계 추론을 수행할 수 있었습니다. 대규모 멀티모달 모델은 언어 이해와 생성에 기반한 복잡하고 개방적인 문제를 해결할 수 있는 잠재력을 지니고 있습니다.



MM1 연구는 애플이 경쟁사인 구글, 마이크로소프트, 아마존 등이 생성형 AI 기능을 제품에 통합하는 데 앞서 나가는 것을 따라잡기 위해 인공지능 투자를 확대하는 가운데 이루어지고 있습니다. 최근 블룸버그 보도에 따르면, 애플은 매년 AI 개발에 10억 달러를 지출할 계획입니다.

반응형

관련글 더보기