本書以深入淺出的方式介紹多模態(tài)大模型的技術方法、開源平臺和應用場景,并詳細闡述因果推理、世界模型及多智能體與具身智能等前沿技術領域,有助于讀者全面了解多模態(tài)大模型的特點及發(fā)展方向,對新一代人工智能技術范式和通用人工智能的發(fā)展起到重要推動作用。全書內容共5章,第1章引領讀者深入探索最具代表性的大模型結構,包括BERT、Chat-GPT 和ChatGLM等,為建立對多模態(tài)大模型的全面認知打下基礎。第2章深度剖析多模態(tài)大模型的核心技術,如提示學習、上下文學習、思維鏈和人類反饋強化學習等,揭示多模態(tài)大模型的獨特之處和引人入勝的技術內涵。第3章介紹多個具有代表性的多模態(tài)基礎模型,如CLIP、LLaMA、SAM和PaLM-E等,為讀者呈現多樣和廣泛的技術解決方案。第4章深入分析視覺問答、AIGC和具身智能這三個典型應用,展示多模態(tài)大模型在實際場景中的強大能力。第5章探討實現AGI的可行思路,包括因果推理、世界模型、超級智能體與具身智能等前沿技術方向。本書不僅適合高校相關專業(yè)高年級本科生和研究生作為教材使用,更是各類IT從業(yè)者的案頭手冊。