Microsoft представила новую версию своей легковесной модели искусственного интеллекта Phi-3 Mini, первую из трех небольших моделей, которые компания планирует выпустить.
Phi-3 Mini имеет 3,8 миллиарда параметров и обучена на наборе данных, который является относительно более маленьким по сравнению с большими языковыми моделями, такими как GPT-4. Теперь он доступен на платформах Azure, Hugging Face и Ollama. Microsoft планирует выпустить Phi-3 Small (7 миллиардов параметров) и Phi-3 Medium (14 миллиардов параметров). Под параметрами понимается количество сложных инструкций, которые модель может понимать.
Компания выпустила Phi-2 в декабре, который показал такую же эффективность, как и более крупные модели, такие как Llama 2. Microsoft утверждает, что Phi-3 работает лучше предыдущей версии и может давать ответы, близкие к тому, что может модель в 10 раз больше.
Эрик Бойд, корпоративный вице-президент по платформе искусственного интеллекта Microsoft Azure, говорит The Verge, что Phi-3 Mini так же способен, как и LLM, такие как GPT-3.5, «просто в более компактном форм-факторе».
По сравнению с их более крупными аналогами, малые модели искусственного интеллекта часто дешевле в эксплуатации и показывают лучшую производительность на персональных устройствах, таких как телефоны и ноутбуки. Информационное агентство ранее сообщило, что Microsoft создает команду, сфокусированную именно на легковесных моделях искусственного интеллекта. Помимо Phi, компания также создала модель Orca-Math, которая специализируется на решении математических задач.
У конкурентов Microsoft тоже есть свои малые модели искусственного интеллекта, большинство из которых ориентированы на более простые задачи, такие как резюмирование документов или помощь в кодировании. Модели Gemma 2B и 7B от Google хороши для простых чат-ботов и языковой работы. Модель Anthropic Claude 3 Haiku способна читать научные статьи с графиками и быстро их резюмировать, в то время как недавно выпущенная модель Llama 3 8B от Meta может использоваться для создания чат-ботов и помощи в кодировании.
Бойд говорит, что разработчики обучали Phi-3 с помощью «курса обучения». Они вдохновлялись тем, как дети учатся на ночные сказки, книги с более простыми словами и предложениями, которые говорят о более крупных темах.
«Детских книг недостаточно, поэтому мы взяли список из более чем 3 000 слов и попросили LLM составить «детские книги», чтобы обучить Phi», — говорит Бойд.
Он добавил, что Phi-3 просто продолжил то, что узнали предыдущие версии. Если Phi-1 фокусировался на кодировании, а Phi-2 начал учиться рассуждать, то Phi-3 лучше всего справляется с кодированием и рассуждением. Хотя семейство моделей Phi-3 обладает некоторыми общими знаниями, оно не может превзойти GPT-4 или другую LLM в широте — существует большая разница в типах ответов, которые можно получить от LLM, обученной на всем Интернете, по сравнению с более маленькой моделью, такой как Phi-3.
Бойд говорит, что компании часто обнаруживают, что более маленькие модели, такие как Phi-3, работают лучше для их индивидуальных приложений, так как для многих компаний их внутренние наборы данных в любом случае будут небольшими. И поскольку эти модели используют меньше вычислительной мощности, они часто более доступны с точки зрения стоимости.