Google анонсира Gemini AI и постави GPT-4 в догонваща позиция
Google представи дългоочакваната си мултимодална генеративна AI система Gemini, за която компанията твърди, че превъзхожда конкурентната GPT-4 на OpenAI.
„Gemini разбира света около нас по начина, по който го правим ние,” заяви Демис Хассабис, основател на DeepMind, специализираната AI лаборатория на Google, създала модела и добави, че „Gemini е по-добър от който и да е друг модел създаван досега“.
Google твърди, че Gemini притежава 5 пъти по-висока изчислителна мощ от GPT-4, което води до по-бързо обучение и потенциално по-голям размер на модела. Компанията заяви, че Gemini е първият модел, който превъзхожда човешките експерти по MMLU (Massive Multitask Language Understanding), един от популярните методи за тестване на знанията и проблемите на AI моделите.
Моделът ще бъде достъпен за разработчици чрез Google Cloud API от 13 декември, като по-мощна версия ще дебютира по-късно през 2024 г., след провеждането на обширни проверки за надеждност и безопасност.
Gemini, който се предлага в три варианта работи ефективно на различни платформи, от центрове за данни до мобилни устройства и комбинира различни видове информация, като текст, код, аудио, изображения и видео.
“Правейки го достъпен за разработчици чрез версиите Pro и Nano, Google предоставя на компаниите възможност за безпрецедентни иновации,” заяви Уайът Орен, директор продажби за Telehealth в Agora, “API предлага невероятни предимства за бързо прототипиране и разработка на приложения, особено когато става въпрос за обработка на мултимедийно съдържание.”
Google заяви, че Gemini Ultra се представя отлично в задачи, включващи разсъждения, надминавайки всички алтернативни модели от последно поколение. Освен това, той безпогрешно решава тестове с изображения, демонстрирайки вродена мултифункционалност и склоност към сложни разсъждения.
Стандартният подход при създаването на мултимодални модели включва обучение на отделните компоненти за различни модалности. Gemini, напротив е проектиран да бъде вродено мултимодален, предварително обучен в различни модалности от самото си раждане. Изборът на подобен дизайн позволява на Gemini да разбира и разсъждава по всички видове входящи данни много по-добре от съществуващите модели.
Gemini умело разпознава и анализира текст, изображения и аудио едновременно, което го прави компетентен в своите отговори, като предоставя разсъждения по сложни теми включително в области като математика и физика.
Експрертните мултимодални разсъждения на Gemini могат да помогнат в разбирането на сложна писмена и визуална информация. Gemini е обучен върху надеждни източници вкл. стотици хиляди научни статии и доклади, позволявайки широкообхватен пробив на новият AI в разнообразни области от науката до финансите.
Gemini освен това разбира, обяснява и генерира висококачествен код на най-популярните програмни езици. Способността му да разсъждава по сложни казуси го поставя сред водещите фундаментални модели за програмиране в световен мащаб.
Google е обучила Gemini в своята AI-оптимизирана инфраструктура, използвайки Google-designed Tensor Processing Units (TPUs), което я прави по-малко зависима от недостига на GPU чипове, от които GPT-4 и други модели зависят.
Компанията е проектирала Gemini да бъде най-надеждният мащабируем модел за обучение и същевременно най-ефективният за обслужване AI. Компанията заяви, че ще добави нови защити в ход, като вземе предвид потенциалните рискове на всеки етап от разработването.
Gemini вече се разпространява в широка гама продукти и платформи. Например, чатботът на Google – Bard ще ползва специално настроена версия на Gemini Pro за по-прецизни разсъждения, планиране, разбиране и др.
Генеративният изкуствен интелект се развива бързо в силно конкурентна среда. Останалите модели също се променят в ход, но едно е сигурно: с Gemini AI Google вдигa високо летвата и поставя конкуренцията в догонваща позиция.