Мнением поделился вице-президент по продукту и развитию ИИ-подразделения Dropbox Морган Браун.
Его слова приведены от первого лица.
Контекст: обучение передовых ИИ-моделей обходится безумно дорого. Только на вычислительные мощности такие компании, как OpenAI и Anthropic, тратят от $100 млн. Им нужны гигантские дата-центры — с тысячами графических процессоров (GPU) по $40 тысяч каждый. По сути, это всё равно что запускать завод, которому для работы нужна целая электростанция.
Затем появилась китайская DeepSeek и сказала: «Лол, а что если мы уложимся в $5 млн?» И не просто сказала, а сделала. Да так, что во многих задачах её модели превосходят GPT-4 и Claude. ИИ-отрасль встрепенулась.
Как? Они переосмыслили всё с нуля. Традиционный искусственный интеллект — это как записывать каждое число с 32 знаками после запятой. DeepSeek же подумала: «Может, хватит восьми?» Бац — и памяти нужно на 75% меньше.
Другая особенность — архитектура Multi-token Prediction. Рядовой ИИ читает как первоклашка: «Кошка… сидела… на…» А модель DeepSeek сразу читает фразы целиком: вдвое быстрее и с той же точностью в 90% случаев. Это важно, ведь речь идёт об обработке миллиардов слов.