Современный этап развития языковых моделей начался с 2017 года исследователи из Google
представили архитектуру
Transformer. Главным новшеством этой архитектуры стал механизм внимания. До её изобретения нейросети перед работой с текстом сжимали его, поэтому часть смысла терялась. Transformer же работает по-другому: он анализирует все слова в тексте и выделяет среди них наиболее важные.
Эта модель моментально привлекла внимание других ученых, занимающихся обработкой естественного языка. Всего через год OpenAI разработала модель GPT —
Generative Pretrained Transformer, то есть генеративный предобученный трансформер.