Теперь ChatGPT может видеть, слышать и#nbsp;говорить

В ChatGPT внедряют функции распознавания голоса и изображений, что делает его умным помощником на все случаи жизни. Теперь вы сможете вести полноценный разговор с нейронкой, показывая ей фотографии и картинки.

OpenAI обещает предоставить удобный интерфейс для смартфонов и новый уровень распознавания и генерации голоса, который еще не достигнут в других чат-ботах. Ожидается, что эти новые функции будут доступны уже в ближайшие две недели.

Теперь ChatGPT может видеть, слышать и говорить

{$te}

Open AI внедрять в ChatGPT новые голосовые и графические возможности. Они предлагают новый, более интуитивно понятный тип интерфейса, позволяя вести голосовой разговор или показывать ChatGPT, о чем вы говорите.

Голос и изображение дают больше возможностей для использования ChatGPT в жизни: Сфотографируйте какую-нибудь достопримечательность во время путешествия и обсудите с ChatGPT в реальном времени, что в ней интересного. Когда вы дома, сфотографируйте холодильник, чтобы понять, что приготовить на ужин (и задать последующие вопросы для получения пошагового рецепта). После ужина помогите ребенку решить математическую задачу: сделайте фотографию, обведите ее кружком и попросите его поделиться подсказками с вами обоими.

В течение следующих двух недель Open AI планирует развернуть голосовую связь и работу с изображениями в ChatGPT для пользователей Plus и Enterprise. Голосовая связь появится на iOS и Android (опция в настройках), а изображения будут доступны на всех платформах.

Говорите с ChatGPT, и он ответит вам
Теперь вы можете использовать голос, чтобы вступить в разговор с вашим помощником в режиме «спина к спине». Поговорите с ним на ходу, запросите сказку на ночь для своей семьи или разрешите спор за обеденным столом. Используйте голос, чтобы общаться с помощником в режиме «спина к спине».
Чтобы начать работу с голосом, перейдите в Настройки → Новые возможности в мобильном приложении и выберите голосовые разговоры. Затем нажмите на кнопку наушников, расположенную в правом верхнем углу главного экрана, и выберите один из пяти вариантов голоса.
Новая голосовая функция основана на новой модели преобразования текста в речь, способной генерировать человекоподобный звук из текста и нескольких секунд образцовой речи. Для создания каждого из голосов Open AI сотрудничал с профессиональными актерами. Для транскрибирования произнесенных вами слов в текст Open AI также использует Whisper — систему распознавания речи с открытым исходным кодом.

Чат с изображениями.
Теперь вы можете показать ChatGPT одно или несколько изображений. Устраните неполадки, из-за которых не включается гриль, изучите содержимое холодильника, чтобы составить план приготовления пищи, или проанализируйте сложный график для получения данных по работе. Чтобы сфокусироваться на определенной части изображения, можно воспользоваться инструментом рисования в мобильном приложении.

Чтобы начать работу, нажмите кнопку фото, чтобы захватить или выбрать изображение. Если вы работаете на iOS или Android, сначала нажмите кнопку «плюс». Вы также можете обсудить несколько изображений или использовать наш инструмент для рисования, чтобы направить помощника.

Понимание изображений осуществляется с помощью мультимодальных моделей GPT-3.5 и GPT-4. Эти модели применяют навыки языкового мышления к широкому спектру изображений, таких как фотографии, скриншоты и документы, содержащие как текст, так и изображения.

Open AI будет внедрять возможности работы с изображениями и голосом постепенно

Цель OpenAI — создать безопасный и полезный AGI. Open AI верит в то, что их инструменты будут появляться постепенно, что позволит им со временем вносить улучшения и совершенствовать меры по снижению рисков, а также подготовить всех к появлению более мощных систем в будущем. Эта стратегия становится еще более важной при создании продвинутых моделей с использованием голоса и зрения.

Голос

Новые голосовые технологии, способные создавать реалистичные синтетические голоса на основе всего нескольких секунд реальной речи, открывают двери для многих творческих и доступных приложений. Однако эти возможности несут в себе и новые риски, например, возможность злоумышленников выдавать себя за общественных деятелей или совершать мошеннические действия.

Именно поэтому Open AI использует эту технологию для конкретного случая — голосового чата. При создании голосового чата использовались голоса актеров, с которыми Open AI непосредственно работали. Аналогичным образом Open AI сотрудничает и с другими компаниями. Например, компания Spotify использует возможности этой технологии для пилотного запуска функции голосового перевода, которая помогает подкастерам расширить сферу применения своих материалов, переводя подкасты на дополнительные языки голосом самих подкастеров.

Ввод изображений

Модели, основанные на зрении, также создают новые проблемы, начиная от галлюцинаций, связанных с людьми, и заканчивая необходимостью полагаться на интерпретацию изображений моделью в областях с высокой степенью риска. Перед широким внедрением Open AI протестировали модель с помощью специалистов по оценке рисков в таких областях, как экстремизм и научная квалификация, а также с помощью различных групп альфа-тестеров. Проведенные исследования позволили согласовать несколько ключевых деталей для ответственного использования.

Сделать видение полезным и безопасным

Как и другие функции ChatGPT, зрение призвано помогать людям в повседневной жизни. Лучше всего это получается, когда оно видит то, что видите вы.

На такой подход Open AI натолкнула работа с бесплатным мобильным приложением Be My Eyes, предназначенным для слепых и слабовидящих людей, с целью выяснения его возможностей и ограничений. Пользователи рассказали Open AI, что считают полезным вести общие разговоры об изображениях, на которых случайно присутствуют люди на заднем плане, например, если кто-то появляется в телевизоре, когда вы пытаетесь разобраться с настройками пульта дистанционного управления.

Open AI также приняли технические меры, чтобы существенно ограничить возможности ChatGPT по анализу и составлению прямых утверждений о людях, поскольку ChatGPT не всегда точна, а такие системы должны уважать частную жизнь человека.

Реальное использование и обратная связь помогут сделать эти меры еще лучше, сохранив полезность инструмента.

Прозрачность в отношении ограничений модели

Пользователи могут полагаться на ChatGPT при работе со специализированными темами, например, в таких областях, как научные исследования. Open AI открыто рассказывает об ограничениях модели и не рекомендует использовать ее в случаях повышенного риска без надлежащей проверки. Кроме того, модель хорошо справляется с транскрибированием английского текста, но плохо работает с некоторыми другими языками, особенно с нелатинским шрифтом. Open AI не рекомендует неанглоязычным пользователям использовать ChatGPT для этих целей.

Пользователи Plus и Enterprise получат возможность работы с голосом и изображениями в течение следующих двух недель. Вскоре после этого Open AI планирует распространить эти возможности на другие группы пользователей, включая разработчиков.

В ChatGPT внедряют функции распознавания голоса и изображений.

{$te}