Tehnografi.com - Технологические новости, обзоры и советы

Внезапно Intel очень беспокоится о тестировании в реальном мире

По крайней мере, начиная с Computex, Intel выражала обеспокоенность рецензентам по поводу типов тестов, которые мы проводим, которые, как правило, используют рецензенты приложений и фиксируют ли они производительность в "реальном мире". В частности, Intel считает, что такие тесты, как Cinebench, уделяют слишком много внимания, в то время как приложения, которые люди фактически используют, практически игнорируются.

Давайте возьмем некоторые вещи с фронта.

У каждой компании есть ориентиры, которые они предпочитают, и ориентиры, которые им не нравятся. Тот факт, что некоторые тесты работают лучше в AMD по сравнению с Intel, или в Nvidia против AMD, нетСамо по себе доказательство того, что контрольные показатели были намеренно разработаны в интересах той или иной компании. Компании склонны выражать беспокойство по поводу ориентиров, которые используют рецензенты, когда сталкиваются с растущим конкурентным давлением на рынке. Те из вас, кто считает, что Intel ставит вопросы о тестах, которыми мы делимся с некоторыми рецензентами, потому что потеря большого количества доказательств – это не плохо. Но тот факт, что у компании есть корыстные причины задавать вопросы, не означает автоматически, что компания ошибается. И поскольку я не трачу много времени и время от времени провожу аппаратные тесты, чтобы дать людям неверное представление о том, как это работает, я всегда готов пересмотреть свои собственные выводы.

Ниже приведены мои собственные мысли об этой ситуации. Я не собираюсь разговаривать с другими критиками, кроме меня.


Внезапно Intel очень беспокоится о тестировании в реальном мире 1

Внезапно Intel очень обеспокоен сравнением производительности Интересно, что думает по этому поводу Максон, учитывая, что он является главным партнером Intel в SIGGRAPH.

Что на самом деле означает «реальный мир»?

Поддержка реальных аппаратных тестов – одно из самых противоречивых мнений, которое можно иметь в вычислительной технике. Я встречал людей, которым не нужно беспокоиться о разнице между синтетическими и реальными тестами, но я никогда не помню встречи с кем-то, кто считал, что реальные тесты не имеют значения. Тот факт, что почти все согласны с этим, не означает, что все согласны с тем, где находится грань между реальным миром и синтетическими ориентирами. Рассмотрим следующий сценарий:

    Разработчики делают вычислительные тесты, которые тестируют производительность графического процессора на аппаратном обеспечении AMD и Nvidia. Измерьте производительность, которую семейство GPU должно предлагать в CUDA и OpenCL. Сравнения показывают, что результаты присваиваются достаточно хорошо для приложений на местах. Компания 3D-рендеринга создает независимую версию своего приложения для сравнения производительности между CPU и GPU. Независимый тест точно фиксирует базовую производительность набора 3D-рендеринга (очень дорогой) в простом и удобном тесте. Компания 3D-рендеринга создала несколько тестовых сцен для сравнения всего приложения. Каждая сцена фокусируется на выделении определенной техники или технологии. Его общая цель состоит в том, чтобы продемонстрировать влияние на выполнение нескольких функций вместо того, чтобы предлагать одно общее представление. Игра включает в себя эталонный тест по умолчанию. Вместо того, чтобы имитировать правильные сцены из игры, разработчики создали демонстрацию, которая тестировала все аспекты производительности движка в течение нескольких минут. Этот тест можно использовать для измерения производительности новых функций API, таких как DX11. Игра, включающая эталонный тест по умолчанию. Этот тест основан на одной карте или событии в игре. Он точно измеряет производительность на определенных картах или сценариях, но не включает никаких данных на других картах или сценариях.

У вас будет собственное мнение о том, какие из этих сценариев (если таковые имеются) являются реальными критериями, а какие нет. Позвольте мне задать другой вопрос, который, на мой взгляд, важнее, чем если бы тест был «реальным» или нет. Какой из этих гипотетических тестов говорит вам что-то полезное о производительности тестируемого продукта?

Ответ: «Потенциально все». Критерии, которые я выбираю, являются функцией вопросов, которые я задаю. Синтетические или независимые тесты, которые работают как хорошие модели для различных приложений, все еще точно моделируют производительность в этом приложении. Это может быть гораздо лучшей моделью для реальной производительности, чем тесты, выполняемые для приложений, которые были высоко оптимизированы для определенных архитектур. Хотя все тесты в оптимизированных приложениях взяты из «реального мира», они отражают реальные рабочие нагрузки и задачи, само приложение может представлять собой непрезентативную область.

Все сценарии, которые я описал выше, могут стать хорошими контрольными показателями, в зависимости от того, насколько хорошо они обобщены для других приложений. Обобщение важно В обзоре По моему опыту, рецензенты, как правило, пытались сбалансировать приложения, которые, как известно, поддерживают компанию, с приложениями, которые хорошо работают на всех устройствах. Часто, если специфичные для поставщика функции активируются в наборе данных, проверка будет включать второй набор данных с отключенной той же функцией, чтобы обеспечить более нейтральное сравнение. Выполнение специфичных для поставщика индикаторов иногда может нанести ущерб способности теста говорить с более широкой аудиторией.

Intel предлагает альтернативные подходы

До сих пор мы строго говорили о том, является ли тест реальным миром, учитывая, обобщены ли результаты для других приложений. Тем не менее, есть и другие способы создания тем. Intel провела опрос пользователей, чтобы выяснить, какие приложения они используют, а затем предоставила нам эти данные. Это выглядит так:

Внезапно Intel очень обеспокоен сравнением производительности

Смысл здесь в том, что, тестируя наиболее распространенные приложения, установленные на аппаратном обеспечении людей, мы можем выявить лучшие и более репрезентативные варианты использования. это чувствует себя интуитивно правильно, но реальность сложнее.

Тот факт, что приложение используется часто, не делает его хорошим объективным ориентиром. Некоторые приложения не очень требовательны. Хотя есть несколько сценариев, в которых измерение производительности Chrome может быть важным, например, место для ноутбука низкого класса, хорошие отзывы об этом продукте уже в том числе этот тип теста. В контексте высокого класса энтузиастов, Chrome может не быть налоговой заявкой. Есть ли тестовый сценарий, который может сделать его утомительным? Да Но этот сценарий не отражает способ использования большинства приложений.

Реальный опыт использования Chrome на Ryzen 7 3800XSEEAMAZON_ET_135 см. Amazon ET торговля идентичен использованию в Core i9-9900K.SEEAMAZON_ET_135 см. Amazon ET торговля Даже если это не так, Google затрудняет сохранение версии Chrome ранее для текущего A / B-тестирования. Многие люди запускают расширения и блокировщики рекламы, которые влияют на производительность. Означает ли это, что рецензенты не могут оценить Chrome? Конечно, нет. Именно поэтому многие абсолютные обзоры ноутбуков делать Попробуйте Chrome, особенно в контексте времени автономной работы браузера, где известно, что Chrome, Firefox и Edge дают разные результаты. Отрегулируйте контрольные точки в соответствии с ситуацией.

Было время, когда я потратил больше времени на тестирование многих приложений в этом списке, чем сейчас. Когда я начинал свою карьеру, большая часть справочного пакета была посвящена офисным приложениям и базовым тестам 2D-графики. Я помню, что при замене графического процессора можно было значительно улучшить качество изображений, реагирующих на 2D и WindowsUI, даже без обновления их мониторов. Когда я писал для Ars Technica, я сравнивал загрузку процессора при декодировании HD-контента, потому что в то время можно было найти значительные различия. Если вы думаете о дебюте нетбука Atom, многие обзоры были посвящены таким вопросам, как отзывчивый пользовательский интерфейс с решениями на базе графических процессоров Nvidia Ion и их сравнение с интегрированной графикой Intel. Почему, потому что Ion реально влияет на общую производительность пользовательского интерфейса. Рецензенты не игнорируют эту проблему. Публикации имеют тенденцию возвращаться к ним, когда есть существенные различия.

Я не выбрал рецензию только потому, что это приложение популярно, несмотря на его популярность. может быть Посмотри в окончательном решении. В общем обзоре цель состоит в том, чтобы выбрать тесты, которые хорошо обобщены для других приложений. Тот факт, что кто-то установил Steam или Battle.net, мне ничего не сказал. Этот человек играет в Overwatch или WoW Classic? Ты играешь в Minecraft или No Man's Sky? Вы выбираете MMORPG игры или типы FPS, или вы просто останавливаетесь на Goat Simulator 2017? Ты действительно играешь в какие-нибудь игры? Я не могу знать без дополнительных данных.

Приложения в этом списке, которые показывают значительные различия в производительности в общих задачах, как правило, тестировались. Такие публикации, как Puget Systems, регулярно публикуют сравнения производительности в Adobe Suite. В некоторых случаях причина, по которой приложения не тестируются чаще, заключается в том, что существуют давние проблемы с надежностью и точностью эталонных пакетов, которые чаще всего включают их.

Меня всегда интересуют лучшие методы измерения производительности ПК. Intel действительно играет определенную роль в этом процессе: компания много раз помогла найти способы выделить новые функции или решить проблемы. Но единственный способ найти значительные различия в оборудовании – это найти значительные различия в тест Опять же, в общем, вы увидите рецензентов, которые проверяют ноутбуки на наличие пробелов в времени автономной работы, энергопотреблении и производительности. В графических процессорах мы ищем различия в кадрах и времени кадров. Поскольку никто из нас не может выполнить все рабочие нагрузки, мы ищем приложения с обобщенными результатами. В ET я запускаю несколько приложений рендеринга специально, чтобы убедиться, что нам не нравятся поставщики или решения. Вот почему я попробовал Cinebench, Blender, Maxwell Render, и Визуализировать корону. Когда дело доходит до кодирования мультимедиа, Handbrake на самом деле является решением для всех, но мы проверяем H.264 и H.265, чтобы убедиться, что мы ловим некоторые тестовые сценарии. Когда тесты оказываются неточными или недостаточными для сбора необходимых мне данных, я использую другой тест.

Ложная дихотомия

Широко обсуждаемая разница между «синтетическими» и «реальными» эталонами – это формулировка серьезной проблемы. В конечном счете, важно то, предоставляют ли справочные данные, представленные рецензентами, точное представление об ожидаемых характеристиках устройства. Как подробно рассказал Роб Уильямс в Techgage, Intel была очень счастлива использовать Cinebench от Maxon в качестве эталона, когда ядро ​​процессора доминировало в производительности. В недавней публикации о Medium Intel Райан Шрут пишет:

Сегодня в IFA мы празднуем событие, чтобы помочь членам медиа-сообщества и аналитикам с очень близкой и очень трогательной для нас темой: выступление в реальном мире. Мы проводили это мероприятие в течение нескольких месяцев, начиная с Computex, а затем с E3, и мы многому научились за это время. Этот процесс укрепил наше мнение о синтетических тестах: они обеспечивают ценность, если вам нужен быстрый и узкий взгляд на производительность. Мы по-прежнему используем его для внутренних целей, и мы знаем, что многие из вас также делают это, но реальность такова, что вы становитесь менее точными при оценке реальной производительности для пользователей, независимо от рассматриваемого сегмента продукта.

Звучит очень тяжело. Следуйте за этим со слайдом:

Внезапно Intel очень обеспокоен сравнением производительности

Чтобы показать неполноценность синтетических тестов, Intel указывает 14 отдельных результатов, 10 из которых были взяты из 3DMark и PCMark. Оба приложения обычно считаются синтетическими. Когда компания представляет данные о своей производительности по сравнению с ARM, она снова делает то же самое:

Внезапно Intel очень обеспокоен сравнением производительности

Почему Intel ссылается на синтетические приложения в том же сообщении в блоге, где она определенно называет это плохим выбором по сравнению с тестами, которые считаются превосходящими «реальный мир»? Возможно, это связано с тем, что Intel приняла свои эталонные решения, как и наши рецензенты, с целью представления репрезентативных и воспроизводимых результатов, используя доступные тесты с хорошим набором функций, которые не выходят из строя или дают сбой по неизвестным причинам после установки. У Intel также могут возникнуть проблемы с тем, чтобы не отставать от количества программного обеспечения, которое постоянно выпускается, и проходить тесты для представления своих надежных продуктов. Возможно, вы захотите продолжить разработку собственных синтетических тестов, таких как WebXPRT, не затрачивая все усилия на шину, хотя в то же время пытаетесь предположить, что тесты AMD не точны.

И, возможно, это потому, что все синтетические кадры против реального мира плохи для начала.

Обновления (5/9/2019)Единственное, что я не упоминаю, это тот факт, что наиболее используемые приложения Intel для сбора данных полностью взяты с ноутбуков и устройств 2-в-1. Это показывает это на предыдущем слайде. Мы не будем ожидать что создатели контента, работающие в 3D-приложениях, таких как Blender, Cinebench или аналогичные приложения класса рабочих станций, будут использовать 2-в-1. Подразумевается, что это приложение менее важно, потому что низкая база установки ослаблена тем фактом, что аппаратные конфигурации, измеренные Intel, не представляют систему, в которой мы ожидаем, что это приложение будет использоваться.

Сейчас читаю:

Table of Contents