Статистическая модель с высокой точностью предсказывает игровую тенденцию команд НФЛ

Уильям Бертон, студент промышленного инженера, специализирующийся на статистике в Университете штата Северная Каролина (NCSU), и его соавтор Майкл Дики, специалист по статистике, окончивший NCSU в мае, построили статистическую модель, которая прогнозирует тенденцию к играм в НФЛ. команды с высокой точностью. Сегодня Бертон представил модель на заседании в ходе Совместного статистического совещания 2015 г. (JSM 2015) в Сиэтле.

Их модель, которая правильно называла игры «беги и паси» с высокой скоростью при тестировании с использованием данных «игра за игрой» из реальных игр НФЛ, могла использоваться случайными фанатами и даже координаторами защиты НФЛ во время реальных игр, чтобы предсказать следующую игру своего оппонента.«Ценный навык для тренеров НФЛ — это умение предугадывать, будет ли команда соперника объявить передачу или повторную игру.

Если тип атакующей игры можно предсказать — скажем, пас — координатор защиты может объявить блиц или игру под прикрытием. чтобы получить преимущество », — объяснил Бертон во время своей презентации.Бертон и Дики использовали данные NFL за период с 2000 по 2014 год от ArmChair Analysis, чтобы провести первоначальный анализ вероятности паса в игре NFL.

Этот анализ показал, что вероятность паса в играх НФЛ выросла более чем на 2 процентных пункта с 54,4% в сезоне 2000 года до 56,7% в сезоне 2014 года. Вооружившись этой информацией, они решили, что модель должна быть разработана с использованием данных за сезоны 2011–2014 годов.Затем им нужно было решить, какие факторы больше всего влияют на выбор игры нападающей команды. К ним относятся оставшиеся ярды, уменьшение (первое, второе, третье или четвертое), оставшееся время, разница очков, очки атаки, очки защиты, взаимодействие между ярдами, которые нужно пройти, и общее количество перехватов, совокупное количество перехватов, поле позиция, оставшиеся тайм-ауты для нападения, оставшиеся тайм-ауты для защиты и ярды, полученные в предыдущих играх.

Они учли многие другие переменные, такие как отставание в игре (что произошло во время предыдущей игры) и текущие погодные условия (осадки / скорость ветра), но обнаружили, что они не оказали существенного влияния на вызов игры.Затем Бертон и Дики разработали логистическую регрессию и модели случайных лесов, используя данные по сезонам игровых данных ArmChair Analysis, чтобы предсказать будущие типы игр. При построении модели логистической регрессии они определили, что отдельные модели необходимо создавать для каждого квартала игры, поскольку поведение выбранных переменных меняется в квартал.

Например, если команда проигрывает в четвертой четверти, у нее гораздо больше шансов сделать пас, в то время как победившая команда с меньшей вероятностью объявит пас. И наоборот, в первой четверти разница в очках не влияет на прогнозирование типа игры.У каждого квартала есть свои особенности, которые нельзя уловить, если моделировать вместе.

В результате были созданы шесть уникальных моделей логистической регрессии — по одной для первого квартала, второго квартала, третьего квартала, победы в четвертом квартале, проигрыша в четвертом квартале и ничьей в четвертом квартале.Чтобы проверить свою модель, Бертон и Дики случайным образом выбрали 20 игр из завершенных сезонов НФЛ.

Лучший результат модели — правильно предсказывать 91,6% игр в игре 2014 года между Jacksonville Jaguars и Dallas Cowboys со средней точностью предсказания по всем 20 играм 75%.Ниже приводится список из пяти игр с наивысшими показателями точности прогнозов из 20 протестированных. (Примечание: учитываются только пасы или ранения; панты и попытки филд-гола не включены.)2014 Даллас Ковбойз в Джексонвилле Ягуарс

Общее количество пьес: 119Общее количество правильно предсказанных пьес: 109Общее количество неверно предсказанных пьес: 10Процент правильно предсказанных игр: 91,6%

2013 Baltimore Ravens в Денвер БронкосОбщее количество пьес: 148Общее количество правильно предсказанных пьес: 134

Общее количество неверно предсказанных пьес: 14Процент правильно предсказанных игр: 90,5%

2011 New York Giants на New England PatriotsОбщее количество пьес: 128

Общее количество правильно предсказанных пьес: 109Общее количество неверно предсказанных пьес: 19Процент правильно предсказанных игр: 85,16%

2014 New England Patriots в Сиэтл Сихокс (Суперкубок XLIX)Общее количество пьес: 121

Общее количество правильно предсказанных пьес: 96Общее количество неверно предсказанных пьес: 25

Процент правильно предсказанных игр: 79,33%2013 Arizona Cardinals в Сент-Луис РэмсОбщее количество пьес: 107

Общее количество правильно предсказанных пьес: 84Общее количество неверно предсказанных пьес: 23Процент правильно предсказанных игр: 78,50%

Теперь, когда окончательная модель построена и успешно протестирована, Бертон и Дики создали интерактивную визуализацию с использованием пакета R Shiny. «Эта визуализация — интуитивно понятный и легко интерпретируемый инструмент, который люди — от обычных фанатов до, возможно, тренеров НФЛ — могут использовать для принятия решений в режиме реального времени на основе текущих игровых условий», — пояснил Бертон во время своей презентации.