Если ваша знакомая говорит, что она чувствует себя расслабленной, но вы видите, что её кулаки сжаты, вы можете усомниться в её искренности. С другой стороны, роботы, распознав смысл этой фразы, могли бы принять её за чистую монету. Язык тела говорит о многом. Но, даже с нынешними достижениями в области компьютерного зрения и технологии распознавания лиц, роботы могут пропустить важные социальные сигналы, связанные с тонкими движениями тела.
Исследователи из Университета Карнеги-Меллона разработали систему отслеживания движений тела, которая могла бы помочь решить эту проблему. Называемая «OpenPose», система может отслеживать движение тела, включая руки и лицо, в режиме реального времени. Она использует компьютерное зрение и компьютерное обучение для обработки видеокадров и может отслеживать одновременно несколько людей. Эта возможность может облегчить взаимодействие между человеком и роботом и проложить путь к более интерактивной виртуальной и дополненной реальности, а также к интуитивным пользовательским интерфейсам.
Одной из примечательных особенностей системы OpenPose является то, что она может отслеживать движения не только головы, туловища и конечностей человека, но и движения отдельных пальцев. Для этого исследователи использовали купол, оборудованный 500 видеокамерами, где камеры «фотографировали» позы тела под разными углами, а затем использовали эти изображения для создания набора данных.
Изображения пропускались через так называемый «детектор ключей», чтобы идентифицировать и маркировать конкретные части тела. Программное обеспечение также училось связывать части тела с людьми. Поэтому, например, системе известно, что рука конкретного человека всегда будет близка к его локтю. Это позволяет одновременно отслеживать сразу нескольких людей. Изображения были сделаны в 2D формате. Но исследователи взяли обнаруженные детектором ключевые точки и превратили их в 3D изображения, чтобы помочь алгоритмам отслеживания тела понять, как каждая поза выглядит с разных направлений зрения. При обработке всех этих данных система может определить, как выглядит вся рука, когда она находится в определенном положении, даже если некоторые пальцы закрыты.
Теперь, когда система имеет такой набор данных, она может работать только с одной видеокамерой и ноутбуком. Она больше не требует, чтобы купол с видеокамерами определял позы тела, что делает технологию распознавания движений мобильной и доступной.
Исследователи уже опубликовали свой код, чтобы стимулировать эксперименты. Они говорят, что данная технология может применяться ко всем видам взаимодействия между людьми и роботами, позволяя более точно обнаруживать движение пользователя без какого-либо дополнительного оборудования, например, сенсорных датчиков или перчаток. Это также может способствовать более естественному взаимодействию пользователя с домашним роботом. Пользователь могли бы сказать своему роботу «забрать это», и робот сразу сможет понять, на что пользователь указывает. Понимая и интерпретируя человеческие жесты, робот может даже научиться читать эмоции, отслеживая язык тела. Поэтому, когда, например, пользователь тихо плачет, спрятав лицо в руках, робот сможет предложить ему носовой платок…