Onderzoekers van de Hanzehogeschool Groningen keken kritisch naar tien moderne activity trackers en smartwatches. Het is de tweede keer dat in Nederland wetenschappelijk onderzoek wordt gedaan naar de betrouwbaarheid van deze wearables voor consumenten. SmartHealth spreekt met Thea Kooiman, verbonden aan het Quantified Self Institute, die de valideringsstudie leidde.
De wetenschap loopt nooit voor op de markt, dat geeft Thea Kooiman direct toe. Maar volgens haar is het wel gelukt om tien moderne consumentenproducten, waaronder de Apple Watch, Fitbit Charge HR en Garmin vívofit te gebruiken voor de twee-jaar durende valideringsstudie. “Naar een groot deel van de trackers die we geselecteerd hebben is – voor zover wij weten – nog geen wetenschappelijk onderzoek gedaan.”
Thea Kooiman is opgeleid als bewegingswetenschapper en oefentherapeut mensendieck (een specifieke behandelmethode met name gericht op (het voorkomen van) klachten ten gevolge van een incorrecte houding of beweging, red.). Momenteel werkt ze als promovendus bij het lectoraat Healthy Aging, Allied Health Care and Nursing van de Hanzehogeschool in Groningen, waar ze onderzoek doet naar eHealth en quantified self technologie. “Ik doe onderzoek naar de betrouwbaarheid en validiteit van zelfmeet-technologie, hoe nieuwe technologie gebruikt wordt en waarom, en wat de effectiviteit is: wat levert het op om zelfmetingen te doen?”
Het onderzoek naar activity trackers, dat is gepubliceerd in het wetenschappelijk tijdschrift Medicine & science in sports & exercise, is het vervolg op een eerdere studie. Deze studie bij het Quantified Self Institute startte in 2013 met tien consumenten stappentellers, waaronder een aantal producten die nu niet meer te koop zijn, zoals de Nike Fuelband. Met die studie deed het onderzoeksteam een hoop ervaring op, waarna in 2015 een tweede studie startte met een generatie nieuwe trackers.
Betrouwbaarheid en validiteit
“Activity trackers maken inzichtelijk hoe actief we op een dag zijn, hoeveel calorieën we verbranden en wat patronen in beweging zijn. Wij wilden onderzoeken wat de betrouwbaarheid en validiteit van tien consumentenproducten was”, vertelt Thea Kooiman. Daarvoor werden de Samsung Gear, de Apple watch, de Pebble Watch, de Fitbit Charge HR, de Garmin vívosmart, de Polar Loop, de Jawbone Move, Misfit Flash en de Fly fit geselecteerd. Naast die negen wearables en smartwatches werd ook de bewegingsapp Moves onderzocht.
“Als je meerdere keren achter elkaar meet en je voert precies dezelfde beweging uit, meet de tracker dan ook precies hetzelfde? Dat is wat we onderzoeken met betrouwbaarheid. Wij hanteerden de wetenschappelijke norm dat een activity tracker 5 tot 10 procent mag afwijken van de gouden standaard om accuraat of betrouwbaar te heten”, aldus Kooiman. Validiteit betekent volgens de onderzoeker of het gemeten aantal stappen van een activity tracker overeenkomt met het daadwerkelijk gemeten aantal stappen, ook volgens een gouden standaard. Dus: hoeveel stappen zet je op een dag volgens de tracker, en hoeveel stappen zette je daadwerkelijk?
Volgens Kooiman is het voor consumenten vaak het belangrijkst dat een wearable of smartwatch betrouwbaar is. “Als je meer of minder gaat bewegen, moet de tracker dat ook aangeven. Betrouwbaarheid weegt voor veel recreatieve gebruikers waarschijnlijk zwaarder dan het exacte aantal stappen op een dag. Een activity tracker kan betrouwbaar een trend in de tijd aangeven, maar misschien niet exact het aantal stappen meten dat je op een dag zet.”
Arm vol met trackers
In 2013 startte het eerste onderzoek naar de stappentellers, waarbij in een laboratorium setting en in een thuissituatie 33 gezonde proefpersonen werden gevolgd. In het laboratorium liepen de proefpersonen – volgehangen met de tien wearables – dertig minuten op een loopband. Van die dertig minuten werd een opname gemaakt met het Optogait systeem. Die Optogait meting werd gebruikt als gouden standaard, in de thuissetting werd de ActivPal stappenteller gebruikt als referentie.
Hoe betrouwbaar en valide zijn activity trackers voor consumenten?
“Uit die studie bleken de Nike+ Fuelband en de Moves app het minst valide te zijn. De Nike+ Fuelband gaf een hele duidelijke onderschatting aan, en Moves app gaf een overschatting van het aantal stappen, zowel bij individuele metingen en over de hele testgroep”, aldus Kooiman. “De Fitbit Zip, een van de eerste modellen van Fitbit die je aan een broek vast clipt, kwam er als beste uit bij individuele metingen en had gemiddeld ook een goede score.”
Kooiman: “Tijdens de eerste studie merkten we dat het erg tijdsintensief was om proefpersonen één dag van 9.00 tot 16.30 te volgen in een vrije setting. Ook was het verwerken van twee deelstudies in één artikel vrij lastig. Hiernaast was er in het labgedeelte op één snelheid gemeten, terwijl het ook interessant is om de betrouwbaarheid op meerdere snelheden te meten.”
Met de hand stappen tellen
Voor de tweede studie, die startte in het najaar van 2015, werd een en ander aangepast. Er werden 31 gezonde proefpersonen geworven, die twee keer in het lab op de loopband liepen, dit keer op drie verschillende snelheden. Ook deze keer werden de deelnemers volgehangen met alle negen wearables, en droegen ze een smartphone (voor de Moves stappenteller app) dicht bij hun lichaam. “Dit keer gebruikten we een hand telling als referentie, met als back-up een video-opname”, aldus Kooiman. De Hanzehogeschool wist studenten te werven die met een hand-stappenteller naast de loopband plaats namen en met de hand alle (!) gezette stappen telden. De mechanische handteller begaf het zelfs op een gegeven moment door intensief gebruik: de laatste metingen zijn met een app gedaan.
Meten met drie snelheden
De proefpersonen liepen tijdens twee sessies op drie snelheden: langzaam (zo’n 3,2 kilometer/uur), gemiddeld (4,8 kilometer/uur), en snel (6,4 kilometer/uur). De onderzoekers waren benieuwd hoe betrouwbaar de smartwatches en trackers zijn bij de drie verschillende snelheden, en of ze het aantal stappen betrouwbaar meten.
De betrouwbaarheid en validiteit van de trackers en smartwatches is afhankelijk van de loopsnelheid, concluderen de onderzoekers. Er komt niet één absolute winnaar uit het onderzoek. Gemiddeld doen de consumenten trackers en smartwatches het beter bij gemiddelde en hoge snelheden, dan bij lage snelheden.
Op langzame snelheid blijken de Garmin vívosmart en de Fitbit Charge HR het beste uit het onderzoek te komen. “Dit waren de meest betrouwbare en valide trackers bij het wandelen op lage snelheid. Bij de gemiddelde wandelsnelheid waren de Garmin vívosmart en de Apple Watch Sport de meest betrouwbare en valide trackers”, aldus Kooiman. Bij de hoge snelheid, uitgaande van ruim 6 kilometer per uur, scoorden de drie smartwatches als meest accurate trackers. Het gaat dan om de Apple Watch Sport, de Pebble Smartwatch, en de Samsung Gear S.
Samsung Gear Fit
“We hebben bij het meten van de validiteit en betrouwbaarheid zowel gekeken naar de afwijking op individuele gevallen, dus hoe betrouwbaar de metingen bij de 31 proefpersonen waren, als het gemiddelde van de metingen. De Garmin vívosmart deed de metingen op hoog niveau minder goed, maar was wel betrouwbaar op lage en gemiddelde snelheid.”
Betrouwbare tracker
Voor individuele gebruikers geldt: de trackers en smartwatches van Apple, Pebble, Fitbit, Garmin en Samsung komen goed uit de test. “Zeker voor iemand met een normale loopsnelheid”, aldus Kooiman. “Wel bleek de Moves app niet heel goed te scoren qua betrouwbaarheid, zowel bij de eerste als bij de tweede meting. Op lage snelheid op de loopband slaagt de app er niet goed in stappen te tellen, het kan zijn dat dat lastig is voor een smartphone.”
Consumenten die hun activiteitenpatroon willen meten met een activity tracker kunnen opgelucht ademhalen: voor individuele gebruikers zijn de meeste trackers geschikt. En wat heeft de wetenschap aan dit onderzoek? Kooiman: “Dit onderzoek geeft inzicht in de betrouwbaarheid en validiteit van moderne stappentellers. De resultaten van dit onderzoek kunnen nuttig zijn bij het selecteren van een activity tracker voor een bepaalde doelgroep, bijvoorbeeld bij een vervolgonderzoek.”
Vervolgonderzoek
Op lage snelheid is het lastig voor de ingebouwde sensoren om versnellingen te meten, schrijven de onderzoekers in de discussie. Ook voor de proefpersonen was het lastig om constant het langzame tempo aan te houden. Volgens Kooiman is er ook een ‘open debat’ over de plaats waar de activity tracker wordt gedragen, aan de dominante (voorkeurs)pols of de niet-dominante pols en hand. “Wij kozen ervoor om de trackers aan één arm te dragen, telkens in dezelfde volgorde.”
De hartslagsensor die bij de Fitbit Charge HR is ingebouwd, werd niet meegenomen bij het onderzoek. Daarnaast is het belangrijk om te benadrukken dat aan dit onderzoek gezonde proefpersonen meededen, volgens de onderzoekers. “Het looppatroon van senioren of mensen met een beperking kan er anders uitzien, wat tot andere resultaten kan leiden.”
Meer lezen? Ga je daadwerkelijk meer bewegen door een activity tracker?
Graag enkele verduidelijkingen mbt de reproduceerbaaheid en interpreteerbaarheid van jullie onderzoek en conclusies:
“Wij kozen ervoor om de trackers aan één arm te dragen, telkens in dezelfde volgorde.”
... lijkt mij discriminerend tov de tracker die het meeste arm-swing krijgt, i.e. die dichtst bij de pols tov de andere. Best zowiezo elke tracker op elke plaats testen, of elke tracker apart op de plaats zoals bedoeld door de fabrikant.
"de wetenschappelijke norm dat een activity tracker 5 tot 10 procent mag afwijken van de gouden standaard"
... welke wetenschappelijke norm, door wie opgesteld ?
... 5 tot 10 of ±5 tot ±10 procent gemiddelde afwijking of standaard afwijking ?
... welke gouden standaard, door wie vastgelegd ?
De toegestane afwijking is m.i. steeds te bepalen in functie van de toepassing.