Blogs

Categorieën

Ledenblog Seijo Kruizinga: Publieke Weersverwachtingen op Internet: Wat zijn ze waard?

  • Onderzoek
  • 5 minuten (914 woorden)

Introductie

Publieke Weersverwachtingen op Internet:  Wat zijn ze waard?

Eind 2006 ben ik begonnen met het verzamelen van screendumps van de internetpaginas van diverse weerbureaus. Mijn doel was op dat moment om voor de temperatuur-verwachtingen van de bureaus na te gaan hoe goed die waren en of er verschillen waren tussen de weerbureaus. Ik heb hierover al enkele malen gerapporteerd in Meteorologica. Langzamerhand begon het onderwerp me steeds meer te boeien en kreeg ik ook belangstelling voor andere elementen uit de weersverwachting. Echter het verzamelen van screendumps en met name het handmatig extraheren van de cijferverwachtingen hieruit vroeg steeds meer tijd. Vandaar dat ik in 2010 begonnen ben met het handmatig, via het programma Curl, de onderliggende html-sources binnen te halen. Vervolgens werd met Python-programmas de verwachtingen voor diverse elementen hieruit geëxtraheerd. In 2012 heb ik dat opvragen van html-sources vervolgens geautomatiseerd op een linux-computer die ik huur bij STRATO. Het handmatig verzamelen van screendumps liep ondertussen ook door. Op deze manier heb ik sinds eind 2006 zo’n 60000 screendumps verzameld en zo’n 100000 html-bestanden.

Deze dataset vormt de basis voor diverse verificatiestudies en andere analyses die ik als hobby uitvoer. Naar mijn idee zitten daar soms leuke resultaten tussen die echter niet altijd een Meteorologica verhaal rechtvaardigen. Vandaar dat ik deze blog begin om jullie min of meer regelmatig te informeren over de resultaten. Ik zal daarbij ook wel eens een zijpad bewandelen dat ik interessant vind.

Hieronder wat voorbeelden van screendumps: een oude uit 2007 en een nieuwe uit 2019. De bijbehorende html-sources zijn natuurlijk ook veranderd wat iedere keer aanleiding gaf tot aanpassing van de programmatuur.

Deel 1 : Neerslagkans Overdag

 

            Neerslagkansen maken al heel lang deel uit van de weersverwachtingen. Aanvankelijk betrof dat de neerslagkans per etmaal. Later werd dat uitgebreid naar de neerslagkans over kortere tijdvakken tot zelfs de neerslagkans per uurvak. In de jaren 70/80 van de vorige eeuw bevatte de verwachting van het KNMI ook neerslagkansen voor een 12-uur tijdvak overdag (06-18 UTC). Persoonlijk lijkt mij dat de meest waardevolle verwachting voor een publieksverwachting. Het betreft namelijk de tijdvak waarin het publiek het meest geïnteresseerd is. Het KNMI geeft die verwachting niet meer uit maar in de 7-daagse verwachting van de MeteoGroup is  een dergelijke verwachting wel opgenomen. In deze bijdrage zullen we deze laatste verwachtingen verifiëren over de periode van 25 juli 2010 tot en met 30 november 2018.

            Een neerslagkansverwachting voor een bepaalde periode geeft gewoonlijk de kans in procenten dat in die periode een gegeven grenswaarde of meer aan neerslag zal optreden. Traditioneel hanteerde het KNMI een grens van 0,3 millimeter. Bij de verwachtingen van de MeteoGroup is dat 0,1 millimeter. We verifiëren de kansverwachtingen met behulp van de BrierScore. Gewoonlijk worden de verwachte kansen voor het berekenen van de Brier Scoreomgerekend naar fracties. Deze opgetreden BrierScore (BS) vergelijken we dan met de referentiescore RBS die wordt berekend door de gemiddelde neerslag­kans berekent uit de waarnemingen over de verificatie periode te gebruiken als referentieverwachting. We verwachten dan dat de opgetreden BrierScore aanzienlijk lager is dan de referentiescore. Verder testen we de verwachte kansen op betrouwbaarheid dat wil zeggen dat we verwachten dat indien we 100 keer een verwachting van 70% uitgeven, er in 70 gevallen neerslag is opgetreden. Voor deze test wordt het zogenoemde betrouwbaarheidsdiagram gebruikt.  Dit diagram wordt geconstrueerd door van een groot aantal verwachtingen verwachtingen met dezelfde waarde bij elkaar te nemen en verwachte waarde te plotten tegen de opgetreden fractie.

            Naast de Brier Score berekenen we ook nog de Expected Brier Score. We gaan er dan van uit dat de verwachte kansen betrouwbaar zijn. In die situatie geldt dat de verwachte Brier Score van een individuele verwachting P (in fracties) gelijk is aan P*(1-P). De Expected Brier Score voor het totaal van alle verwachtingen in de verificatie is dan het gemiddelde van al die individuele Expected Brier scores. Voor betrouwbare verwachtingen is de EBS ongeveer gelijk aan de BS afgezien van toevallige afwijkingen. Indien de EBS veel hoger is dan de BS zijn de verwachtingen te behoudend oftewel bij hoge kansen is de opgetreden fractie zelfs nog hoger en/of bij lage kansen is de opgetreden fractie juist nog kleiner. Indien de BS veel groter is dan de EBS geldt het omgekeerde.

            Voor de verificatieberekeningen hebben hebben we alle dagen uit bovengenoemde periode geselecteerd waarvoor een verwachting van dag 0 tot en met dag 6 beschikbaar was. Alle termijnen worden dus geverifieerd op dezelfde reeks waarnemingen. Wel vallen hierdoor relatief  veel data uit want één gemiste verwachting betekent het verlies van zeven dagen. In totaal waren toch nog 2798 dagen beschikbaar.  In de twee figuren hieronder zijn de resultaten voor de BS, de EBS en de RBS geplot als functie van de verwachtingstermijn voor zowel De Bilt als Eindhoven. Voor beide geldt dat de actuele BrierScore, tot en met dag 6, lager is dan de referentiescore oftewel tot en met dag 6 is actuele verwachting beter dan de referentie. Verder valt op dat op Dag_0 de BrierScore lager is dan de Expected BrierScore en bij Dag_6 is dat juist omgekeerd. Bij Dag_1 zijn ze praktisch gelijk. Op Dag_0 zijn de verwachtingen behoudend en op Dag_6 juist niet. In de daarop volgende figuren wordt voor De Bilt geïllustreerd wat dat betekent in het betrouwbaarheidsdiagram. Opvallend is bijvoorbeeld dat bij Dag_6 de opgetreden fracties, voor de hoge verwachte kansen, veel kleiner zijn dan de verwachte kansen


Ledenblog Iris Dekker:Cities from Space
28aug

Ledenblog Iris Dekker:Cities from Space

Cities from space: estimating emissions using satellite data The number of satellites orbiting the earth is increasing rapidly. But not...

Reacties

Log in om de reacties te lezen en te plaatsen

Onze sponsoren