Blogs

Categorieën

Ledenblog Seijo Kruizinga: Publieke Weersverwachtingen op Internet: Wat zijn ze waard?

  • Onderzoek
  • 13 minuten (2524 woorden)

Deel 4: Verwachtingen voor Tn en Tx

 

In de komende afleveringen wil ik wat nader ingaan op de kwaliteit van de verwachtingen voor Tn en Tx. In deze aflevering komt de langjarige trend in die kwaliteit aan de orde. Ik heb nu 12 jaar aan verwachtingen verzameld voor deze twee grootheden. In feite is een dergelijke periode nog wat kort om duidelijke uitspraken te kunnen doen over de aanwezigheid van een trend. Om wat meer data ter beschikking te hebben heb ik oude (verificatie)reeksen uit de jaren 1972 tot en met 1990 toegevoegd aan het materiaal dat we gaan analyseren. Deze laatstee reeksen zijn indertijd verzameld door Harald Daan, KNMI TR 159. Van zowel de jaren 1972 t/m 1990 als de jaren 2007 t/m 2018 zijn per jaar de mean square errors (MSE) berekend. De resultaten zijn in een diagram tegen het jaartal uitgezet. Zie hiervoor de figuren voor Tx en Tn.

 

Wat meteen opvalt in die figuren is dat de MSE’s van de jaren 2007-2018, als groep, duidelijk lager liggen dan de MSE’s van de jaren 1972-1991. Bij Tx is de MSE vrijwel gehalveerd bij Tn is de MSE omstreeks 40 procent lager. De verificatie resultaten van 07-18 zijn dus duidelijk beter dan de resultaten van 72-91. Om nog iets meer te kunnen zeggen over de trend in kwaliteit zijn in deze figuren ook nog regressielijnen van de MSE’s versus het jaartal ingetekend. Zowel voor de periode 72-90 als de periode 07-18 zijn regressielijnen berekend en verder ook nog voor de gecombineerde reeks van beide perioden. De drie regressielijnen vertonen qua helling veel overeenkomsten.

 

In bijgaande tabel zijn wat numerieke resultaten van de regressies samengevat. We zien hier bijvoorbeeld dat de regressie van Tx in de periode 07-18 al behoorlijk significant is. De kans dat de gevonden helling op toeval berust is omstreeks 0,3 procent. Bij de Tn is dat nog 20 procent. Toch durf ik te stellen dat gezien de overeenkomst in regressiehellingen ook deze trend wel significant zal zijn. Op basis van het voorgaande kunnen we daarom concluderen dat zowel de verwachtingen voor Tx als Tn in de afgelopen periode van 1972 tot 2018 steeds geleidelijk beter geworden zijn. Bij Tx is het tempo duidelijk hoger dan bij Tn. Maar voor beide geldt dat verwacht mag worden dat dit nog wel enige tijd door gaat. Wel zijn bij zowel Tx als Tn de hellingen van 07-18 in absolute waarde kleiner dan hellingen van 72-90 en van de gecombineerde reeksen. Dat zou er op kunnen duiden dat het tempo van verbetering afneemt.

Deel 3: Verwachtingen voor Tn en Tx

 

In vrijwel elke publieke weersverwachting worden de verwachte minimum- en maximum-temperatuur (Tn en Tx) vermeld. Helaas is niet altijd even duidelijk op welke periode dat minimum of maximum betrekking heeft. In de bijdragen die hierna komen betreft het de minimum­temperatuur over het tijdvak 18 UTC van de vorige dag tot 06 UTC op de dag waarop de verwachting betrekking heeft. De maximumtemperatuur wordt bepaald over het tijdvak 06  UTC tot 18 UTC van diezelfde dag. De weerbureaus van MeteoGroup, Weeronline en het KNMI gebruiken die definitie. Maar bijvoorbeeld bij WeerPlaza en Buienradar worden Tn en Tx bepaald over de 24-uur periode van 00 tot 24 UTC of zelfs over 00-24 lokale tijd. Op zich is dat geen bezwaar echter bij die definitie is het niet altijd duidelijk op welke nacht de minimumtemperatuur betrekking heeft. Mijns inziens geeft dat dus soms geen goede beschrijving van de nacht/dag cyclus die je in de verwachting probeert te beschrijven.

 

We beperken ons, in de verificatie rapporten hierna, daarom tot de verwachtingen voor Tn en Tx van de MeteoGroup, Weeronline en het KNMI en voorlopig alleen voor dag 1. De verifiërende waarnemingen hebben we ontleend aan de KNMI webpagina met de extremen. In deze inleiding zullen we eerst een paar begrippen nader toelichten:

 

  • De fout in de verwachting berekenen we als verwachte waarde (meestal in hele graden) minus de opgetreden waarde in tienden van graden.
  • Het trefferpercentage betreft de fractie verwachtingen met een absolute waarde van de fout kleiner dan of gelijk aan 2,0 graden.
  • De mean absolute error (MAE) is het gemiddelde van de absolute waarde van de fouten.
  • De mean square error (MSE) het gemiddelde van het kwadraat van de fouten. In de MSE wegen, vergeleken met de MAE, grote fouten meer door en de MSE accentueert tevens de verschillen tussen weerbureaus.
  • De Bias is het gemiddelde van de fouten over de verificatie dataset.
  • De Spreiding (SPR) is de standaarddeviatie van de fouten.

 

De meeste studies die hierna volgen zullen betrekking hebben op verwachtingen voor Utrecht en gebruiken we de waarnemingen van De Bilt voor de verificatie. Soms betrekken we ook Eindhoven bij de analyse.

 

In sommige gevallen zullen we spreken van verwachtingen en/of waarnemingen die extreem hoog of extreem laag zijn. We bedoelen dan dat het verschil met het dagelijks langjarig gemiddelde (normaal) erg groot is. Omdat de KNMI-normalen periodes van tien dagen bestrijken en soms grote sprongen maken, heb ik een eigen dagelijkse normaal berekend op basis van Fourieranalyse gebruik makend van de waarnemingen uit de periode 1986 tot en 2015. In bijgaande figuur zijn deze normalen voor Tx en Tn voor De Bilt en Eindhoven weergegeven.  Overigens is ook het berekenen van deze normalen al een interessante exercitie die op zich een blog waard is.

 

Als laatste nog een aantal conventies waarmee ik werk. Met jaargemiddelde bedoel ik altijd het gemiddelde over het meteorologisch jaar, december t/m november. Onder het koude seizoen versta ik de periode van 15 oktober t/m 14 april van het volgende jaar. Het warme seizoen omvat de rest van het jaar. Verwachtingen van een weerbureau duidt ik aan met de afkortingen WOL (Weeronline), MG (MeteoGroup) en KNMI. De parameter waar die verwachtingen betrekking op hebben volgt meestal uit de context. Het verschil met de normaal wordt genoteerd als dWOL, dMG en dKNMI en de fout in de verwachting als eWOL, eMG en eKNMI. Soms zet ik een cijfer achter de afkorting bijvoorbeeld MG6 dat betekent dan de dag 6 verwachting. Zonder cijfer heeft dat altijd betrekking op dag 1. De verwachtingen zijn georganiseerd op verificatiedatum dat wil zeggen dat bijvoorbeeld een dag 5 verwachting is gebaseerd op een verwachting van 5 dagen eerder.

 

 

Deel 2: Neerslagkans  per etmaal

 

De neerslagkans per etmaal (00 UTC tot 24 UTC) wordt bij veel weerbureaus in de verwachting genoemd. In deze aflevering zullen we neerslagkansen van twee weerbureaus verifiëren: de Meerdaagse van het KNMI (MD) en de vijfdaagse van Weeronline (WL). De neerslagkansen die in de Meerdaagse van het KNMI worden vermeld zijn landelijke kansen. Echter volgens de toelichting van het KNMI is dat een kans die op elke locatie in Nederland gebruikt mag worden. De neerslag­kansen van Weeronline zijn locatie specifiek en we gebruiken de verwachting voor Utrecht uit hun vijfdaagse verwachting. We zullen beide verwachtingen verifiëren tegen het al of niet optreden van neerslag te De Bilt. Daarbij hanteren we bij de Meerdaagse 0,3 mm als grenswaarde en bij Weeronline gebruiken 0,1 mm als grenswaarde. Uit de periode van december 2010 tot en met november 2017 hebben we die dagen geëxtraheerd waarop alle Meerdaagse verwachtingen van dag 1 t/m dag 6 en alle verwachtingen van Weeronline van dag 0 t/m dag 4 beschikbaar waren. In totaal was dat op 2279 dagen van de 2557 dagen in die periode het geval. Alle verwachtingen worden dus op dezelfde set waarnemingen geverifieerd.

 

Net als in de vorige bijdrage maken we gebruik van Brier Scores (BS) en de Expected Brier Scores (EBS) om de kwaliteit van de verwachtingen te beschrijven. In bijgaande figuur 1 zijn zowel de BS als de EBS uitgezet tegen de zichttijd van de verwachtingen voor zowel de Meerdaagse (MD) als voor Weeronline (WL). Alle Brierscores liggen ruim onder de referentiescores van 0,2497 voor Weeronline en 0,2478 voor de Meerdaagse. Bij Weeronline zijn op dag 0 de BS en de EBS gelijk duidend op een betrouwbare kansverwachting. Bij dag 1 tot en met dag 4 is de  BS lager dan de EBS oftewel de verwachtingen zijn een beetje behoudend. In figuur 2 is het betrouw­baarheidsdiagram van dag 1 weergegeven. Dit diagram toont aan dat de verwachtingen nog aardig betrouwbaar zijn. In deze figuur is tevens de verdeling van de verwachte kansen over de  kans­niveaus gegeven. De diagrammen voor dag 2, 3 en 4 lijken veel op die van dag 1. Wel komen de verwachte kansen steeds dichter bij het gemiddelde te liggen.

 

Bij de Meerdaagse is het verschil tussen BS en EBS op dag 1 erg groot. In het betrouwbaarheids­diagram in  figuur 3  zien we dat dat samenhangt met een behoorlijke onderschatting van de neerslagkans bij de hoge kansen en een overschatting van de neerslagkans bij een verwachting van 10%. Met toenemende zichttijd wordt het verschil tussen BS en EBS kleiner en worden verwachtingen dus ook meer betrouwbaar. Bij dag 6 gebeurt er iets geks, de EBS is ineens kleiner dan de BS, duidend op een overdrijvende verwachting. In figuur 4 zien we dan ook dat bij hoge verwachte kansen er een duidelijke overschatting optreedt. De bijbehorende kansverdeling van de verwachting geeft bovendien aan dat er veel hoge kansen in de verwachting voorkomen. Dat er iets mis is met de verwachting voor dag 6 van de Meerdaagse is ook te zien in figuur 5  waar de bias in de verwachte kansen als functie van de zichttijd is geplot. Op dag 6 is de gemiddelde verwachte neerslagkans 11% hoger dan de gemiddelde neerslagkans.

Deel 1 : Neerslagkans Overdag

 

            Neerslagkansen maken al heel lang deel uit van de weersverwachtingen. Aanvankelijk betrof dat de neerslagkans per etmaal. Later werd dat uitgebreid naar de neerslagkans over kortere tijdvakken tot zelfs de neerslagkans per uurvak. In de jaren 70/80 van de vorige eeuw bevatte de verwachting van het KNMI ook neerslagkansen voor een 12-uur tijdvak overdag (06-18 UTC). Persoonlijk lijkt mij dat de meest waardevolle verwachting voor een publieksverwachting. Het betreft namelijk de tijdvak waarin het publiek het meest geïnteresseerd is. Het KNMI geeft die verwachting niet meer uit maar in de 7-daagse verwachting van de MeteoGroup is  een dergelijke verwachting wel opgenomen. In deze bijdrage zullen we deze laatste verwachtingen verifiëren over de periode van 25 juli 2010 tot en met 30 november 2018.

            Een neerslagkansverwachting voor een bepaalde periode geeft gewoonlijk de kans in procenten dat in die periode een gegeven grenswaarde of meer aan neerslag zal optreden. Traditioneel hanteerde het KNMI een grens van 0,3 millimeter. Bij de verwachtingen van de MeteoGroup is dat 0,1 millimeter. We verifiëren de kansverwachtingen met behulp van de BrierScore. Gewoonlijk worden de verwachte kansen voor het berekenen van de Brier Scoreomgerekend naar fracties. Deze opgetreden BrierScore (BS) vergelijken we dan met de referentiescore RBS die wordt berekend door de gemiddelde neerslag­kans berekent uit de waarnemingen over de verificatie periode te gebruiken als referentieverwachting. We verwachten dan dat de opgetreden BrierScore aanzienlijk lager is dan de referentiescore. Verder testen we de verwachte kansen op betrouwbaarheid dat wil zeggen dat we verwachten dat indien we 100 keer een verwachting van 70% uitgeven, er in 70 gevallen neerslag is opgetreden. Voor deze test wordt het zogenoemde betrouwbaarheidsdiagram gebruikt.  Dit diagram wordt geconstrueerd door van een groot aantal verwachtingen verwachtingen met dezelfde waarde bij elkaar te nemen en verwachte waarde te plotten tegen de opgetreden fractie.

            Naast de Brier Score berekenen we ook nog de Expected Brier Score. We gaan er dan van uit dat de verwachte kansen betrouwbaar zijn. In die situatie geldt dat de verwachte Brier Score van een individuele verwachting P (in fracties) gelijk is aan P*(1-P). De Expected Brier Score voor het totaal van alle verwachtingen in de verificatie is dan het gemiddelde van al die individuele Expected Brier scores. Voor betrouwbare verwachtingen is de EBS ongeveer gelijk aan de BS afgezien van toevallige afwijkingen. Indien de EBS veel hoger is dan de BS zijn de verwachtingen te behoudend oftewel bij hoge kansen is de opgetreden fractie zelfs nog hoger en/of bij lage kansen is de opgetreden fractie juist nog kleiner. Indien de BS veel groter is dan de EBS geldt het omgekeerde.

            Voor de verificatieberekeningen hebben hebben we alle dagen uit bovengenoemde periode geselecteerd waarvoor een verwachting van dag 0 tot en met dag 6 beschikbaar was. Alle termijnen worden dus geverifieerd op dezelfde reeks waarnemingen. Wel vallen hierdoor relatief  veel data uit want één gemiste verwachting betekent het verlies van zeven dagen. In totaal waren toch nog 2798 dagen beschikbaar.  In de twee figuren hieronder zijn de resultaten voor de BS, de EBS en de RBS geplot als functie van de verwachtingstermijn voor zowel De Bilt als Eindhoven. Voor beide geldt dat de actuele BrierScore, tot en met dag 6, lager is dan de referentiescore oftewel tot en met dag 6 is actuele verwachting beter dan de referentie. Verder valt op dat op Dag_0 de BrierScore lager is dan de Expected BrierScore en bij Dag_6 is dat juist omgekeerd. Bij Dag_1 zijn ze praktisch gelijk. Op Dag_0 zijn de verwachtingen behoudend en op Dag_6 juist niet. In de daarop volgende figuren wordt voor De Bilt geïllustreerd wat dat betekent in het betrouwbaarheidsdiagram. Opvallend is bijvoorbeeld dat bij Dag_6 de opgetreden fracties, voor de hoge verwachte kansen, veel kleiner zijn dan de verwachte kansen

Introductie

Publieke Weersverwachtingen op Internet:  Wat zijn ze waard?

Eind 2006 ben ik begonnen met het verzamelen van screendumps van de internetpaginas van diverse weerbureaus. Mijn doel was op dat moment om voor de temperatuur-verwachtingen van de bureaus na te gaan hoe goed die waren en of er verschillen waren tussen de weerbureaus. Ik heb hierover al enkele malen gerapporteerd in Meteorologica. Langzamerhand begon het onderwerp me steeds meer te boeien en kreeg ik ook belangstelling voor andere elementen uit de weersverwachting. Echter het verzamelen van screendumps en met name het handmatig extraheren van de cijferverwachtingen hieruit vroeg steeds meer tijd. Vandaar dat ik in 2010 begonnen ben met het handmatig, via het programma Curl, de onderliggende html-sources binnen te halen. Vervolgens werd met Python-programmas de verwachtingen voor diverse elementen hieruit geëxtraheerd. In 2012 heb ik dat opvragen van html-sources vervolgens geautomatiseerd op een linux-computer die ik huur bij STRATO. Het handmatig verzamelen van screendumps liep ondertussen ook door. Op deze manier heb ik sinds eind 2006 zo’n 60000 screendumps verzameld en zo’n 100000 html-bestanden.

Deze dataset vormt de basis voor diverse verificatiestudies en andere analyses die ik als hobby uitvoer. Naar mijn idee zitten daar soms leuke resultaten tussen die echter niet altijd een Meteorologica verhaal rechtvaardigen. Vandaar dat ik deze blog begin om jullie min of meer regelmatig te informeren over de resultaten. Ik zal daarbij ook wel eens een zijpad bewandelen dat ik interessant vind.

Hieronder wat voorbeelden van screendumps: een oude uit 2007 en een nieuwe uit 2019. De bijbehorende html-sources zijn natuurlijk ook veranderd wat iedere keer aanleiding gaf tot aanpassing van de programmatuur.


Ledenblog Iris Dekker:Cities from Space
28aug

Ledenblog Iris Dekker:Cities from Space

Cities from space: estimating emissions using satellite data The number of satellites orbiting the earth is increasing rapidly. But not...

Reacties

Log in om de reacties te lezen en te plaatsen

Onze sponsoren