Ledenblog Seijo Kruizinga: Publieke Weersverwachtingen op Internet: Wat zijn ze waard?
Deel 17: Verificatie van Neerslagsommen
In de vorige blog hebben we drie methoden onderzocht waarmee we de kwaliteit van de neerslagverwachting kunnen kwantificeren. We zagen daar dat eigenlijk alle drie methoden goed bruikbaar zijn waaronder de methode die is gebaseerd op de klassieke aanpak, namelijk op de variantie van de fout in de verwachting vergeleken bij de variantie van de waarneming. Omdat deze laatste methode een heel scherp onderscheid maakt tussen diverse verwachtingen met variërende kwaliteit kreeg die een lichte voorkeur. Er zijn echter meer aspecten die meewegen bij deze keuze.
Deze verificatie zal onder meer gebruikt gaan worden om de skill in korte deelperioden te vergelijken bijvoorbeeld om te onderzoeken of de verwachting in de loop van de tijd beter wordt. Het is dan belangrijk dat de verificatie methode ook op basis van kleine datasets een stabiel resultaat geeft. De skills in de vorige blog waren gebaseerd op 11 jaar aan data. We hebben deze periode opgedeeld in 11 jaarlijkse sets en voor een gegeven locatie de skill per jaar berekend. Als verwachting werd, de gemeten neerslagsom in Herwijnen, een locatie op 27 kilometer van De Bilt gekozen. Voor de neerslagsom zelf vonden we een gemiddelde skill van 0,60 varierend van 0,32 tot 0,73. De skill gebaseerd op de getransformeerde neerslag varieerde van 0,71 tot 0,82 en is dus aanzienlijk stabieler. Ook de skill gebaseerd op de kruistabel is aanzienlijk stabieler met een variatie van 0,61 tot 0,70. De laatste twee methoden verdienen dus de voorkeur bij kleine datasets.
Bijgaande figuur illustreert, mijns inziens, nog een aspect waardoor de methode gebaseerd op de getransformeerde neerslagsommen de voorkeur verdient. Deze figuur toont het scatterdiagram van 1319 getransformeerde verwachtingen van Weeronline voor dag 0 in Eindhoven versus de getransformeerde waarnemingen in Eindhoven. De bijbehorende skill is 0,7 of 70%, de lineaire skill van deze verwachtingen komt op 0,20 en de kruistabelskill noteert 58%. De rechte lijnen in de figuur zijn gebaseerd op de bias en de standaarddeviatie van de fout die je bij het berekenen van de skill automatisch meekrijgt. De grijze lijn is de verwachting minus de bias, de blauwe lijn ligt één standaarddeviatie lager dan de grijze lijn en de rode één standaarddeviatie hoger. Duidelijk is in de figuur dat de bulk van de plots, voor een verwachting boven 1 mm, tussen de blauwe en de rode lijn ligt. Je kunt dus in de figuur een soort van betrouwbaarheidsinterval aflezen afhankelijk van de hoogte van de verwachting. Voor een verwachting van 3,0 (getransformeerd) beslaat dat interval dan de range 2,4 tot 3,5 ruwweg overeenkomend met 5 mm tot 18 mm. Voor een verwachting 4,0 wordt het interval 3,4 tot 4,5 oftewel 16 mm tot 56 mm. De plot uiterst rechts in de figuur overeenkomend met een verwachting van 94 mm en een waarneming 13 mm blijft royaal buiten die band.
In mijn opinie geeft de skill gebaseerd op de getransformeerde data gecombineerd met de scatterplot en de betrouwbaarheidsbanden de best mogelijke informatie voor de gebruiker.
Deel 16: Verificatie van Neerslagsommen
In de vorige blog heb ik u laten zien dat we door het transformeren van neerslagsommen, gemeten over een etmaal op een stationslocatie, een beter beeld kunnen krijgen van de samenhang tussen verwacht en opgetreden. In deze blog wil ik aan de hand van wat experimenten laten zien dat deze transformatie ook een nuttige rol kan spelen bij de verificatie van verwachte neerslagsommen. We zullen bij dit experiment voor ‘verwachtingen’ van variërende kwaliteit op drie manieren een skill berekenen. De eerste methode is gebaseerd op kruistabellen zoals beschreven in twee blogs terug. De andere twee methoden zijn gebaseerd op de variantie van de fout in de verwachting (VarF) respectievelijk van de waargenomen neerslagsom (VarW). Die grootheden berekenen we dan voor de onbewerkte neerslagsommen als voor de getransformeerde neerslagsommen. Bij de laatste twee methoden rekenen we deze varianties om naar een skill via de gebruikelijke formule
Skill=1 – ( VarF/VarW )
in sommige gevallen rekenen we deze skill nog om naar een procentuele skill door hem met honderd te vermenigvuldigen.
In het experiment beschouwen de gemeten etmaalsom in De Bilt als de waarneming en we gebruiken de gemeten etmaalsommen van locaties op verschillende afstanden als een verwachting voor de neerslag in De Bilt. We gebruiken waarnemingen uit de periode 1 december 1995 t/m 30 november 2006. Deze periode is gekozen omdat toen ook de waarnemingen van Soesterberg beschikbaar waren, een locatie zeer dicht bij De Bilt. In figuur 1 zijn de Skill’s, berekend over de hele dataset van 4018 dagen, van diverse locaties op verschillende afstanden, geplot tegen de afstand. We zien in deze figuur dat de skill, bij alle methoden, zoals verwacht afneemt met het toenemen van de afstand. Verder valt op dat de skill gebaseerd op de fout in de getransformeerde neerslagsommen SK_T in hoge mate parallel loopt met de skill gebaseerd op de kruistabellen PRPS. De skill gebaseerd op de fout in de neerslagsommen, zonder transformatie SK_O, neemt veel sterker af met de afstand. Een belangrijke conclusie is onder meer dat deze skill’s geen absoluut gegeven zijn maar alleen kunnen worden gebruikt om verwachtingsmethoden onderling te vergelijken of om bijvoorbeeld de skill van de verwachtingen in verschillende perioden te vergelijken.
Op het eerste gezicht verdient de SK_O de voorkeur omdat die een scherper onderscheid maakt tussen verwachtingen van variërende kwaliteit. In een volgende aflevering zullen we echter duidelijk maken dat de SK_T de voorkeur verdient.
Deel 15: Presentatie van Neerslagsommen
Na lange tijd van afwezigheid hier maar weer eens een nieuwe bijdrage aan mijn blog. In de voorgaande bijdrage heb ik de neerslagsommen, neerslagtotaal over 24 uur, van Harmonie en Weeronline geverifieerd met behulp van kruistabellen. Ik ging op deze manier te werk omdat neerslagsommen een nogal aparte kansverdeling volgen waarbij vooral bij hoge neerslagsommen hele grote fouten optreden. Het nadeel van deze verificatiemethode is dat hij weinig inzicht geeft en vermoedelijk slecht toepasbaar is voor kleine datasets. Ik wil daarom in deze blog een nieuwe methode voorstellen om neerslagsommen te verifiëren.
Nu is de eerste stap in het proces van verificatie, van een continue variabele, vaak het opzetten een scatterdiagram waarin de opgetreden waarde wordt uitgezet tegen de verwachte waarde. De hiervoor genoemde eigenschappen van de neerslagsommen maakt het echter ook vrij moeilijk om ze grafisch te presenteren. Bij neerslagsommen krijgen we dan een grafiek te zien met linksonder een onontwarbare kluwen van punten en verder sporadisch relatief weinig punten verspreid over de rest van het vlak. In figuur 1 vindt u een voorbeeld plot van zo’n scatterdiagram van opgetreden verwachte neerslagsommen versus verwachte neerslagsommen voor het koude halfjaar ontleend aan vier jaar Harmonie (v3.6) verwachtingen. In mijn optiek valt er heel weinig structuur te ontdekken in de eventuele samenhang. Met name doordat veel data links onderin geclusterd zijn.
Om dergelijke scatterdiagrammen, voor deze variabelen, meer inzichtelijk te maken, heb ik een transformatie bedacht die met name de kleine neerslagsommen uit elkaar haalt. Deze transformatie werkt als volgt: voor een neerslagsom van minder dan 1 millimeter gebruiken we gewoon de neerslagsom zelf maar boven de 1 millimeter vervangen we de neerslagsom door 1+2*log(neerslagsom in mm). Met name boven de 1 millimeter wordt daardoor de schaal sterk ingekrompen. Op de nieuwe schaal komt 1 overeen met 1 mm, 3 komt overeen met 10 mm en 5 komt overeen met 100 millimeter.
In figuur 2 zien we het scatterdiagram van de getransformeerde neerslagsommen uit figuur 1. Deze figuur geeft veel meer details en bovendien zien we ook enige structuur in de plot wat duidt op een zekere samenhang tussen verwacht en opgetreden. Deze samenhang is in de vorige blog al aangetoond. Mijn voorstel is om deze getransformeerde data te gaan gebruiken voor de verificatie, daar kom ik in de volgende bijdrage op terug.
Tot slot van deze blog wil ik u nog wijzen op een nieuwe rubriek op mijn website. Onder het menu-item laatste seizoen kunt u grafieken vinden die het temperatuurverloop in het laatste seizoen in beeld brengen. Maar een beeld geven van de kwaliteit van Harmonie in dat seizoen zowel voor TX, TN en Neerslag.
Deel 14: Neerslagverwachtingen met Harmonie.
Naast temperatuur bevat de uitvoer van het Harmoniemodel(cy 36) nog vele andere parameters waaronder de hoeveelheid neerslag. In de uurlijkse velden in de uitvoer van het model is deze parameter opgenomen als de gecumuleerde hoeveelheid neerslag vanaf de start van het model. Door mij wordt alleen de modelrun die start om 00 UTC opgehaald. Hierin is het verschil tussen +48 uur neerslagsom en de +24 uur neerslagsom een verwachting voor de neerslag op dag 1 van de run. Deze dag 1 verwachting kan dus worden geverifieerd tegen de dagsom neerslag die is opgenomen in de KD-database.
Echter naast het feit dat de neerslag zich maar heel moeilijk laat vangen in een weermodel is het ook een grootheid die zich moeilijk laat verifiëren met technieken die bij temperatuur-verwachtingen worden gebruikt. Vooral de statistische verdeling van de neerslagsommen speelt hierbij een rol. Het belang van een fout in de verwachting is sterk afhankelijk van de totale hoeveelheid. Bij een totale hoeveelheid van bijvoorbeeld 10 millimeter is een afwijking van 2 millimeter nauwelijks interessant. Echter bij een verwachting van 2 millimeter kan een dergelijke fout aangeven dat het helemaal niet regent. We zullen daarom bij het verifiëren van de neerslaghoeveelheid gebruik maken van een indeling in klassen waarbij de klassen met toenemende neerslag steeds breder worden. Daaraan gekoppeld maken we gebruik van de techniek van contingentietabellen om de samenhang tussen verwacht en opgetreden te presenteren en te kwantificeren.
We gebruiken de neerslagdata van het Harmoniemodel uit de periode november 2015 tot en met november 2019. Daarnaast heb ik ook de neerslagverwachtingen van Weeronline over dezelfde periode geëxtraheerd. Bij de analyse die ik hierna presenteer gebruiken we alleen die dagen waarvoor beide verwachtingen beschikbaar waren. Wel werd de dataset opgesplitst in gegevens uit het koude halfjaar, 15 oktober tot 15 maart, en het warme halfjaar.
In figuur 1a is de contingentietabel voor het koude seizoen van de Harmonie-verwachtingen weergeven. Links de resultaten in aantallen en rechts de tabel in (conditionele) kansen. De uiterst rechtse kolom geeft de grenzen van de klassen die zijn gebruikt. De tabel illustreert duidelijk de samenhang tussen verwachte klasse en opgetreden klasse maar de spreiding is vrij groot. Wel vertonen de verwachtingen een bias, er zijn te weinig droge dagen zoals te zien is in figuur 3. De samenhang tussen verwachting en waarneming is gekwantificeerd met de Ranked Probability Skill Score. Voor Harmonie komt die skill op 47,0% wat niet bijzonder hoog is zo als we straks zullen zien. In figuur 1b vinden we de overeenkomstige contingentietabel voor de verwachtingen van Weeronline. De RPSS van deze verwachtingen is iets hoger namelijk 55,1%.
In de figuren 2a en 2b vinden we de overeenkomstige resultaten voor het warme halfjaar. De RPSS van het Harmonie-model is dan 36,5% en van de Weeronline verwachting is die 49,1%. In het warme halfjaar onderschatten beide verwachtingen het aantal droge dagen.
Om u enig idee te geven van wat deze skill-percentages waard zijn heb ik het volgende experiment uitgevoerd. Ik heb de waargenomen neerslagsom van Eindhoven gebruikt als verwachting voor de neerslagsom in De Bilt. Als we die verwachtingen op dezelfde manier, als hiervoor, verifiëren vinden we 54,0% voor het koude halfjaar en 44,2% voor het warme halfjaar. Dus ongeveer op hetzelfde niveau als Weeronline. De bias van deze verwachtingen is wel heel klein..
Deel 13: Windsnelheid Binnenland.
Alvorens in te gaan op de verificatie van de windsnelheidsverwachting moet ik nog eerst even iets rechtzetten. In deel 10 van deze serie heb ik de temperatuur verwachtingen van Harmonie geverifieerd. Toen ik echter onlangs de reeks van Harmonie weer verder wilde aanvullen viel mij op dat ik steeds dezelfde verwachting kreeg. Het bleek namelijk dat sinds 4 november 2019 de Harmonie verwachting niet meer wordt ververst alhoewel hij wel in de catalogus staat. Dat betekent dus dat de laatse 26 verwachtingen in dataset die ik bij deel 10 heb gebruikt pure onzin waren. Ik heb daarom de analyse nogmaals uitgevoerd met weglating van november 2019 en toevoeging van november 2015. De gecorrigeerde resultaten zijn bij deel 10 in nieuwe figuren weergegeven. Voor het warme deel van het jaar maakt dat niets uit. In het koude deel van het jaar zijn de verificatie resultaten, gemeten in de spreiding van de fout, veel beter. Aan de tekst kan ik helaas niets meer veranderen.
Voor de rest van deze blog zullen we ons concentreren op de evaluatie van de windsnelheidsverwachting in de meerdaagse van het KNMI. Deze verwachting wordt uitgedrukt in Beaufortklassen en is bruikbaar op open terrein in het binnenland. Helaas wordt niet precies aangegeven om welke, achteraf waargenomen, grootheid het gaat zodat we geen verifiërende grootheid kunnen bepalen. Zoals in de vorige Blog al is beschreven heb ik daarom een eigen grootheid geïntroduceerd die als karakteristiek voor het windklimaat van de dag, waarvoor de verwachting is bedoeld, wordt beschouwd. In deze blog willen we nu nagaan in hoeverre de verwachting informatie levert voor deze grootheid. De betrokken grootheid is het maximum overdag van 3-uurlijks gemiddelde windsnelheid (FH3). De waarnemingen hiervoor hebben we geëxtraheerd uit de KNMI-database en worden genoteerd in meters per seconde. We zullen op twee manieren de relatie tussen verwacht en opgetreden vastleggen. Bij de eerste methode zullen we de waarneming in m/s omzetten naar Beaufort-klassen. We zullen vervolgens de verwachtingen vergelijken met de waarnemingen uit De Bilt en met waarnemingen uit Eindhoven. De gebruikte data beslaan de periode december 2010 tot en met november 2019.
Bij de eerste methode zullen we gebruik maken van contingentie tabellen van opgetreden versus verwachtingen. Voor verwachtingen en waarnemingen die worden genoteerd in een beperkt aantal disjuncte klassen is dat een overzichtelijke methode. In tabel 1 van Tabel_De Bilt is de samenhang tussen verwacht en opgetreden van de Meerdaagse windverwachting weergegeven. Zoals we zien beperkt de verwachting zich in de gebruikte periode tot 7 Beaufort klassen en in de waarnemingen werden slecht 6 klassen waargenomen. De vakken met getallen in Bold-font geven het aantal keren dat de betrokken combinatie van de verwachte Bft-klasse en de opgetreden Bft-klasse is voorgekomen. De rij getallen daaronder geeft het totaal aantal waarnemingen in die Bft-klasse en de kolom er vlak achter het aantal verwachtingen in die Bft-klasse. Waarbij de piek van de verwachtingen bij 3 Bft ligt en evenals de piek van de waarnemingen. Zoals we zien clusteren de combinaties van verwacht versus opgetreden aardig dicht bij de diagonaal. Dit geeft dus aan dat we op basis van de verwachting best een goede gok kunnen doen naar de opgetreden waarde. Onder de kop Conditionele kans(%) is dezelfde informatie van de tabel nogmaals gepresenteerd maar nu in de vorm van fracties van het aantal verwachtingen in de betrokken rij. We zien hier bijvoorbeeld dat bij een verwachting van 3 Bft er in 59% van de gevallen 3 Bft wordt waargenomen. We zien hier ook duidelijk dat bij hogere verwachtingen het zwaartepunt van de opgetreden waarden naar een lagere klasse schuift.
De tabel met conditionele kans verschaft ons ook de mogelijkheid om de samenhang tussen verwacht en opgetreden te kwantificeren. Door namelijk iedere verwachting (in Bft) in de reeks te vervangen door het overeenkomstige rijtje conditionele kansen zetten we de verwachting om naar een reeks (multicategorische) kansverwachtingen waarvan we de Ranked Probability Skill Score kunnen berekenen als maat voor de samenhang. Die RPSS van 34,6% staat rechtsboven in de tabel.
De tweede tabel op die pagina heeft betrekking op de verwachtingen van de MeteoGroup versus dezelfde waarnemingen. We zien hier dat de RPSS (42,6%) iets hoger is. In Tabel_Eindhoven hebben de tabellen betrekking op dezelfde verwachtingen van de Meerdaagse tegen de waarnemingen in Eindhoven. Voor de Meteogroup gebruiken hier de lokale verwachtingen voor Eindhoven. De RPSS-waarden zijn bij deze tabellen iets hoger. Overigens komt uit deze tabel hetzelfde beeld naar voren als bij De Bilt.
Bij de tweede methode om de samenhang te illustreren zetten we de waarnemingen niet om in Bft-klassen maar gebruiken we de waarnemingen in m/s. Bij deze analyse nemen we alle waarnemingen bij een gegeven Beaufort-klasse bij elkaar en berekenen vervolgens het gemiddelde van die waarnemingen en maken tevens een schatting van het 80% onzekerheidsinterval door zowel het 10% percentiel en het 90% percentiel van de waarnemingen bij die gegeven klasse te schatten. In de figuren voor De Bilt zijn deze resultaten vervolgens geplot als functie van de verwachte Bft-klasse. In deze figuren representeren de groene doorgetrokken lijnen de gemiddelde windsnelheid(m/s) bij gegeven verwachte Bft-klasse. De gestippelde lijnen zijn respectievelijk het 90% en het 10% percentiel. De grijze stippellijnen zijn onder- en boven-grens van de Bft-klasse. Deze figuren geven hetzelfde beeld als de contingentietabellen. De figuren voor Eindhoven schetsen hetzelfde beeld. Opvallend is bij beide figuren dat de gemiddelde opgetreden waarde bij de verwachting van de MeteoGroup vaak boven in de range van Bft-klasse zit. Bij de Meerdaagse verwachting zit de gemiddelde waarde meer onder in de range.
Deel 12: Windsnelheid Binnenland.
Mijn vorige bijdrage aan deze blog eindigde zonder conclusie. Ik heb dat toen bewust gedaan omdat ik daar nog eens even over na wilde denken. Uiteindelijk ben ik tot de conclusie gekomen dat het noordwesten van Nederland wel erg benadeeld wordt met één neerslagkans voor heel Nederland. Op grond van de resultaten, beschreven in de vorige bijdrage, vind ik dat ook de neerslagkans geregionaliseerd moet worden. Neerslagkansen voor 5 regios, net zoals bij de temperatuur, lijkt mij voldoende. Overigens zou een neerslagkans voor neerslag overdag een nuttige aanvulling zijn.
In deze blog wil ik echter ingaan op de windkrachtverwachting. Dit is een grootheid die, behalve bij stormwaarschuwingen, eigenlijk nauwelijks aan de orde komt bij het verifiëren. Kennelijk gaat iedereen er van uit dat die verwachting wel in orde is. In deze bijdrage wil ik ingaan op de windkracht verwachting, in Beaufort, zoals die in de Meerdaagse van het KNMI wordt vermeld, en de overeenkomstige verwachtingen, voor De Bilt en Eindhoven,van de Meteo Group, voorheen MeteoConsult. Het eerste probleem waar ik tegen aanliep was de vraag wat er nu precies wordt verwacht: de wind op een bepaald tijdstip van de dag, het gemiddelde over een periode of het maximum van de dag? Ook de uitleg van het KNMI bij de Meerdaagse is weinig specifiek. Dat betekent dat er eigenlijk geen grootheid is waarmee we de verwachting kunnen vergelijken om vast te stellen in hoeverre de verwachte windkracht is opgetreden. Je kunt dus niet een klassieke verificatie opzetten waarbij je een verwachte waarde vergelijkt met een opgetreden waarde en op basis daarvan een maatstaf kunt berekenen voor de fout in de verwachting.
In deze en de volgende blog zal ik daarom kiezen voor een andere benadering. De windparameter die Harry Geurts heeft geïntroduceerd bij het Weercijfer heb ik als kenmerkend voor het windklimaat van een dag geaccepteerd. Het betreft de maximale windsnelheid, gemiddeld over drie opeenvolgende uren, tussen 6 en 18 uur UTC. Deze parameter heb ik vervolgens berekend, op basis van KNMI-database, voor iedere dag uit de periode december 2010 tot en met november 2019 voor respectievelijk De Bilt en Eindhoven. In bijgaande figuur 1 zijn de kansdichtheidsverdelingen van deze parameter geplot voor beide locaties en figuur 2 geeft de frekwentieverdelingen van deze parameter omgezet naar de Beaufortschaal. We zien in deze figuren dat het in Eindhoven gemiddeld iets harder waait dan in De Bilt met meer uitschieters naar boven. In een volgende blog wil ik nu nagaan in hoeverre de hiervoor genoemde windkrachtverwachtingen kunnen dienen als predictor voor deze parameter.
Als toegift nog figuur 3 waarin de kansverdeling van de aftrekpunten bij het weercijfer als gevolg van harde wind in de genoemde 10 jaar periode is weergegeven. Persoonlijk vind ik het jammer dat het Weercijfer niet vaker gebruikt wordt als onderdeel van de weersverwachting.
Deel 11: Neerslagkans in de Meerdaagse van KNMI.
Na het uitstapje naar Harmonie wil ik toch nog eens terugkomen op de neerslagkans in de meerdaagse van het KNMI. Maar eerst wil ik een ander onderwerp aansnijden. Bij de jaarovergang van 2019 naar 2020 kwam er ook, tot mijn verbazing, een abrupt einde aan de webpagina's van MeteoGroup (voorheen MeteoConsult). Uit een e-mail wisseling met Wim van den Berg begreep ik kort gezegd dat het weerinhoudelijke deel van MeteoGroup is overgegaan naar DTN en dat het weerpresentatiedeel, inclusief alle webpagina's, is overgenomen door Talpa. De huidige webpagina's onder weer.nl zijn helaas aanzienlijk zuiniger met betrekking tot de informatie over de weersverwachtingen. Wat mij betreft is daarmee een hoog kwalitatieve en uitgebreide bron van informatie over het toekomstig weer verdwenen. Gelukkig blijft er nog genoeg materiaal over om te onderzoeken en in deze bijdrage wil ik nagaan in hoeverre de neerslagkans in de Meerdaagse van het KNMI overal binnen Nederland gebruikt kan worden.
Om dit te onderzoeken heb ik deze neerslagkans geverifieerd op 12 waarneemlocaties in Nederland. De selectie van deze 12 locaties is ingegeven door de selectie die het KNMI hanteerde in haar Extremenpagina rondom 2007, de start van mijn verificatie activiteiten. In de periode december 2006 t/m november 2019 heb ik 4441 dagelijkse verwachtingen voor dag 1 verzameld. De kansen werden vervolgens omgerekend naar fracties op de schaal nul tot één. De waargenomen neerslaghoeveelheden werden omgezet naar nul (droge dag) of één (neerslagdag) met als grens voor de neerslaghoeveelheid 0,25 millimeter.
Op basis van deze gegevens werden voor de twaalf locaties de Brier Scores en de gemiddelde fout in de verwachtingen berekend. De Brier Scores varieerden daarbij van 0,1202 tot 0,1485 en dat is best een grote variatie als je je realiseert dat de Brier Score kan variëren van 0,0000 voor de perfecte verwachting tot ongeveer 0,2500 als je elke dag de gemiddelde frequentie van regendagen in de verwachting zet. In figuur 1 zijn cirkels getekend rond de locaties van waarneemstations waarbij de straal van de cirkel evenredig is met de BrierScore. Als hulp indicatie zijn de cirkels verschillend gekleurd: groen voor de BrierScores kleiner dan 0,1300 en rood voor de scores groter dan 0,1400. Blauwe cirkels markeren interval daar tussen in. We zien dat hoge scores (slechtere verwachtingen geconcentreerd zijn in het noorden van Nederland. De laagste scores (beste verwachtingen) concentreren zich rond De Bilt.
In figuur 2 zijn rond de locaties cirkels getekend die de gemiddelde fout (bias) in de kansverwachting representeren. De bias blijkt overal negatief te zijn, lichte onderschatting van neerslagkans. Met name in noordwest Nederland vinden we relatief grote bias waarden
Deel 10: Temperatuurverwachtingen met behulp van Harmonie.
In deze aflevering van mijn blog wil ik eens aandacht besteden aan het KNMI model Harmonie. Sinds eind 2015 haal ik namelijk al dagelijks het bestand met de uitvoervelden (van de 00 uur run) van dit hoge resolutie model op via de Open Data van het KNMI. Ik wil daarbij nagaan hoe de directe modeloutput van het hoge resolutie model (van het KNMI) presteert in vergelijking met de verwachtingen die zowel het KNMI als andere weerbureaus publiceren. Ik concentreer daarbij op verwachtingen voor de minimum- en de maximum-temperatuur. Uit het totale bestand extraheer ik de verwachte uurlijkse 2-meter-temperatuurvelden vanaf de analyse tot en met de +48 uur. Uit die 49 velden construeer ik tijdreeksen met verwachte temperaturen voor zowel Eindhoven als De Bilt. Ik selecteer daarbij gewoon het dichtst bijzijnde roosterpunt uit die velden. Voor een verwachting voor de minimum-temperatuur voor dag 1 ga ik uit van het minimum van +18 t/m +30 en voor de maximumtemperatuur gebruik ik het maximum van +30 t/m +42 uur. In de bijgaande link 1 zijn de verificatieresultaten voor de spreiding en de bias van de fout in de verwachtingen voor Eindhoven in beeld gebracht voor zowel de dag 1 verwachtingen van Weeronline, Meteogroup en KNMI als voor het model aangeduid met HM1. De resultaten van cHM1 komen later aan de orde. Deze resultaten zijn gebaseerd op 668 dagen in het koude halfjaar (15 okt t/m 14 apr) en 713 dagen in het warme halfjaar. Alleen dagen waarvoor alle genoemde verwachtingen beschikbaar waren zijn meegenomen.
In deze figuur zien we dat gemeten naar de spreiding het model gemiddeld over het jaar ongeveer even goed is als het KNMI maar duidelijk slechter dan Weeronline en de MeteoGroup. Daarbij is het opvallend dat de minimumtemperatuur het laat afweten in het koude seizoen en de maximumtemperatuur juist in het warme seizoen. Ik heb daar geen verklaring voor.
Kijken we in die figuur naar de bias dan zien we bij HM1 een aanzienlijke bias, negatief (gemiddeld te lage verwachting) in het warme seizoen en positief (gemiddeld te hoge verwachting) in het koude seizoen. In een simpel experiment heb ik eens gekeken of je hier op een eenvoudige manier iets aan kunt doen. Je kunt natuurlijk gewoon de gemiddelde bias aftrekken van de verwachtingen maar dat is in de operationele situatie niet mogelijk omdat die gemiddelden dan nog niet bekend zijn. In plaats daarvan corrigeer ik de actuele verwachting met de gemiddelde fout over de laatste 30 dagen. In link 1 worden de resultaten van deze actie weergegeven als cHM1. We zien heel duidelijk dat de bias vrijwel verdwenen is terwijl de spreiding van de fouten nauwelijks is veranderd. Dat deze operatie meer is dan een constante correctie wordt duidelijk gemaakt in link 2 waarin per maand het maandgemiddelde van de correcties is weergegeven. De dunne grijze lijnen in de figuren representeren het maximum en minimum van de correctie in de betrokken maand. Duidelijk is te zien dat de correcties substantieel zijn en behoorlijk variëren van maand tot maand maar ook binnen de maand.
Als laatste heb ik eens gekeken naar de kansverdelingen van de verwachtingen en de waarnemingen. Zowel de verwachtngen als de waarnemingen hebben we daarbij genoteerd als afwijking van de normaal. Om de eigenschappen van de verdelingen te onderzoeken heb ik gebruik gemaakt van de zogenoemde Quantile-Quantile plots. Daarin worden de geordende verwachtingen geplot tegen de geordende waarnemingen. Als de verdelingen van die twee grootheden overeenkomen krijg je in je plot een schuine bijna rechte lijn van linksonder tot rechtsboven. In link 3 zijn deze plots weergegeven voor beide seizoenen en voor respectievelijk TX en TN. In die figuren representeren de gestippelde rode lijnen de bias-gecorrigeerde verwachtingen en de blauwe lijn de ongecorrigeerde verwachtingen. In het algemeen kan men stellen dat de QQ-plots keurig op een rechte lijn liggen waarbij de de ongecorrigeerde verwachtingen, keurig verschoven met de gemiddelde bias, parallel lopen aan de gecorrigeerde verwachtingen. De kansverdelingen van de gecorrigeerde verwachtingen zijn vrijwel identiek aan de verdeling van de verwachtingen. Wel valt op dat bij de minimum-temperatuur in het koude seizoen kennelijk niet beneden 10 graden onder de normaal wil gaan. Ook in het warme seizoen lijkt de verwachting begrensd. Bij TX treedt dit effect zo te zien niet op.
Ter toelichting nog, een plot van een waarneming met een zekere rang versus een verwachting met diezelfde rang betreft dus niet een verwachting en waarneming op hetzelfde tijdstip.
Deel 9: Neerslagkans uit de Meerdaagse van het KNMI.
Met november is ook het meteorologisch jaar 2019 ten einde gekomen. Ik ben dus nu bezig om de data uit de verwachtingen van het afgelopen jaar te ordenen en te verifiëren tegen de waarnemingen. De resultaten daarvan worden vervolgens opgenomen in de reeksen met jaargemiddelde verificatieresultaten die ik, sinds 2007, op mijn website, seijo.nl, publiceer. Bij de verificatie van de neerslagkansen uit de Meerdaagse van het KNMI, stuitte ik op een opmerkelijk resultaat. De laatste twee jaar gaan de Brierscores van die neerslagkansen aanzienlijk omlaag oftewel de verwachtingen waren duidelijk beter dan die in de voorgaande jaren. De bijgaande figuur 1 toont die scores sinds 2007 in de rode lijn. In diezelfde figuur zijn ook de verwachte Brierscores, die je kunt berekenen op basis van die verwachtingen, in de groene lijn weergegeven. Deze verwachte scores, zie ook Blog 1, blijven op hetzelfde niveau. Het feit dat opgetreden scores en verwachte scores zoveel verschillen is een indicatie dat er iets niet in orde is met de betrouwbaarheid van de verwachtingen. Als de verwachte score hoger is dan de actuele betekent dat meestal de verwachtingen te behoudend zijn. In de laatste twee jaar zijn de verwachtingen dus nog behoudender en dus minder betrouwbaar geworden. Wat dit betekent is te zien in het betrouwbaarheidsdiagram in figuur 2. In die figuur zien we bijvoorbeeld dat bij een verwachting van 80 procent (0,8) vrijwel altijd regen wordt waargenomen en niet slechts in 4 van de 5 dagen. Bij lage verwachtingskansen geldt juist het omgekeerde. De conclusie is dus dat de neerslagkansen wel een goede indicatie geven over het al dan niet optreden van neerslag maar dat de kansen soms een verkeerd beeld geven van de risicos.
Een andere vraag is natuurlijk of de verwachtingen ook echt beter zijn geworden of dat de Brierscores van deze twee jaren toevallig veel beter zijn. Helaas is het zo dat bij de verificatie van neerslagkansen dergelijke dips in de Brierscores wel vaker optreden. Het eerste punt van de grafiek is bijvoorbeeld ook relatief laag. Ook in het verdere verleden zien we vaak van die uitschieters zie bijvoorbeeld de grafiek bij de lange termijn trend van Brierscores op mijn website. Voor deze vraag zullen we dus nog enkele jaren moeten wachten voordat we zekerheid hebben.
Deel 8: Is de spreiding of bias van de fout in de verwachting afhankelijk van de anomalie van de verwachting.
Gevoelsmatig kun je je voorstellen dat bijvoorbeeld temperatuurverwachtingen ver onder (of boven) de normaal behept zijn met een bias of met een grotere spreiding. In deze aflevering willen we nagaan of deze veronderstelling klopt. Om dit te kunnen onderzoeken heb je veel data nodig om deze te kunnen verdelen in deelsets. Dat betekent dat we de data van meerdere jaren bij elkaar moeten nemen voor deze analyse. Deze data moeten wel min of meer homogeen zijn. In de onze dataset lijken de verwachtingen uit de periode 1 december 2006 t/m 31 november 2014 daaraan te voldoen. Na 2014 worden de verwachtingen van bijvoorbeeld Weeronline opvallend beter.
De verwachtingen voor TX en TN uit genoemde periode, gesplitst in het koude seizoen en het warme seizoen, zijn op basis van hun anomalie (verschil met de normaal) verdeeld in zeven groepen van laag naar hoog. Ieder van die groepen bevat daarna ongeveer 200 verwachtingen. Voor iedere groep hebben we vervolgens de spreiding en de bias van de fouten berekend. De resultaten voor de maximumtemperatuur zijn samengevat in een panel met figuren respectievelijk voor de weerbureaus Weeronline, MeteoGroup en het KNMI en voor het koude respectievelijk het warme seizoen. In de figuren hebben de dunne lijnen betrekking op de Bias en de dikkere lijnen op de Spreiding.
De gestippelde lijnen in deze figuren zijn de geschatte 5% en 95% niveaus van de kansverdeling van deze grootheden onder de veronderstelling dat er geen effect is van de anomalie op de respectievelijk de spreiding en/of de bias. Deze niveaus zijn geschat door 10000 keer samples van 200 leden uit het totale bestand te trekken en de bijbehorende bias en spreiding te berekenen. Uit de 10000 resultaten zijn vervolgens de percentielen geschat.
Bij de maximumtemperatuur lijkt er weinig aan de hand alle resultaten liggen overwegend binnen (of dichtbij) de 90% band. Alleen bij de Bias van de MeteoGroup zou men in het warme seizoen kunnen spreken van een trend in de bias van een negatieve bias voor lage verwachtingen naar geen bias bij hoge verwachtingen. Omdat alleen de MeteoGroup dit effect toont is het waarschijnlijk gekoppeld aan hun MOS-systeem.
Ook in het panel voor de minimumtemperatuur liggen alle resultaten overwegend in de 90% band. Echter bij de MeteoGroup in het koude seizoen zou men kunnen spreken van een trend van lage spreiding bij hoge verwachtingen naar een hogere spreiding bij lage verwachting. De andere twee weerbureaus tonen dezelfde trend maar wel veel zwakker. Hier zou men kunnen vermoeden dat dit een trend is die is gekoppeld aan de voorspelbaarheid van de minimumtemperatuur.
Tip: Wie gemakkelijk wil schakelen tussen figuren en tekst kan onderstaande links weergeven in een nieuwe tab in zijn browser
Noot: Het is mijn gewoonte om resultaten voor Weeronline in blauw weer te geven, voor de MeteoGroup in rood en voor het KNMI in groen. Deze kleurkeuze is ook in bovenstaande figuren aangehouden.
http://kruizinga-verschure.nl/Blog/Blog8/Blog8_TX.html
Deel 7: Buitenlandse weerbureaus.
De data die ik verzamel hebben voornamelijk betrekking op de verwachtingen van enkele Nederlandse weerbureaus en de verificatiestudies hebben dus ook betrekking op deze weerbureaus. Echter ook buitenlandse weerbureaus produceren verwachtingen voor locaties in Nederland. Incidenteel volg ik daarom ook wel eens een buitenlands bureau. In deze blog gaan we aandacht besteden aan AccuWeather, één van de oudste commerciële weerbureaus. Van 15 november 2012 tot en met 14 november 2017 heb ik de html-file behorend bij de verwachting voor Eindhoven zoals weergegeven in bijgaande figuur, dagelijks opgevraagd. Op deze pagina wordt een verwachting gegeven voor de minimum- en maximum-temperatuur in Eindhoven. Bij navraag, bij AccuWeather, bleek dat deze temperaturen betrekking hebben op de 12-uurs perioden overeenkomend met de nacht en de dag in Nederland. Wel is het zo dat bij AccuWeather de minimumtemperatuur betrekking heeft op de komende nacht in plaats van op de afgelopen nacht zoals wij gewend zijn.
Uit de genoemde periode werden die dagen geselecteerd waarop zowel de verwachting voor morgen van AccuWeather (AW) als die van Weeronline (WOL), de MeteoGroup (MG) en het KNMI aanwezig waren. In totaal was dat op 1799 van de 1826 dagen het geval. Voor zowel dagen in het koude seizoen (15/10-14/4) als het warme seizoen werden diverse verificatie scores berekend. In bijgaande html-pagina zijn voor de MAE, de Bias de resultaten grafisch weergegeven. Bovendien werd het aantal grote fouten (absolute fout groter dan 3,5 °C) geteld. Bij de MAE is te zien dat de prestaties van AccuWeather min of meer tussen die van KNMI enerzijds en WOL/MG anderzijds in liggen. De BIAS-waarden zijn voor AW en KNMI groter. Ook qua frequentie van grote fouten stemmen KNMI en AW overeen. Echter vooral bij TN is het aantal grote fouten bij het KNMI en AW erg hoog. Bij MG en WOL treden duidelijk minder grote fouten op.
Kortom onze lokale commerciële providers leveren voor Nederland de beste prestaties.
Deel 6: Dilemma.
De detailstudie naar de eigenschappen van de fouten in de verwachting bij Tx of Tn moet nog even wachten. Eerst wil ik u een bijzondere situatie beschrijven die heeft geleid tot een dilemma bij de verwerking van de data. Toen ik in de afgelopen weken de verwachtingen die ik, afgelopen lente verzameld had, ging verwerken in geordende bestanden kwam ik de volgende situatie tegen: Vijf weerbureaus die ik actief volg, gaven als verwachting voor de minimumtemperatuur in De Bilt voor de volgende dag iets van 8 à 9 °C. Ook de meerdaagse van het KNMI, van 3 uur, gaf 8 °C voor het landelijk gemiddelde. Alleen de regionale verwachting (uitgifte tijd 07:42 LT) van het KNMI gaf voor de volgende dag slechts 3 °C in het midden van het land. Uit nieuwsgierigheid ben ik die situatie eens verder gaan bestuderen. Het betrof de verwachting voor 30 april 2019 en bijgaande figuur toont de verwachting zoals ik die op de 29e om negen uur aantrof. Daarin wordt dus voor het centrum van het land 3 °C als minimum verwacht voor de komende nacht. In De Bilt werd in die nacht, volgens de extremen pagina van het KNMI, een minimumtemperatuur van 9,6 °C geregistreerd. Om te achterhalen waar deze afwijkende verwachting vandaan komt ben ik ook eens naar het Harmonie model gaan kijken. In de volgende figuur is temperatuurverwachting van 00-uur run van de 29e van dit model voor De Bilt weergegeven als functie van de zichttijd, 0-48 uur. In deze figuur zijn tevens de waarnemingen van De Bilt op de overeenkomstige tijdstippen opgenomen. Duidelijk is te zien dat zowel het model als de waarneming in de nacht van de 30e (18-30 uur) niet onder de 8 à 9 graden komen. Dus is er op basis van dit model geen aanleiding om een verwachting van 3 °C uit te geven. Al met al een vreemde situatie.
Als we echter naar de overeenkomstige verwachting van de 28e kijken dan wordt veel duidelijk. De weersymbolen zijn op de 29e wel anders maar de verwachte temperaturen zijn volledig identiek. Kennelijk zijn deze temperaturen niet aangepast aan de actualiteit. Dit geeft aanleiding tot een dilemma: moeten we deze verwachting schrappen uit dataset of niet. De gepubliceerde verwachting is kennelijk niet representatief voor het productieproces en opname in een verificatie bestand leidt mogelijk tot verkeerde conclusies. Het is echter wel een gepubliceerde verwachting waarmee de gebruiker op het verkeerde been wordt gezet. Ik heb uiteindelijk gekozen voor de optiek van de gebruiker en neem deze verwachting toch op in de dataset.
Ook de volgende blog nog niet de detailstudie maar maken eerst een uitstapje naar een buitenlands weerbureau.
Deel 5: Verwachtingen voor Tn en Tx, kwaliteitsbewaking.
Om de kwaliteit van het verwachtingsproces, voor Tn en Tx te bewaken, is het vaak voldoende om op routinebasis, bijvoorbeeld jaarlijks, een eenvoudige verificatiescore te berekenen en in een tijdreeks te presenteren. Een plotselinge of geleidelijke verslechtering kan een indicatie zijn dat er iets aan de hand is in het productieproces. De vraag is dan natuurlijk welke verificatiescore moeten we hiervoor gebruiken. In de bijlage heb ik de tijdreeksen voor 3 weerbureaus over de afgelopen 12 jaar weergegeven voor viertal verificatiescores namelijk het Trefferpercentage (TR), de Mean Square Error (MSE), de Mean Absolute Error (MAE) en de Spreiding (Spr). Verder is ook nog de logische aanvulling op de Spreiding namelijk de Bias opgenomen.
Nadere bestudering van deze tijdreeksen bracht mij tot de volgende conclusies:
- Als je per weerbureau de reeksen vergelijkt, geven die ieder dezelfde globale informatie over het verloop in de tijd van de kwaliteit van de verwachting. Welke score je dus gebruikt is eigenlijk een kwestie van smaak.
- De scores kunnen van jaar op jaar behoorlijk variëren. Deze variaties worden vooral veroorzaakt door het verschil in karakter van het weer van jaar op jaar.
- In de periode 2007 t/m 2014 lopen de reeksen van de MeteoGroup en het KNMI behoorlijk parallel waarbij MG steeds een betere score heeft. Waarschijnlijk was de kern van het productieproces bij de MeteoGroup en het KNMI vrijwel identiek waardoor ze op dezelfde manier reageren op de variaties in weersomstandigheden. Weeronline zit op het niveau van het KNMI maar varieert op een andere manier.
- Vanaf 2014 vertoont Weeronline een aanzienlijke verbetering die gedeeltelijk wordt gevolgd door de MeteoGroup. Het KNMI blijft min of meer op het oude niveau.
De laatste twee conclusies zijn van belang voor de volgende studies die ik wil presenteren. Ik wil dan wat nader op een aantal karakteristieke eigenschappen van de fout in de verwachtingen ingaan. Daarvoor moet je echter data van meerdere jaren bij elkaar verzamelen. Dat moet dan wel een stabiele periode met ongeveer dezelfde karakristieken, zijn. De periode 2007 tot en met 2014 lijkt hieraan te voldoen.
Deel 4: Verwachtingen voor Tn en Tx
In de komende afleveringen wil ik wat nader ingaan op de kwaliteit van de verwachtingen voor Tn en Tx. In deze aflevering komt de langjarige trend in die kwaliteit aan de orde. Ik heb nu 12 jaar aan verwachtingen verzameld voor deze twee grootheden. In feite is een dergelijke periode nog wat kort om duidelijke uitspraken te kunnen doen over de aanwezigheid van een trend. Om wat meer data ter beschikking te hebben heb ik oude (verificatie)reeksen uit de jaren 1972 tot en met 1990 toegevoegd aan het materiaal dat we gaan analyseren. Deze laatstee reeksen zijn indertijd verzameld door Harald Daan, KNMI TR 159. Van zowel de jaren 1972 t/m 1990 als de jaren 2007 t/m 2018 zijn per jaar de mean square errors (MSE) berekend. De resultaten zijn in een diagram tegen het jaartal uitgezet. Zie hiervoor de figuren voor Tx en Tn.
Wat meteen opvalt in die figuren is dat de MSE’s van de jaren 2007-2018, als groep, duidelijk lager liggen dan de MSE’s van de jaren 1972-1991. Bij Tx is de MSE vrijwel gehalveerd bij Tn is de MSE omstreeks 40 procent lager. De verificatie resultaten van 07-18 zijn dus duidelijk beter dan de resultaten van 72-91. Om nog iets meer te kunnen zeggen over de trend in kwaliteit zijn in deze figuren ook nog regressielijnen van de MSE’s versus het jaartal ingetekend. Zowel voor de periode 72-90 als de periode 07-18 zijn regressielijnen berekend en verder ook nog voor de gecombineerde reeks van beide perioden. De drie regressielijnen vertonen qua helling veel overeenkomsten.
In bijgaande tabel zijn wat numerieke resultaten van de regressies samengevat. We zien hier bijvoorbeeld dat de regressie van Tx in de periode 07-18 al behoorlijk significant is. De kans dat de gevonden helling op toeval berust is omstreeks 0,3 procent. Bij de Tn is dat nog 20 procent. Toch durf ik te stellen dat gezien de overeenkomst in regressiehellingen ook deze trend wel significant zal zijn. Op basis van het voorgaande kunnen we daarom concluderen dat zowel de verwachtingen voor Tx als Tn in de afgelopen periode van 1972 tot 2018 steeds geleidelijk beter geworden zijn. Bij Tx is het tempo duidelijk hoger dan bij Tn. Maar voor beide geldt dat verwacht mag worden dat dit nog wel enige tijd door gaat. Wel zijn bij zowel Tx als Tn de hellingen van 07-18 in absolute waarde kleiner dan hellingen van 72-90 en van de gecombineerde reeksen. Dat zou er op kunnen duiden dat het tempo van verbetering afneemt.
Deel 3: Verwachtingen voor Tn en Tx
In vrijwel elke publieke weersverwachting worden de verwachte minimum- en maximum-temperatuur (Tn en Tx) vermeld. Helaas is niet altijd even duidelijk op welke periode dat minimum of maximum betrekking heeft. In de bijdragen die hierna komen betreft het de minimumtemperatuur over het tijdvak 18 UTC van de vorige dag tot 06 UTC op de dag waarop de verwachting betrekking heeft. De maximumtemperatuur wordt bepaald over het tijdvak 06 UTC tot 18 UTC van diezelfde dag. De weerbureaus van MeteoGroup, Weeronline en het KNMI gebruiken die definitie. Maar bijvoorbeeld bij WeerPlaza en Buienradar worden Tn en Tx bepaald over de 24-uur periode van 00 tot 24 UTC of zelfs over 00-24 lokale tijd. Op zich is dat geen bezwaar echter bij die definitie is het niet altijd duidelijk op welke nacht de minimumtemperatuur betrekking heeft. Mijns inziens geeft dat dus soms geen goede beschrijving van de nacht/dag cyclus die je in de verwachting probeert te beschrijven.
We beperken ons, in de verificatie rapporten hierna, daarom tot de verwachtingen voor Tn en Tx van de MeteoGroup, Weeronline en het KNMI en voorlopig alleen voor dag 1. De verifiërende waarnemingen hebben we ontleend aan de KNMI webpagina met de extremen. In deze inleiding zullen we eerst een paar begrippen nader toelichten:
- De fout in de verwachting berekenen we als verwachte waarde (meestal in hele graden) minus de opgetreden waarde in tienden van graden.
- Het trefferpercentage betreft de fractie verwachtingen met een absolute waarde van de fout kleiner dan of gelijk aan 2,0 graden.
- De mean absolute error (MAE) is het gemiddelde van de absolute waarde van de fouten.
- De mean square error (MSE) het gemiddelde van het kwadraat van de fouten. In de MSE wegen, vergeleken met de MAE, grote fouten meer door en de MSE accentueert tevens de verschillen tussen weerbureaus.
- De Bias is het gemiddelde van de fouten over de verificatie dataset.
- De Spreiding (SPR) is de standaarddeviatie van de fouten.
De meeste studies die hierna volgen zullen betrekking hebben op verwachtingen voor Utrecht en gebruiken we de waarnemingen van De Bilt voor de verificatie. Soms betrekken we ook Eindhoven bij de analyse.
In sommige gevallen zullen we spreken van verwachtingen en/of waarnemingen die extreem hoog of extreem laag zijn. We bedoelen dan dat het verschil met het dagelijks langjarig gemiddelde (normaal) erg groot is. Omdat de KNMI-normalen periodes van tien dagen bestrijken en soms grote sprongen maken, heb ik een eigen dagelijkse normaal berekend op basis van Fourieranalyse gebruik makend van de waarnemingen uit de periode 1986 tot en 2015. In bijgaande figuur zijn deze normalen voor Tx en Tn voor De Bilt en Eindhoven weergegeven. Overigens is ook het berekenen van deze normalen al een interessante exercitie die op zich een blog waard is.
Als laatste nog een aantal conventies waarmee ik werk. Met jaargemiddelde bedoel ik altijd het gemiddelde over het meteorologisch jaar, december t/m november. Onder het koude seizoen versta ik de periode van 15 oktober t/m 14 april van het volgende jaar. Het warme seizoen omvat de rest van het jaar. Verwachtingen van een weerbureau duidt ik aan met de afkortingen WOL (Weeronline), MG (MeteoGroup) en KNMI. De parameter waar die verwachtingen betrekking op hebben volgt meestal uit de context. Het verschil met de normaal wordt genoteerd als dWOL, dMG en dKNMI en de fout in de verwachting als eWOL, eMG en eKNMI. Soms zet ik een cijfer achter de afkorting bijvoorbeeld MG6 dat betekent dan de dag 6 verwachting. Zonder cijfer heeft dat altijd betrekking op dag 1. De verwachtingen zijn georganiseerd op verificatiedatum dat wil zeggen dat bijvoorbeeld een dag 5 verwachting is gebaseerd op een verwachting van 5 dagen eerder.
Deel 2: Neerslagkans per etmaal
De neerslagkans per etmaal (00 UTC tot 24 UTC) wordt bij veel weerbureaus in de verwachting genoemd. In deze aflevering zullen we neerslagkansen van twee weerbureaus verifiëren: de Meerdaagse van het KNMI (MD) en de vijfdaagse van Weeronline (WL). De neerslagkansen die in de Meerdaagse van het KNMI worden vermeld zijn landelijke kansen. Echter volgens de toelichting van het KNMI is dat een kans die op elke locatie in Nederland gebruikt mag worden. De neerslagkansen van Weeronline zijn locatie specifiek en we gebruiken de verwachting voor Utrecht uit hun vijfdaagse verwachting. We zullen beide verwachtingen verifiëren tegen het al of niet optreden van neerslag te De Bilt. Daarbij hanteren we bij de Meerdaagse 0,3 mm als grenswaarde en bij Weeronline gebruiken 0,1 mm als grenswaarde. Uit de periode van december 2010 tot en met november 2017 hebben we die dagen geëxtraheerd waarop alle Meerdaagse verwachtingen van dag 1 t/m dag 6 en alle verwachtingen van Weeronline van dag 0 t/m dag 4 beschikbaar waren. In totaal was dat op 2279 dagen van de 2557 dagen in die periode het geval. Alle verwachtingen worden dus op dezelfde set waarnemingen geverifieerd.
Net als in de vorige bijdrage maken we gebruik van Brier Scores (BS) en de Expected Brier Scores (EBS) om de kwaliteit van de verwachtingen te beschrijven. In bijgaande figuur 1 zijn zowel de BS als de EBS uitgezet tegen de zichttijd van de verwachtingen voor zowel de Meerdaagse (MD) als voor Weeronline (WL). Alle Brierscores liggen ruim onder de referentiescores van 0,2497 voor Weeronline en 0,2478 voor de Meerdaagse. Bij Weeronline zijn op dag 0 de BS en de EBS gelijk duidend op een betrouwbare kansverwachting. Bij dag 1 tot en met dag 4 is de BS lager dan de EBS oftewel de verwachtingen zijn een beetje behoudend. In figuur 2 is het betrouwbaarheidsdiagram van dag 1 weergegeven. Dit diagram toont aan dat de verwachtingen nog aardig betrouwbaar zijn. In deze figuur is tevens de verdeling van de verwachte kansen over de kansniveaus gegeven. De diagrammen voor dag 2, 3 en 4 lijken veel op die van dag 1. Wel komen de verwachte kansen steeds dichter bij het gemiddelde te liggen.
Bij de Meerdaagse is het verschil tussen BS en EBS op dag 1 erg groot. In het betrouwbaarheidsdiagram in figuur 3 zien we dat dat samenhangt met een behoorlijke onderschatting van de neerslagkans bij de hoge kansen en een overschatting van de neerslagkans bij een verwachting van 10%. Met toenemende zichttijd wordt het verschil tussen BS en EBS kleiner en worden verwachtingen dus ook meer betrouwbaar. Bij dag 6 gebeurt er iets geks, de EBS is ineens kleiner dan de BS, duidend op een overdrijvende verwachting. In figuur 4 zien we dan ook dat bij hoge verwachte kansen er een duidelijke overschatting optreedt. De bijbehorende kansverdeling van de verwachting geeft bovendien aan dat er veel hoge kansen in de verwachting voorkomen. Dat er iets mis is met de verwachting voor dag 6 van de Meerdaagse is ook te zien in figuur 5 waar de bias in de verwachte kansen als functie van de zichttijd is geplot. Op dag 6 is de gemiddelde verwachte neerslagkans 11% hoger dan de gemiddelde neerslagkans.
Deel 1 : Neerslagkans Overdag
Neerslagkansen maken al heel lang deel uit van de weersverwachtingen. Aanvankelijk betrof dat de neerslagkans per etmaal. Later werd dat uitgebreid naar de neerslagkans over kortere tijdvakken tot zelfs de neerslagkans per uurvak. In de jaren 70/80 van de vorige eeuw bevatte de verwachting van het KNMI ook neerslagkansen voor een 12-uur tijdvak overdag (06-18 UTC). Persoonlijk lijkt mij dat de meest waardevolle verwachting voor een publieksverwachting. Het betreft namelijk de tijdvak waarin het publiek het meest geïnteresseerd is. Het KNMI geeft die verwachting niet meer uit maar in de 7-daagse verwachting van de MeteoGroup is een dergelijke verwachting wel opgenomen. In deze bijdrage zullen we deze laatste verwachtingen verifiëren over de periode van 25 juli 2010 tot en met 30 november 2018.
Een neerslagkansverwachting voor een bepaalde periode geeft gewoonlijk de kans in procenten dat in die periode een gegeven grenswaarde of meer aan neerslag zal optreden. Traditioneel hanteerde het KNMI een grens van 0,3 millimeter. Bij de verwachtingen van de MeteoGroup is dat 0,1 millimeter. We verifiëren de kansverwachtingen met behulp van de BrierScore. Gewoonlijk worden de verwachte kansen voor het berekenen van de Brier Scoreomgerekend naar fracties. Deze opgetreden BrierScore (BS) vergelijken we dan met de referentiescore RBS die wordt berekend door de gemiddelde neerslagkans berekent uit de waarnemingen over de verificatie periode te gebruiken als referentieverwachting. We verwachten dan dat de opgetreden BrierScore aanzienlijk lager is dan de referentiescore. Verder testen we de verwachte kansen op betrouwbaarheid dat wil zeggen dat we verwachten dat indien we 100 keer een verwachting van 70% uitgeven, er in 70 gevallen neerslag is opgetreden. Voor deze test wordt het zogenoemde betrouwbaarheidsdiagram gebruikt. Dit diagram wordt geconstrueerd door van een groot aantal verwachtingen verwachtingen met dezelfde waarde bij elkaar te nemen en verwachte waarde te plotten tegen de opgetreden fractie.
Naast de Brier Score berekenen we ook nog de Expected Brier Score. We gaan er dan van uit dat de verwachte kansen betrouwbaar zijn. In die situatie geldt dat de verwachte Brier Score van een individuele verwachting P (in fracties) gelijk is aan P*(1-P). De Expected Brier Score voor het totaal van alle verwachtingen in de verificatie is dan het gemiddelde van al die individuele Expected Brier scores. Voor betrouwbare verwachtingen is de EBS ongeveer gelijk aan de BS afgezien van toevallige afwijkingen. Indien de EBS veel hoger is dan de BS zijn de verwachtingen te behoudend oftewel bij hoge kansen is de opgetreden fractie zelfs nog hoger en/of bij lage kansen is de opgetreden fractie juist nog kleiner. Indien de BS veel groter is dan de EBS geldt het omgekeerde.
Voor de verificatieberekeningen hebben hebben we alle dagen uit bovengenoemde periode geselecteerd waarvoor een verwachting van dag 0 tot en met dag 6 beschikbaar was. Alle termijnen worden dus geverifieerd op dezelfde reeks waarnemingen. Wel vallen hierdoor relatief veel data uit want één gemiste verwachting betekent het verlies van zeven dagen. In totaal waren toch nog 2798 dagen beschikbaar. In de twee figuren hieronder zijn de resultaten voor de BS, de EBS en de RBS geplot als functie van de verwachtingstermijn voor zowel De Bilt als Eindhoven. Voor beide geldt dat de actuele BrierScore, tot en met dag 6, lager is dan de referentiescore oftewel tot en met dag 6 is actuele verwachting beter dan de referentie. Verder valt op dat op Dag_0 de BrierScore lager is dan de Expected BrierScore en bij Dag_6 is dat juist omgekeerd. Bij Dag_1 zijn ze praktisch gelijk. Op Dag_0 zijn de verwachtingen behoudend en op Dag_6 juist niet. In de daarop volgende figuren wordt voor De Bilt geïllustreerd wat dat betekent in het betrouwbaarheidsdiagram. Opvallend is bijvoorbeeld dat bij Dag_6 de opgetreden fracties, voor de hoge verwachte kansen, veel kleiner zijn dan de verwachte kansen




Introductie
Publieke Weersverwachtingen op Internet: Wat zijn ze waard?
Eind 2006 ben ik begonnen met het verzamelen van screendumps van de internetpaginas van diverse weerbureaus. Mijn doel was op dat moment om voor de temperatuur-verwachtingen van de bureaus na te gaan hoe goed die waren en of er verschillen waren tussen de weerbureaus. Ik heb hierover al enkele malen gerapporteerd in Meteorologica. Langzamerhand begon het onderwerp me steeds meer te boeien en kreeg ik ook belangstelling voor andere elementen uit de weersverwachting. Echter het verzamelen van screendumps en met name het handmatig extraheren van de cijferverwachtingen hieruit vroeg steeds meer tijd. Vandaar dat ik in 2010 begonnen ben met het handmatig, via het programma Curl, de onderliggende html-sources binnen te halen. Vervolgens werd met Python-programmas de verwachtingen voor diverse elementen hieruit geëxtraheerd. In 2012 heb ik dat opvragen van html-sources vervolgens geautomatiseerd op een linux-computer die ik huur bij STRATO. Het handmatig verzamelen van screendumps liep ondertussen ook door. Op deze manier heb ik sinds eind 2006 zo’n 60000 screendumps verzameld en zo’n 100000 html-bestanden.
Deze dataset vormt de basis voor diverse verificatiestudies en andere analyses die ik als hobby uitvoer. Naar mijn idee zitten daar soms leuke resultaten tussen die echter niet altijd een Meteorologica verhaal rechtvaardigen. Vandaar dat ik deze blog begin om jullie min of meer regelmatig te informeren over de resultaten. Ik zal daarbij ook wel eens een zijpad bewandelen dat ik interessant vind.
Hieronder wat voorbeelden van screendumps: een oude uit 2007 en een nieuwe uit 2019. De bijbehorende html-sources zijn natuurlijk ook veranderd wat iedere keer aanleiding gaf tot aanpassing van de programmatuur.


Reacties
Log in om de reacties te lezen en te plaatsen