WiMi Hologram Cloud Inc. kondigde aan dat het een algoritme voor taakplanning op basis van 'deep reinforcement learning' in cloud computing heeft ontwikkeld om de prestaties en het gebruik van cloud computing-systemen te verbeteren. Diep versterkingsleren kan complexe besluitvormingsproblemen oplossen door strategieën te leren en te optimaliseren. Door gebruik te maken van deep reinforcement learning kan het taakplanningsprobleem worden omgezet in een reinforcement learning-probleem door een deep neural network te trainen om de optimale strategie voor taakplanning te leren. Het voordeel van versterkingsleren is dat het beleid automatisch kan worden aangepast aan veranderingen in de omgeving en kan worden aangepast aan complexe taakplanningsscenario's.

Diep versterkingsleren heeft de voordelen van aanpassingsvermogen, niet-lineaire modellering, eind-tot-eind-leren en generalisatievermogen bij het plannen van taken, en het kan factoren zoals de uitvoeringstijd van de taak, de vraag naar middelen, de belastingssituatie van de virtuele machine en de netwerklatentie volledig in overweging nemen om de taakplanning nauwkeuriger uit te voeren en de prestaties van het systeem en het gebruik van middelen te verbeteren. WiMi's algoritme voor taakplanning op basis van diepgaand leren in cloud computing omvat weergave van de toestand, actieselectie, beloningsfunctie en training en optimalisatie van het algoritme. Toestandsrepresentatie is een belangrijke schakel.

Door verschillende informatie in de cloud computing-omgeving om te zetten in een vorm die door het machine-learningmodel kan worden verwerkt, kan het model de huidige taakplanningssituatie beter begrijpen en zo redelijkere en nauwkeurigere taakplanningsbeslissingen nemen. Actieselectie is ook een belangrijke stap, waarbij de agent bij elke tijdstap een actie moet selecteren om de huidige taakplanningsstrategie te bepalen. Een dergelijk algoritme kan een optimale actie selecteren op basis van de huidige systeemstatus om een efficiënte taakplanning voor cloud computing te bereiken.

De beloningsfunctie, aan de andere kant, wordt gebruikt om de beloningswaarde te evalueren die door de agent wordt verkregen na het uitvoeren van een actie, die op zijn beurt het besluitvormingsproces van de agent stuurt. De beloningsfunctie kan de agent in staat stellen om beter te leren en te optimaliseren tijdens het taakplanningsproces. Daarnaast zijn de training en optimalisatie van het diepe algoritme voor taakplanning op basis van versterkingsleren in cloud computing ook erg belangrijk.

Eerst moet er een versterkingsleeromgeving voor het taakplanningsprobleem geconstrueerd worden, inclusief de definitie van toestanden, acties en beloningsfuncties. De toestand kan informatie bevatten zoals de huidige situatie van systeembelasting, attributen en prioriteit van de taak; de actie kan ervoor kiezen om de taak aan een bepaalde virtuele machine toe te wijzen of om te beslissen of de verwerking van de taak moet worden uitgesteld; en de beloningsfunctie kan worden gedefinieerd op basis van de voltooiingstijd van de taak, het gebruik van bronnen en andere meetgegevens. Het algoritme wordt vervolgens getraind met een diep algoritme voor versterkingsleren zoals Deep Q-Network (DQN), een algoritme voor versterkingsleren op basis van neurale netwerken dat beslissingen kan nemen door een waardefunctie te leren.

Tijdens het trainingsproces werkt het algoritme, door interactie met de omgeving, de parameters van het neurale netwerk voortdurend bij om de beslissingsstrategie voor taakplanning te optimaliseren. Bovendien kunnen sommige optimalisatietechnieken, zoals ervaringsplayback en objectieve netwerken, gebruikt worden om de prestaties en stabiliteit van het algoritme verder te verbeteren. Door voortdurende training en optimalisatie zal het algoritme geleidelijk de optimale strategie voor taakplanning leren, waardoor de prestaties en efficiëntie van het systeem zullen verbeteren.