{"id":1495,"date":"2025-01-05T15:54:00","date_gmt":"2025-01-05T15:54:00","guid":{"rendered":"https:\/\/www.pickplace.de\/?p=1495"},"modified":"2026-03-09T16:01:04","modified_gmt":"2026-03-09T16:01:04","slug":"cortex-m85-the-standard-for-ai-on-microcontrollers","status":"publish","type":"post","link":"https:\/\/www.pickplace.de\/en\/cortex-m85-der-standard-fur-ai-auf-mikrocontrollern\/","title":{"rendered":"Cortex M85 \u2013 the standard for AI on microcontrollers"},"content":{"rendered":"<div class=\"wp-block-stackable-text stk-block-text stk-block stk-fcaa249\" data-block-id=\"fcaa249\"><p class=\"stk-block-text__text\">Die Anforderungen an eingebettete Ger&auml;te sind in den letzten Jahren stark gestiegen. Besonders in Bereichen wie maschinellem Lernen (ML) und der Signalverarbeitung besteht ein wachsender Bedarf an leistungsf&auml;higen und gleichzeitig energieeffizienten L&ouml;sungen. Durch begrenzte Ressourcen und Rechenleistung sind <a class=\"glossaryLink\"  href=\"https:\/\/www.pickplace.de\/en\/glossar\/mikrocontroller\/\"  data-gt-translate-attributes='[{\"attribute\":\"data-cmtooltip\", \"format\":\"html\"}]' tabindex='0' role='link'>Mikrocontroller<\/a> h&auml;ufig nur zweite Wahl. Die&nbsp;kosten- und energieintensiveren High-End-Prozessoren wie Cortex-A oder spezialisierte GPU-basierte Ans&auml;tze stehen im Vordergrund. Nun jedoch preschen Hersteller mit der neuen Cortex-M85-Architektur vor.<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-2d63d64\" data-block-id=\"2d63d64\"><p class=\"stk-block-text__text\">Mit dem ARM Cortex M85 steht nun ein&#xA0;neuer Standard f&#xFC;r Mikrocontroller zur Verf&#xFC;gung, die speziell f&#xFC;r die Anforderungen ressourcensparender mobiler Systeme entwickelt wurde. Der M85 kombiniert hohe deterministische Rechenleistung mit innovativen Features, die den Einsatz von MCUs &#xFC;ber klassische Anwendungsfelder hinaus erweitern. Ferner sind ULP-Anwendungen (Ultra Low Power)&#xA0; m&#xF6;glich.&#xA0;Die Grundlage f&#xFC;r den im ML-Kontext ben&#xF6;tigten hohen Datendurchsatz ist die Helium-Technologie, die durch die M-Profile Vector Extension (MVE) die M&#xF6;glichkeit zu komplexeren Matrizenoperationen bietet.<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-heading stk-block-heading stk-block-heading--v2 stk-block stk-7773f17\" id=\"m-profile-vector-extension-mve\" data-block-id=\"7773f17\"><h2 class=\"stk-block-heading__text\">M-Profile Vector Extension (MVE)<\/h2><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-fe667a6\" data-block-id=\"fe667a6\"><p class=\"stk-block-text__text\">Eine Kernkomponente des Cortex M85 ist die MVE, die die Verarbeitungsgeschwindigkeit f&#xFC;r ML-Modelle und Signalverarbeitung massiv erh&#xF6;ht. ML-Anwendungen am Edge setzen oft auf optimierte Matritzenoperationen, die zuvor auf leistungsstarken Servern trainiert und anschlie&#xDF;end auf den Mikrocontrollern implementiert werden. Durch die Nutzung von Bibliotheken wie CMSIS-NN k&#xF6;nnen diese Modelle auf dem Cortex M effizient ausgef&#xFC;hrt werden.<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-b895a07\" data-block-id=\"b895a07\"><p class=\"stk-block-text__text\">Die Helium-Erweiterung erm&#xF6;glicht, die Floating Point Unit (FPU) als 128-Bit-Vektor-Register zu nutzen, wodurch parallel 16 Operationen mit 8-Bit, 8 Operationen mit 16-Bit oder 4 Operationen mit 32-Bit durchgef&#xFC;hrt werden k&#xF6;nnen. Dies f&#xFC;hrt zu einer bis zu vierfachen Leistung im Vergleich zu einem typischen Cortex-M7 mit &#xE4;hnlichen Leistungsparametern (Takt, RAM\/ROM). Praktisch ist die Mikrocontroller-Abstraktion &#xFC;ber die CMSIS-Library. So bietet ARM die dazu erforderlichen MVE-Befehle direkt mit der CMSIS-NN-Bibliothek an, was die Anwendbarkeit von ML-Applikationen deutlich vereinfacht.&#xA0;<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-e243ca6\" data-block-id=\"e243ca6\"><p class=\"stk-block-text__text\">Die Helium-Technologie des Cortex M85 optimiert die Datenverarbeitung durch das Konzept der &#x201E;beatwise&#x201C; Ausf&#xFC;hrung, das auf 8 Vektorregistern mit einer L&#xE4;nge von jeweils 128 Bit basiert. Diese Register sind in vier gleich gro&#xDF;e Abschnitte zu je 32 Bit unterteilt, die als &#x201E;Beats&#x201C; (A bis D) bezeichnet werden. Jeder Beat repr&#xE4;sentiert unabh&#xE4;ngig von der Elementgr&#xF6;&#xDF;e 32-Bit an Berechnungen &#x2013; beispielsweise 1 x 32-Bit-MAC oder 4 x 8-Bit-MAC.<br><br>Ein typisches Szenario, wie in der folgenden Grafik dargestellt, zeigt eine abwechselnde Abfolge von Vector Load (VLDR) und Vector MAC (VMLA) Befehlen &#xFC;ber vier Taktzyklen. In einer klassischen 128-Bit-Datenpfad-Architektur w&#xE4;ren gro&#xDF;e Teile der Hardware, wie der Speicherpfad und die MAC-Bl&#xF6;cke, oft ungenutzt. Die MVE-Architektur bricht jedoch jede 128-Bit-weite Anweisung in vier gleich gro&#xDF;e Beats auf. Durch die Trennung von Lade- und MAC-Hardware kann die Verarbeitung dieser Beats &#xFC;berlappen: W&#xE4;hrend Beat A eines VLDR geladen wird, wird gleichzeitig Beat A eines VMLA verarbeitet, der auf Daten aus dem vorherigen Zyklus zugreift.<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-image stk-block-image stk-block stk-66c7df4\" data-block-id=\"66c7df4\"><style>.stk-66c7df4 .stk-img-figcaption{text-align:center !important;}.stk-66c7df4 .stk-img-wrapper{width:597px !important;}<\/style><figure><span class=\"stk-img-wrapper stk-image--shape-stretch\"><img loading=\"lazy\" decoding=\"async\" class=\"stk-img wp-image-1496\" src=\"https:\/\/www.pickplace.de\/wp-content\/uploads\/2026\/03\/helium_tech.webp\" width=\"597\" height=\"204\" alt=\"Cortex M85 - Stufenf&#xF6;rmige Anordnung farbiger Bl&#xF6;cke A&#x2013;H vor schwarzem Hintergrund; modulare Elektronik, embedded hardware.\"\/><\/span><figcaption class=\"stk-img-figcaption\">&#x201E;Beatwise Operation&#x201C; im Helium-MVE-Zyklus<\/figcaption><\/figure><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-b0abbcd\" data-block-id=\"b0abbcd\"><p class=\"stk-block-text__text\">Dieses &#xFC;berlappende Design erm&#xF6;glicht es, dieselbe Leistung wie ein Prozessor mit einem 128-Bit-Datenpfad zu erreichen. Selbst bei Prozessoren mit nur einem 32-Bit-Datenpfad k&#xF6;nnen durch die &#x201E;beatwise&#x201C; Ausf&#xFC;hrung vergleichbare Instruktionen effizient verarbeitet werden. Ein solches Design verdoppelt die Leistung eines Single-Issue-Skalarprozessors, der in acht Zyklen 8 x 32-Bit-Werte laden und MAC-Berechnungen durchf&#xFC;hren kann &#x2013; und das ohne den hohen Hardwareaufwand eines Dual-Issue-Designs.<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-heading stk-block-heading stk-block-heading--v2 stk-block stk-3d7f3ad\" id=\"low-overhead-branch-extension\" data-block-id=\"3d7f3ad\"><h2 class=\"stk-block-heading__text\">Low Overhead Branch Extension<\/h2><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-14216c6\" data-block-id=\"14216c6\"><p class=\"stk-block-text__text\">Nicht nur im Kontext von ML, sondern auch bei Schleifenstrukturen hat die Effizienz der Verarbeitung einen wesentlichen Einfluss auf die Gesamtleistung. Der Cortex M85 f&#xFC;hrt hier mit den neuen Maschinenbefehlen WLS, DLS und LE eine optimierte Pipeline-Steuerung ein. Diese Befehle minimieren den Overhead in Schleifenoperationen, da der Schleifenbeginn und das Ende direkt in den Core-Registern gespeichert werden. &#xA0;<br><br>Ein besonderes Merkmal: Die Arbeit, diese neuen Befehle zu nutzen, wird vom Compiler &#xFC;bernommen, sodass Entwickler automatisch von der verbesserten Performance profitieren. Auch wenn die MVE-Erweiterung nicht implementiert ist, sind die neuen Schleifenbefehle verf&#xFC;gbar.<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-heading stk-block-heading stk-block-heading--v2 stk-block stk-0333079\" id=\"half-precision-floating-point\" data-block-id=\"0333079\"><h2 class=\"stk-block-heading__text\">Half Precision Floating Point<\/h2><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-a59183b\" data-block-id=\"a59183b\"><p class=\"stk-block-text__text\">Um die Rechenleistung weiter zu steigern, unterst&#xFC;tzt die FPU des Cortex M85 neben 32-Bit-Single-Precision- und 64-Bit-Double-Precision-Operationen auch 16-Bit-Half-Precision-Operationen. Dies ist besonders bei der Normierung von ML-Modellen hilfreich, da Berechnungen mit kleineren Datentypen nicht nur die Speichernutzung reduzieren, sondern auch die Rechengeschwindigkeit erh&#xF6;hen &#x2013; ohne dabei signifikante Qualit&#xE4;tsverluste zu riskieren. &#xA0;<\/p><\/div>\n\n\n\n<div class=\"wp-block-stackable-heading stk-block-heading stk-block-heading--v2 stk-block stk-026bbff\" id=\"zusammenfassung\" data-block-id=\"026bbff\"><h2 class=\"stk-block-heading__text\">Zusammenfassung<\/h2><\/div>\n\n\n\n<div class=\"wp-block-stackable-text stk-block-text stk-block stk-8c9035c\" data-block-id=\"8c9035c\"><p class=\"stk-block-text__text\">Der ARM Cortex M85 mit der Helium-Technologie und der MVE stellt einen bedeutenden Fortschritt in der Welt der Mikrocontroller dar. Er erm&#xF6;glicht leistungsstarke Anwendungen im Bereich KI und Signalverarbeitung, die bisher teureren Prozessoren vorbehalten waren. Mit seiner hohen deterministischen Rechenleistung und den innovativen Optimierungen zeigt der Cortex M85, wie die Grenzen der klassischen MCU-Anwendungsf&#xE4;lle verschoben werden k&#xF6;nnen.<\/p><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Die Anforderungen an eingebettete Ger\u00e4te sind in den letzten Jahren stark gestiegen. Besonders in Bereichen wie maschinellem Lernen (ML) und der Signalverarbeitung besteht ein wachsender Bedarf an leistungsf\u00e4higen und gleichzeitig energieeffizienten L\u00f6sungen. Durch begrenzte Ressourcen und Rechenleistung sind Mikrocontroller h\u00e4ufig nur zweite Wahl. Die&nbsp;kosten- und energieintensiveren High-End-Prozessoren wie Cortex-A oder spezialisierte GPU-basierte Ans\u00e4tze stehen im [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1501,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-1495","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"blocksy_meta":[],"_links":{"self":[{"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/posts\/1495","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/comments?post=1495"}],"version-history":[{"count":3,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/posts\/1495\/revisions"}],"predecessor-version":[{"id":1505,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/posts\/1495\/revisions\/1505"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/media\/1501"}],"wp:attachment":[{"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/media?parent=1495"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/categories?post=1495"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.pickplace.de\/en\/wp-json\/wp\/v2\/tags?post=1495"}],"curies":[{"name":"WP","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}