6 Bereiche der KI und des maschinellen Lernens, die genau beobachtet werden müssen

Für weitere KI-Nachrichten und Analysen tragen Sie sich hier in meinen Newsletter ein.

Das Destillieren einer allgemein akzeptierten Definition dessen, was als künstliche Intelligenz (KI) bezeichnet wird, ist in letzter Zeit zu einem wiederbelebten Diskussionsthema geworden. Einige haben AI als “Cognitive Computing” oder “Machine Intelligence” umbenannt, während andere AI fälschlicherweise mit “Machine Learning” austauschen. Dies liegt zum Teil daran, dass KI keine einzige Technologie ist. Es ist in der Tat ein weites Feld, das sich aus vielen Disziplinen zusammensetzt, von der Robotik bis zum maschinellen Lernen. Das ultimative Ziel der KI, das die meisten von uns bejahen, ist es, Maschinen zu bauen, die Aufgaben und kognitive Funktionen ausführen können, die sonst nur im Rahmen der menschlichen Intelligenz liegen. Um dorthin zu gelangen, müssen Maschinen in der Lage sein, diese Funktionen automatisch zu erlernen, anstatt dass jede von ihnen explizit Ende-zu-Ende programmiert wird.

Es ist erstaunlich, wie viel Fortschritt die KI in den letzten 10 Jahren gemacht hat, angefangen von selbstfahrenden Autos bis hin zu Spracherkennung und -synthese. Vor diesem Hintergrund ist die KI in immer mehr Unternehmen und Haushalten zu einem Gesprächsthema geworden, die KI als eine Technologie betrachten, die keine weiteren 20 Jahre entfernt ist, die sich jedoch auf ihr heutiges Leben auswirkt. In der Tat artikulieren die populären Presseberichte über KI fast jeden Tag und Technologie-Giganten nacheinander ihre bedeutenden langfristigen KI-Strategien. Während einige Investoren und etablierte Unternehmen begierig darauf sind, den Wert dieser neuen Welt zu steigern, kratzen sich die meisten immer noch am Kopf, um herauszufinden, was dies alles bedeutet. Unterdessen setzen sich die Regierungen mit den Auswirkungen der Automatisierung auf die Gesellschaft auseinander (siehe Obamas Abschiedsrede).

Angesichts der Tatsache, dass KI Auswirkungen auf die gesamte Wirtschaft haben wird, repräsentieren die Akteure in diesen Gesprächen die gesamte Verteilung von Absichten, Verständnisniveaus und Erfahrungsgraden beim Aufbau oder der Verwendung von KI-Systemen. Daher ist es entscheidend, dass eine Diskussion über KI – einschließlich der daraus abgeleiteten Fragen, Schlussfolgerungen und Empfehlungen – auf Daten und Realität und nicht auf Vermutungen beruht. Es ist viel zu einfach (und manchmal aufregend!), Die Implikationen von Ergebnissen aus veröffentlichten Forschungsergebnissen oder technischen Pressemitteilungen, spekulativen Kommentaren und Gedankenexperimenten wild zu extrapolieren.

Hier sind sechs Bereiche der KI aufgeführt, die sich besonders auf die Zukunft digitaler Produkte und Dienstleistungen auswirken. Ich beschreibe, was sie sind, warum sie wichtig sind, wie sie heute verwendet werden, und füge eine (keineswegs erschöpfende) Liste von Unternehmen und Forschern bei, die an diesen Technologien arbeiten.

👉 Hier anmelden So landet es direkt in Ihrem Posteingang.

1. Verstärkungslernen (RL)

RL ist ein Paradigma für das Lernen durch Ausprobieren, inspiriert von der Art und Weise, wie Menschen neue Aufgaben lernen. In einer typischen RL-Konfiguration hat ein Agent die Aufgabe, seinen aktuellen Status in einer digitalen Umgebung zu beobachten und Maßnahmen zu ergreifen, um eine langfristige Belohnung zu erzielen, die festgelegt wurde. Der Agent erhält als Ergebnis jeder Aktion ein Feedback von der Umgebung, sodass er weiß, ob die Aktion ihren Fortschritt gefördert oder behindert hat. Ein RL-Agent muss daher die Erkundung seiner Umgebung ausbalancieren, um optimale Strategien für die Belohnung zu finden, indem er die beste Strategie ausnutzt, die er gefunden hat, um das gewünschte Ziel zu erreichen. Dieser Ansatz wurde von Google DeepMind in der Arbeit an Atari-Spielen und Go populär gemacht. Ein Beispiel für die Arbeit von RL in der Praxis ist die Aufgabe, die Energieeffizienz für die Kühlung von Google-Rechenzentren zu optimieren. Hier konnte ein RL-System die Kühlkosten um 40% senken. Ein wichtiger nativer Vorteil der Verwendung von RL-Agenten in simulierbaren Umgebungen (z. B. Videospielen) besteht darin, dass Trainingsdaten in kleinen Gruppen und zu sehr geringen Kosten generiert werden können. Dies steht in krassem Gegensatz zu beaufsichtigten Deep-Learning-Aufgaben, für die häufig teure und in der Praxis schwer zu beschaffende Trainingsdaten erforderlich sind.

  • Anwendungen : Mehrere Agenten lernen in ihrer eigenen Instanz einer Umgebung mit einem gemeinsamen Modell oder indem sie in derselben Umgebung interagieren und voneinander lernen. Sie lernen, in 3D-Umgebungen wie Irrgärten oder Stadtstraßen für autonomes Fahren zu navigieren durch Erlernen des Ziels einer Aufgabe (z. B. Fahren lernen oder Nicht-Spieler-Videospielcharaktere mit menschenähnlichen Verhaltensweisen ausstatten).
  • Hauptforscher: Pieter Abbeel (OpenAI), David Silver, Nando de Freitas, Raia Hadsell, Marc Bellemare (Google DeepMind), Carl Rasmussen (Cambridge), Rich Sutton (Alberta), John Shawe-Taylor (UCL) und andere.
  • Unternehmen : Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba / Microsoft, NVIDIA, Mobileye, OpenAI.

2. Generative Modelle

Im Gegensatz zu Unterscheidungsmodellen, die für Klassifizierungs- oder Regressionsaufgaben verwendet werden, lernen generative Modelle eine Wahrscheinlichkeitsverteilung über Trainingsbeispiele. Durch das Abtasten aus dieser hochdimensionalen Verteilung geben generative Modelle neue Beispiele aus, die den Trainingsdaten ähnlich sind. Dies bedeutet zum Beispiel, dass ein generatives Modell, das auf realen Bildern von Gesichtern trainiert wurde, neue synthetische Bilder von ähnlichen Gesichtern ausgeben kann. Weitere Informationen zur Funktionsweise dieser Modelle finden Sie in Ian Goodfellows großartigem NIPS 2016-Tutorial. Die von ihm eingeführte Architektur, generative Adversarial Networks (GANs), ist derzeit in der Forschungswelt besonders beliebt, da sie einen Weg zu unbeaufsichtigtem Lernen bietet. Bei GANs gibt es zwei neuronale Netze: einen Generator , der zufälliges Rauschen als Eingabe verwendet und mit der Synthese von Inhalten (z. B. ein Bild) beauftragt ist, und einen Diskriminator , der gelernt hat, wie echte Bilder aussehen, und der die Aufgabe hat, zu identifizieren, ob Bilder erstellt wurden vom Generator sind echt oder falsch. Das gegnerische Training kann als ein Spiel betrachtet werden, bei dem der Generator iterativ lernen muss, wie Bilder aus Rauschen erzeugt werden, so dass der Diskriminator erzeugte Bilder nicht mehr von realen unterscheiden kann. Dieses Framework wird auf viele Datenmodalitäten und -aufgaben erweitert.

  • Anwendungen : Simulieren Sie mögliche Zukünfte einer Zeitreihe (z. B. zur Planung von Aufgaben im Bereich des verstärkenden Lernens); Superauflösung von Bildern; Wiederherstellen der 3D-Struktur aus einem 2D-Bild; Verallgemeinern von kleinen beschrifteten Datensätzen; Aufgaben, bei denen eine Eingabe mehrere korrekte Ausgaben liefern kann (z. B. Vorhersagen des nächsten Frames in einem Video), Erstellen einer natürlichen Sprache in Konversationsoberflächen (z. B. Bots), Kryptografie, teilüberwachtes Lernen, wenn nicht alle Labels verfügbar sind, Übertragung des künstlerischen Stils, Synthetisieren von Musik und stimme, bild in malerei.
  • Unternehmen : Twitter Cortex, Adobe, Apple, Prisma, Jukedeck *, Creative.ai, Gluru *, Mapillary *, Unbabel.
  • Hauptforscher: Ian Goodfellow (OpenAI), Yann LeCun und Soumith Chintala (Facebook AI Research), Shakir Mohamed und Aäron van den Oord (Google DeepMind), Alyosha Efros (Berkeley) und viele andere.

3. Netzwerke mit Speicher

Damit sich KI-Systeme wie wir in verschiedenen realen Umgebungen verallgemeinern können, müssen sie in der Lage sein, ständig neue Aufgaben zu lernen und sich daran zu erinnern, wie sie alle in Zukunft ausgeführt werden sollen. Traditionelle neuronale Netze sind jedoch typischerweise nicht in der Lage, solche sequentiellen Aufgaben zu lernen, ohne dies zu vergessen. Dieser Mangel wird als katastrophales Vergessen bezeichnet. Dies tritt auf, weil die Wichtungen in einem Netzwerk, die für die Lösung von Aufgabe A wichtig sind, geändert werden, wenn das Netzwerk anschließend für die Lösung von Aufgabe B trainiert wird.

Es gibt jedoch mehrere leistungsfähige Architekturen, die neuronale Netze mit unterschiedlichem Speicherumfang ausstatten können. Dazu gehören Langzeit-Kurzzeitspeicher-Netzwerke (eine wiederkehrende neuronale Netzwerkvariante), die in der Lage sind, Zeitreihen zu verarbeiten und vorherzusagen. DeepMinds differenzierbarer neuronaler Computer kombiniert neuronale Netzwerke und Speichersysteme, um aus komplexen Datenstrukturen selbst zu lernen und zu navigieren. die elastische Gewichtsverfestigung Algorithmus, der das Lernen an bestimmten Gewichten verlangsamt, je nachdem, wie wichtig sie für zuvor gesehene Aufgaben und progressive neuronale Netze sind Sie lernen Querverbindungen zwischen aufgabenspezifischen Modellen, um nützliche Funktionen aus zuvor erlernten Netzwerken für eine neue Aufgabe zu extrahieren.

  • Anwendungen : Lernagenten, die auf neue Umgebungen verallgemeinern können; Aufgaben der Roboterarmsteuerung; autonome Fahrzeuge; Zeitreihenvorhersage (zB Finanzmärkte, Video, IoT); natürliches Sprachverständnis und nächste Wortvorhersage.
  • Unternehmen : Google DeepMind, NNaisense (?), SwiftKey / Microsoft Research, Facebook AI Research.
  • Hauptforscher: Alex Graves, Raia Hadsell, Koray Kavukcuoglu (Google DeepMind), Jürgen Schmidhuber (IDSIA), Geoffrey Hinton (Google Brain / Toronto), James Weston, Sumit Chopra, Antoine Bordes (FAIR).

4. Aus weniger Daten lernen und kleinere Modelle bauen

Deep-Learning-Modelle zeichnen sich dadurch aus, dass sie enorme Mengen an Trainingsdaten benötigen, um auf dem neuesten Stand der Technik zu sein. Zum Beispiel enthält die ImageNet Large Scale Visual Recognition Challenge, bei der Teams ihre Bilderkennungsmodelle in Frage stellen, 1,2 Millionen Trainingsbilder, die mit 1000 Objektkategorien handbeschriftet sind. Ohne umfangreiche Trainingsdaten konvergieren Deep-Learning-Modelle nicht mit ihren optimalen Einstellungen und eignen sich nicht für komplexe Aufgaben wie Spracherkennung oder maschinelle Übersetzung. Diese Datenanforderung wächst nur, wenn ein einzelnes neuronales Netzwerk verwendet wird, um ein Problem Ende-zu-Ende zu lösen. das heißt, dass rohe Audioaufzeichnungen von Sprache als Eingabe und Ausgabe von Texttranskriptionen der Sprache verwendet werden. Dies steht im Gegensatz zur Verwendung mehrerer Netzwerke, die jeweils Zwischendarstellungen bereitstellen (z. B. Audioeingabe für Rohsprache → Phoneme → Wörter → Texttranskriptausgabe oder Rohpixel von einer Kamera, die direkt auf Steuerbefehle abgebildet werden). Wenn KI-Systeme Aufgaben lösen sollen, bei denen die Beschaffung von Trainingsdaten besonders schwierig, kostspielig, heikel oder zeitaufwendig ist, ist es wichtig, Modelle zu entwickeln, die optimale Lösungen aus weniger Beispielen lernen können (z. B. One-Shot- oder Zero-Shot-Lernen). Zu den Herausforderungen beim Training mit kleinen Datenmengen gehören Überanpassung, Schwierigkeiten beim Umgang mit Ausreißern und Unterschiede in der Datenverteilung zwischen Training und Test. Ein alternativer Ansatz besteht darin, das Lernen einer neuen Aufgabe zu verbessern, indem Wissen aus einem maschinellen Lernmodell übertragen wird, das aus einer vorherigen Aufgabe unter Verwendung von Prozessen erworben wurde, die gemeinsam als Transferlernen bezeichnet werden .

Ein verwandtes Problem ist die Erstellung kleinerer Deep-Learning-Architekturen mit modernster Leistung unter Verwendung einer ähnlichen Anzahl oder signifikant weniger Parameter. Zu den Vorteilen zählen ein effizienteres verteiltes Training, da Daten zwischen Servern übertragen werden müssen, weniger Bandbreite für den Export eines neuen Modells aus der Cloud auf ein Edge-Gerät und eine bessere Durchführbarkeit bei der Bereitstellung auf Hardware mit begrenztem Arbeitsspeicher.

  • Anwendungen : Trainieren flacher Netzwerke, indem Sie lernen, die Leistung tiefer Netzwerke nachzuahmen, die ursprünglich mit großen, gekennzeichneten Trainingsdaten trainiert wurden. Architekturen mit weniger Parametern, aber gleicher Leistung wie Deep Models (zB SqueezeNet); Maschinenübersetzung.
  • Unternehmen : Geometric Intelligence / Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI.
  • Hauptforscher: Zoubin Ghahramani (Cambridge), Yoshua Bengio (Montreal), Josh Tenenbaum (MIT), Brendan Lake (NYU), Oriol Vinyals (Google DeepMind), Sebastian Riedel (UCL).

5. Hardware für Training und Inferenz

Ein Hauptkatalysator für den Fortschritt in der KI ist die Umnutzung von Grafikprozessoren (GPUs) zum Trainieren großer neuronaler Netzwerkmodelle. Im Gegensatz zu CPUs (Central Processing Units), die sequentiell arbeiten, bieten GPUs eine massiv parallele Architektur, die mehrere Aufgaben gleichzeitig erledigen kann. Angesichts der Tatsache, dass neuronale Netze enorme Mengen (oft hochdimensionaler Daten) verarbeiten müssen, ist das Training auf GPUs viel schneller als bei CPUs. Dies ist der Grund, warum GPUs seit der Veröffentlichung von AlexNet im Jahr 2012 – dem ersten auf einer GPU implementierten neuronalen Netzwerk – zu einem echten Goldrausch geworden sind. NVIDIA ist weiterhin führend in 2017, vor Intel, Qualcomm, AMD und in jüngerer Zeit Google.

GPUs wurden jedoch nicht speziell für Schulungen oder Inferenzen entwickelt. Sie wurden erstellt, um Grafiken für Videospiele zu rendern. GPUs haben eine hohe Rechengenauigkeit, die nicht immer benötigt wird, und leiden unter Problemen mit der Speicherbandbreite und dem Datendurchsatz. Dies hat die Voraussetzungen für eine neue Generation von Startups und Projekten in großen Unternehmen wie Google geschaffen, um Silizium speziell für hochdimensionale maschinelle Lernanwendungen zu entwickeln und herzustellen. Zu den Verbesserungen, die durch neue Chipdesigns versprochen werden, gehören eine größere Speicherbandbreite, die Berechnung von Grafiken anstelle von Vektoren (GPUs) oder Skalaren (CPUs), eine höhere Rechendichte, Effizienz und Leistung pro Watt. Dies ist aufregend, da KI-Systeme ihren Besitzern und Benutzern eine deutlich schnellere Rendite bieten: Schnelleres und effizienteres Modelltraining → Bessere Benutzererfahrung → Der Benutzer beschäftigt sich mit dem Produkt mehr. → Erstellt einen größeren Datensatz. → Verbessert die Modellleistung durch Optimierung. Daher sind diejenigen, die in der Lage sind, schneller zu trainieren und KI-Modelle einzusetzen, die rechnerisch und energieeffizient sind, von großem Vorteil.

  • Anwendungen : Schnelleres Training von Modellen (insbesondere auf Grafiken); Energie- und Dateneffizienz bei Vorhersagen; Ausführen von KI-Systemen am Rande (IoT-Geräte); IoT-Geräte, die immer zuhören; Cloud-Infrastruktur als Dienstleistung; autonome Fahrzeuge, Drohnen und Robotik.
  • Unternehmen : Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex
  • Hauptforscher 😕

6. Simulationsumgebungen

Wie bereits erwähnt, ist das Generieren von Trainingsdaten für KI-Systeme häufig eine Herausforderung. Darüber hinaus müssen KI auf viele Situationen verallgemeinert werden, wenn sie uns in der realen Welt von Nutzen sein sollen. Wenn wir digitale Umgebungen entwickeln, die die Physik und das Verhalten der realen Welt simulieren, erhalten wir Prüfstände, mit denen wir die allgemeine Intelligenz einer KI messen und trainieren können. Diese Umgebungen stellen einer KI rohe Pixel zur Verfügung, die dann Maßnahmen ergreifen, um die gesetzten (oder erlernten) Ziele zu erreichen. Das Training in diesen Simulationsumgebungen kann uns dabei helfen, zu verstehen, wie KI-Systeme lernen und wie sie verbessert werden können, aber auch Modelle bereitzustellen, die möglicherweise auf reale Anwendungen übertragen werden können.

  • Anwendungen : Fahren lernen; Herstellung; industrielles Design; Spielentwicklung; Intelligente Städte.
  • Unternehmen : Unwahrscheinlich, Unity 3D, Microsoft (Minecraft), Google DeepMind / Blizzard, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard
  • Forscher : Andrea Vedaldi (Oxford)