
Eine meiner Lieblingskonferenzen im Herbst, die GPU Technology Conference (GTC), fand vor ein paar Monaten beim GPU-Branchenführer Nvidia statt. Mit künstlicher Intelligenz (KI) als einem der Anwendungsfälle leistet das Unternehmen stets gute Arbeit bei der Präsentation von Entwicklungen im Bereich der beschleunigten Datenverarbeitung. Nvidia-Prozessoren finden sich in allen möglichen Geräten, von autonomen Autos über Sprachassistenten bis hin zu Cisco Webex-Endgeräten, und sind dank ihrer hohen Verarbeitungsgeschwindigkeit gut für KI geeignet.
Die Tatsache, dass Nvidia mehr als nur Silizium anbietet und komplette Systeme entwickelt, die von Unternehmen, Technologiefirmen, Dienstleistern und anderen sofort genutzt werden können, ist einer der Vorteile des Unternehmens. Ein solches Beispiel ist Maxine von Nvidia, das künstliche Intelligenz auf die Kommunikation anwendet. Maxine besteht, wie die meisten Produkte von Nvidia, aus einer ganzen Reihe von GPU-beschleunigten SDKs, die künstliche Intelligenz zur Verbesserung der Audio- und Videokommunikation nutzen. Dies verleiht alltäglichen Mikrofonen und Kameras modernste Fähigkeiten.
Mit Maxine können Unternehmen zum Beispiel die Hintergrundgeräusche in Gesprächen reduzieren. Aufgrund der weit verbreiteten Nutzung von Sprache und Video in zuvor unerforschten Kontexten werden Funktionen wie diese heute als Standard in der Kommunikation angesehen. Der Hausarbeiter ist ein offensichtlicher Anwendungsfall, aber auch ein Versicherungssachverständiger könnte eine Video-App am Straßenrand nutzen oder ein Ingenieur einer Fluggesellschaft müsste mit jemandem auf einer Startbahn sprechen.
Eine der faszinierendsten und innovativsten Eigenschaften von Maxine ist ihre Fähigkeit, den Bildschirm neu zu rendern und so den Eindruck zu erwecken, dass sich die Personen gegenseitig anstarren, auch wenn ihre Augen nicht direkt auf die Kamera gerichtet sind. Wenn wir ein Video ansehen, wenden wir unsere Aufmerksamkeit oft von der Kamera ab und dem Bildschirm zu. Wenn eine Person nicht wirklich woanders hinschaut, könnte dies den Eindruck erwecken, dass sie es tut. In einem anderen Anwendungsszenario könnte jemand Notizen auf dem Bildschirm lesen, während er von der Kamera wegschaut. Wenn die Personen räumlich voneinander getrennt sind, kann es schwierig sein, die digitale Nähe aufrechtzuerhalten. Die Augenausrichtungsfunktion von Maxine kann dabei helfen…
Ich bin davon ausgegangen, dass die Unified-Communications-Branche zu Maxine überlaufen würde, als Nvidia es veröffentlichte, und es anstelle einer internen Entwicklung einsetzen würde. Sowohl RingCentral als auch Avaya nutzen die Nvidia-Lösung, um künstliche Intelligenz in ihren jeweiligen Spaces-Produkten zu ermöglichen. Medienorganisationen und andere Unternehmen, die Maxine für die Produktion von Inhalten nutzen, haben die Software größtenteils übernommen.
Eine stärkere Verbreitung von UCaaS- und CCaaS-Anbietern ist ein vorrangiges Ziel, wie ich aus meinen Gesprächen mit Nvidia erfahren habe. Wir hatten eine Diskussion über die Zukunft der Branche und darüber, wie sich die Cloud-Kommunikation entwickeln wird, obwohl sie keinen Plan vorgelegt haben. Entsprechend den Markttrends gehe ich davon aus, dass Nvidia erklären wird, dass Maxine sich in eine Cloud-native Plattform und nicht in einen schwerfälligen Software-Stack verwandelt hat. Obwohl ich mir nicht sicher bin, ob dies auf dieser GTC oder auf der großen Veranstaltung im Frühjahr geschehen wird, scheint dies der nächste Evolutionsschritt des Produkts zu sein.
Derzeit werden die KI-SDKs von Maxine für Augmented Reality, Audio- und Videoeffekte von Unternehmen genutzt, die davon profitieren wollen. Das ist nicht falsch, wenn auch mit etwas mühsamer Entwicklungsarbeit verbunden. Mit einem Cloud-nativen Design von Maxine könnten die Kunden Microservices nutzen und problemlos weitere Funktionen hinzufügen.
Außerdem sind die Roadmaps fast aller UCaaS/CCaaS-Anbieter auf ein Cloud-natives Design ausgerichtet. Bis vor kurzem waren die meisten Cloud-Kommunikationssysteme auf der Grundlage monolithischer Software-Stacks aufgebaut. Seitdem hat jeder einzelne von ihnen – einschließlich RingCentral und Avaya – seine Backends aktiv auf Cloud-Native umgestellt. Für diese Gruppe von Unternehmen wäre es sehr viel einfacher, davon zu profitieren, wenn Nvidia Maxine auf ein vergleichbares Design aufrüstet.
Diese Änderung wäre für Nvidia von großem Vorteil. Mit Ausnahme von Cisco und Microsoft ist keiner der Anbieter von Cloud-Kommunikationsdiensten groß genug, um über eigene KI-Teams zu verfügen. Um Funktionen schneller implementieren zu können, als wenn sie sie selbst entwickeln würden, wollen sie bei der künstlichen Intelligenz zusammenarbeiten. Maxine würde durch den Einsatz von Microservices schneller eingeführt werden, so dass die Anbieter neue Funktionen testen können, ohne den aufwändigen SDK-Entwicklungsprozess durchlaufen zu müssen.
Übersetzung aus dem Englischen, den Originalartikel finden Sie hier: Nvidia Maxine: content creation applications for video conferencing and live streaming