Experimentelle Implementierung eines optischen Kanalentzerrers für ein neuronales Netzwerk in eingeschränkter Hardware unter Verwendung von Beschneidung und Quantisierung

Wissenschaftliche Berichte Band 12, Artikelnummer: 8713 (2022) Diesen Artikel zitieren

1355 Zugriffe

3 Zitate

1 Altmetrisch

Details zu den Metriken

Der Einsatz von auf künstlichen neuronalen Netzen basierenden optischen Kanalentzerrern auf Edge-Computing-Geräten ist für die nächste Generation optischer Kommunikationssysteme von entscheidender Bedeutung. Dies ist jedoch immer noch ein äußerst anspruchsvolles Problem, vor allem aufgrund der rechnerischen Komplexität der künstlichen neuronalen Netze (NNs), die für die effiziente Entzerrung nichtlinearer optischer Kanäle mit großem, durch Dispersion induziertem Speicher erforderlich sind. Um den NN-basierten optischen Kanalentzerrer in Hardware zu implementieren, ist eine erhebliche Reduzierung der Komplexität erforderlich, während wir ein akzeptables Leistungsniveau des vereinfachten NN-Modells beibehalten müssen. In dieser Arbeit gehen wir das Problem der Komplexitätsreduzierung an, indem wir Beschneidungs- und Quantisierungstechniken auf einen NN-basierten optischen Kanalentzerrer anwenden. Wir verwenden eine beispielhafte NN-Architektur, das Multi-Layer-Perceptron (MLP), um die Beeinträchtigungen für die Übertragung von 30 GBd pro 1000 km über eine Standard-Singlemode-Faser zu mildern, und zeigen, dass es möglich ist, den Speicher des Equalizers um bis zu 87,12 % zu reduzieren. und seine Komplexität um bis zu 78,34 %, ohne spürbare Leistungseinbußen. Darüber hinaus definieren wir genau die Rechenkomplexität eines komprimierten NN-basierten Equalizers im Sinne der digitalen Signalverarbeitung (DSP). Darüber hinaus untersuchen wir die Auswirkungen der Verwendung von Hardware mit unterschiedlichen CPU- und GPU-Funktionen auf den Stromverbrauch und die Latenz für den komprimierten Equalizer. Wir verifizieren die entwickelte Technik auch experimentell, indem wir den reduzierten NN-Equalizer auf zwei Standard-Edge-Computing-Hardwareeinheiten implementieren: Raspberry Pi 4 und Nvidia Jetson Nano, die zur Verarbeitung der durch Simulation der Signalausbreitung im Glasfasersystem erzeugten Daten verwendet werden .

Optische Kommunikation bildet das Rückgrat der globalen digitalen Infrastruktur. Heutzutage sind optische Netzwerke die Hauptanbieter des globalen Datenverkehrs. Sie verbinden nicht nur Milliarden von Menschen miteinander, sondern unterstützen auch den Lebenszyklus einer Vielzahl unterschiedlicher autonomer Geräte, Maschinen und Steuerungssysteme. Einer der Hauptfaktoren, die den Durchsatz moderner Glasfaser-Kommunikationssysteme begrenzen, sind die durch Nichtlinearität verursachten Übertragungsbeeinträchtigungen1,2, die sowohl aus der nichtlinearen Reaktion des Glasfasermediums als auch aus den Systemkomponenten resultieren. Zu den bestehenden und potenziellen Lösungen für dieses Problem gehören beispielsweise die optische Phasenkonjugation in der Mitte der Spanne, die digitale Rückausbreitung (DBP) und die inverse Volterra-Reihenübertragungsfunktion, um nur einige bemerkenswerte Methoden zu nennen2,3,4. Es sollte jedoch betont werden, dass in der Telekommunikationsbranche der Wettbewerb zwischen möglichen Lösungen nicht nur hinsichtlich der Leistung, sondern auch hinsichtlich der Hardware-Einsatzoptionen, der Betriebskosten und des Stromverbrauchs stattfindet.

In den letzten Jahren sind Ansätze, die auf Techniken des maschinellen Lernens basieren und insbesondere solche, die NNs verwenden, zu einem immer beliebteren Forschungsthema geworden, da die NNs sowohl faser- als auch komponentenbedingte Beeinträchtigungen effizient beseitigen können5,6,7,8, 9,10,11,12,13,14,15. Eine der unkomplizierten Möglichkeiten, ein NN zur Kompensation von Signalverfälschungen in optischen Übertragungssystemen zu verwenden, besteht darin, es als Nachentzerrer7,10,14 in das System einzubinden, ein spezielles Signalverarbeitungsgerät auf der Empfängerseite, das den schädlichen Auswirkungen entgegenwirken soll bei der Datenübertragung entstehen16. Zahlreiche vorangegangene Studien haben das Potenzial dieser Art von Lösung gezeigt7,8. Eine Reihe von NN-Architekturen wurden bereits in verschiedenen Arten optischer Systeme (U-Boot, Langstrecken-, U-Bahn- und Zugangssysteme) analysiert. Zu diesen Architekturen gehören Feed-Forward-NN-Designs wie das in der aktuellen Studie betrachtete MLP7,10,14,15 oder anspruchsvollere NN-Strukturen vom wiederkehrenden Typ10,11,12,17. Der praktische Einsatz von Echtzeit-NN-basierten Kanalentzerrern impliziert jedoch, dass ihre Rechenkomplexität zumindest vergleichbar oder wünschenswerterweise geringer ist als die bestehender konventioneller digitaler Signalverarbeitungslösungen (DSP)18 und bleibt umstritten. Dies ist ein relevanter Aspekt, da die gute Leistung der NNs typischerweise mit der Verwendung einer großen Anzahl von Parametern und Gleitkommaoperationen verbunden ist10. Die hohe Rechenkomplexität führt wiederum zu einem hohen Speicher- und Rechenleistungsbedarf, wodurch der Energie- und Ressourcenverbrauch steigt19,20. Daher steht die Verwendung von NN-basierten Methoden, obwohl sie zweifellos vielversprechend und attraktiv ist, bei der optischen Kanalentzerrung vor einer großen Herausforderung, wo sich die Rechenkomplexität als wichtiger limitierender Echtzeit-Einsatzfaktor herausstellt10,12,20,21. Wir stellen hier fest, dass es natürlich bekannt ist, dass einige NN-Architekturen vereinfacht werden können, ohne ihre Leistung wesentlich zu beeinträchtigen, beispielsweise dank Strategien wie Beschneiden und Quantisieren19,20,22,23,24,25. Allerdings wurde ihre Anwendung in der experimentellen Umgebung der ressourcenbeschränkten Hardware im Zusammenhang mit der kohärenten optischen Kanalentzerrung noch nicht vollständig untersucht. Es ist auch notwendig, den Kompromiss zwischen der Komplexitätsreduzierung und der Verschlechterung der Systemleistung sowie die Auswirkungen der Komplexitätsreduzierung auf den Energieverbrauch des Endgeräts zu verstehen und weiter zu analysieren.

In diesem Artikel wenden wir die Beschneidungs- und Quantisierungstechniken an, um die Hardwareanforderungen eines NN-basierten kohärenten optischen Kanalentzerrers zu reduzieren und gleichzeitig seine Leistung auf einem hohen Niveau zu halten. Wir betonen auch die Bedeutung einer genauen Bewertung der Rechenkomplexität des Equalizers im DSP-Sinne. Neben der Komplexitäts- und Inferenzzeitstudie liegt eine weitere Neuheit und ein Fortschritt unserer Arbeit in der Analyse des Energieverbrauchs und der Untersuchung der Auswirkungen, die die Eigenschaften sowohl der Hardware als auch des Modells auf diese Metriken haben.

Wir entwickeln und bewerten experimentell die Leistung eines NN-basierten Equalizers mit geringer Komplexität, der auf ressourcenbeschränkter Hardware eingesetzt werden kann und gleichzeitig nichtlineare Übertragungsbeeinträchtigungen in einem simulierten optischen Kommunikationssystem erfolgreich mildern kann. Dies wird durch die Anwendung der Beschneidungs- und Quantisierungstechniken auf das NN23 und durch die Untersuchung des optimalen Kompromisses zwischen der Komplexität der NN-Lösung und ihrer Leistung erreicht. Die erzielten Ergebnisse lassen sich in drei Hauptkategorien einteilen.

Zunächst quantifizieren wir, wie sich Techniken zur Komplexitätsreduzierung auf die Leistung des NN-Modells auswirken, und legen eine Komprimierungsgrenze für den Kompromiss zwischen optimaler Leistung und Komplexität fest. Zweitens analysieren wir die Rechenkomplexität des beschnittenen und quantisierten NN-basierten Equalizers im Hinblick auf DSP. Abschließend bewerten wir experimentell den Einfluss, den die Eigenschaften der Hardware und des NN-Modells auf die Signalverarbeitungszeit und den Energieverbrauch haben, indem wir Letzteres sowohl auf einem Raspberry Pi 4 als auch auf einem Nvidia Jetson Nano einsetzen.

Nun werfen wir einen kurzen Blick auf die bisherigen Ergebnisse im Bereich der Komprimierungstechniken, die auf NN-basierte Entzerrer in optischen Verbindungen angewendet werden, um die Neuheit unseres aktuellen Ansatzes hervorzuheben. Der Einsatz dieser Techniken zur Reduzierung der NN-Komplexität in optischen Systemen ist offensichtlich kein neues Konzept25. Aufgrund der Frage, wie realistisch die Hardware-Implementierung von NN-basierten Entzerrern in optischen Übertragungssystemen ist, haben die Komprimierungsverfahren jedoch in letzter Zeit eine neue Welle der Aufmerksamkeit erfahren. In einem Übertragungssystem mit Direkterkennung wurde ein parallel beschnittener NN-Entzerrer für 100-Gbit/s-PAM-4-Verbindungen experimentell unter Verwendung der erweiterten Version der One-Shot-Pruning-Methode26 getestet, die den Ressourcenverbrauch ohne nennenswerte Leistungseinbußen um 50 % senkte. Bei der Betrachtung einer kohärenten optischen Übertragung wurde die Komplexität der sogenannten erlernten DBP-Nichtlinearitätsminderungsmethode durch Beschneiden der Koeffizienten in den Filtern mit endlicher Impulsantwort27 reduziert (weitere technische Erläuterungen finden Sie im Abschnitt „Methoden“ weiter unten). In diesem Fall kann durch die Verwendung einer Kaskade von drei Filtern ein Sparsity-Level von etwa 92 % erreicht werden, ohne dass dies einen vernachlässigbaren Einfluss auf die Gesamtleistung hat. Kürzlich wurden einige fortschrittliche Techniken zur Vermeidung von Multiplikationen in solchen Entzerrern mithilfe der additiven Zweierpotenzen-Quantisierung getestet28. In der letztgenannten Arbeit konnten 99 % der Gewichte mithilfe fortschrittlicher Pruning-Techniken entfernt werden, und anstelle von Multiplikationen waren lediglich Bit-Shift-Operationen erforderlich. Keine dieser Arbeiten befasst sich jedoch mit der experimentellen Demonstration der Hardware-Implementierung, und unsere Studie befasst sich genau mit dem letztgenannten Problem.

Im Gegensatz zu früheren Arbeiten implementieren wir in der aktuellen Studie den komprimierten NN-basierten Equalizer für den kohärenten optischen Kanal in zwei verschiedenen Hardwareplattformen: einem Raspberry Pi 4 und einem Nvidia Jetson Nano. Wir bewerten außerdem die Auswirkungen der Komprimierungstechniken auf die Latenz des Systems für jeden Hardwaretyp und untersuchen den Kompromiss zwischen Leistung und Komplexität. Abschließend führen wir eine Analyse des Energieverbrauchs und der Auswirkungen durch, die die Eigenschaften der Hardware und des NN-Modells darauf haben.

Um die Verwendung eines MLP als NN-basierten Equalizer zu berücksichtigen, wurde ein genaues Messsystem sowohl für die Inferenzzeit als auch für den Stromverbrauch sowohl auf einem Raspberry Pi als auch auf einem Nvidia Jetson Nano entwickelt, sodass die Auswirkungen, die Beschneidung und Quantisierung auf diese Metriken hat, kann charakterisiert werden (siehe Abschnitt „Methoden“ unten für eine detaillierte Erklärung). In Ref. 10,14 wurde der nichtkomprimierte MLP-Nachentzerrer betrachtet und es wurde gezeigt, dass er die durch Nichtlinearität verursachten Beeinträchtigungen in einem kohärenten optischen Kommunikationssystem erfolgreich kompensieren kann. Wir analysieren die Leistung des Equalizers im Hinblick auf den standardmäßig erreichten Q-Faktor und verwenden dabei die simulierten Daten für ein 0,1 Root-Raised-Cosine (RRC)-Doppelpolarisationssignal mit 30 GBd und 64-QAM-Modulation für die Übertragung über 20 \(\times\) 50 km lange Verbindungen mit Standard-Singlemode-Glasfaser (SSMF). Wir haben denselben Simulator wie in Ref. 10,29 beschrieben verwendet, um unsere Trainings- und Testdatensätze zu generieren, und dasselbe Verfahren zum Trainieren des NN-basierten Equalizers (weitere Informationen finden Sie im Unterabschnitt „Numerischer Aufbau und neuronales Netzwerkmodell“ in „Methoden“) Einzelheiten). In unserer Konfiguration wird das NN auf der Empfängerseite (Rx) nach dem integrierten kohärenten Empfänger (ICR), dem Analog-Digital-Wandler (ADC) und dem DSP-Block platziert. Dieser letzte Block besteht aus einem angepassten Filter und einem linearen Equalizer. Beim angepassten Filter handelt es sich um denselben RRC-Filter, der auch im Sender verwendet wird. Darüber hinaus besteht der lineare Equalizer aus einer vollständigen CDC-Stufe (Electronic Chromatic Dispersion Compensation) und einem Normalisierungsschritt, siehe Abb. 1. Der CDC verwendet einen Frequenzbereichs-Equalizer und Downsampling auf die Symbolrate, gefolgt von einem Phasen-/Amplitudennormalisierer zu den übermittelten. Dieser Normalisierungsprozess kann als seine Normalisierung durch eine Konstante \(K_\text {DSP}\) betrachtet werden, die mithilfe der folgenden Gleichung gelernt wird:

wobei die Konstanten \({\mathcal {K}}, \, {\mathcal {K}}_\text {DSP} \in {\mathbb {C}}\) und \(x_{h\!/\!v }\) ist das Signal in h- oder v-Polarisation. Es wurden keine anderen Verzerrungen berücksichtigt, die mit den Komponenten innerhalb des Transceivers zusammenhängen.

Für dieses System lag die beste optimale Leistung bei −1 dBm, wobei der Q-Faktor nahe bei 7,8 lag, wie in Abb. 2 zu sehen ist. Anschließend wollten wir die drei nächsten Leistungen untersuchen (z. B. 0 dBm, 1 dBm, und 2 dBm) in Richtung des höheren nichtlinearen Bereichs, wo die Aufgabe des NN komplizierter wäre.

Struktur eines Kommunikationskanals, der mithilfe eines beschnittenen und quantisierten neuronalen Netzwerks ausgeglichen wird, das auf ressourcenbeschränkter Hardware (z. B. einem Raspberry Pi 4 oder einem Nvidia Jetson Nano) eingesetzt wird.

Die Hyperparameter, die die Struktur des NN definieren, werden mit einem Bayes'schen Optimierer (BO)10,30 erhalten, wobei die Optimierung im Hinblick auf die Wiederherstellungsqualitätsleistung des Signals durchgeführt wird (siehe Unterabschnitt „Numerischer Aufbau und neuronales Netzwerkmodell“ in „Methoden“) "). Das resultierende optimierte MLP verfügt über drei verborgene Schichten (wir haben nicht die Anzahl der Schichten, sondern die Anzahl der Neuronen und den Typ der Aktivierungsfunktionen optimiert) mit 500, 10 bzw. 500 Neuronen. (Diese Zahlen wurden als minimale und maximale Gewichtsgrenzen festgelegt, innerhalb derer der BO-Algorithmus die optimale Konfiguration suchte). Die Aktivierungsfunktion „\(\tanh\)“ wurde vom Optimierer ausgewählt und es wird kein Bias verwendet. Das NN nimmt das heruntergesampelte Signal (1 Abtastung pro Symbol) und gibt \(N = 10\) Nachbarsymbole (Anzahl der Abgriffe) in den Entzerrer ein, um das zentrale Signal wiederherzustellen. Diese Speichergröße wurde durch die BO-Prozedur definiert. Das NN wurde nach dem Training und Testen einer Bereinigung und Quantisierung unterzogen. Wir haben die Leistung verschiedener NN-Modelle abhängig von ihrem Sparsitätsgrad analysiert. Letztere lag zwischen 20 und 90 %, mit einer Steigerung um 10 %. Die Gewichte und Aktivierungen werden quantisiert und ihr Datentyp von 32-Bit-Gleitkomma mit einfacher Genauigkeit (FP32) in 8-Bit-Ganzzahl (INT8) konvertiert. Die Quantisierung wurde durchgeführt, um eine Echtzeitnutzung des Modells sowie seinen Einsatz auf ressourcenbeschränkter Hardware zu ermöglichen. Das endgültige System ist in Abb. 1 dargestellt. Der Inferenzprozess (der Signalausgleich) wurde zunächst mit einem MSI GP76 Leopard-Personalcomputer durchgeführt, der mit einem Intel® CoreTM i9-10870H-Prozessor, 32 GB RAM und einer Nvidia RTX2070-GPU ausgestattet war . Die auf diesem Computer erzielten Ergebnisse wurden als Benchmark verwendet und mit denen verglichen, die auf zwei kleinen Einplatinencomputern erzielt wurden: einem Raspberry Pi 4 und einem Nvidia Jetson Nano.

Schließlich wurden die NNs mit TensorFlow entwickelt. Die Bereinigungs- und Quantisierungstechniken wurden mit dem TensorFlow Model Optimization Toolkit – Pruning API und TensorFlow Lite31 implementiert.

Leistungsvergleich für den NN-basierten Equalizer im Vergleich zum regulären DSP.

Beim Entwurf eines NN für einen bestimmten Zweck besteht der traditionelle Ansatz darin, dichte und überparametrisierte Modelle zu verwenden, da diese häufig die Leistungs- und Lernfähigkeiten eines guten Modells bieten32,33. Dies ist auf den Glättungseffekt der Überparametrisierung auf die Verlustfunktion zurückzuführen, der der Konvergenz der zur Optimierung des Modells verwendeten Gradientenabstiegstechniken zugute kommt32. Beim Training eines überparametrisierten Modells müssen jedoch einige Vorsichtsmaßnahmen getroffen werden, da solche Modelle häufig dazu neigen, sich zu überanpassen, und ihre Generalisierungsfähigkeit beeinträchtigt werden kann32,34.

Die durch Überparametrisierung erzielte gute Leistung geht zu Lasten größerer Rechen- und Speicherressourcen. Dies führt auch zu einer längeren Inferenzzeit (Latenzwachstum) und einem höheren Energieverbrauch. Beachten Sie, dass diese Kosten die Folge von Parameterredundanz und einer großen Anzahl von Gleitkommaoperationen sind20,23. Daher lassen sich die Fähigkeiten hochkomplexer NN-basierter Equalizer noch nicht auf Endbenutzeranwendungen auf ressourcenbeschränkter Hardware übertragen. Daher ist die Verringerung der Lücke zwischen den algorithmischen Lösungen und den experimentellen realen Implementierungen ein zunehmend aktives Forschungsthema. In den letzten Jahren wurden erhebliche Anstrengungen in die Entwicklung von Techniken investiert, die dazu beitragen können, die NNs zu vereinfachen, ohne ihre Leistung wesentlich zu beeinträchtigen. Diese Techniken werden unter dem Begriff „NNs-Komprimierungsmethoden“ zusammengefasst. Die gebräuchlichsten Ansätze sind: Verkleinerung der Modelle, Faktorisierung der Operatoren, Quantisierung, gemeinsame Nutzung von Parametern oder Bereinigung20,23,24. Wenn diese Techniken angewendet werden, wird das endgültige Modell in der Regel viel weniger komplex und daher verringert sich seine Latenz bzw. die Zeit, die zur Erstellung einer Vorhersage benötigt wird, was auch zu einem geringeren Energieverbrauch führt20. In dieser Arbeit konzentrieren wir uns sowohl auf die Bereinigung als auch auf die Quantisierung zur Komprimierung unseres NN-Equalizers und quantifizieren einen Kompromiss zwischen Komplexitätsreduzierung und Systemleistung. Eine detaillierte Beschreibung beider Ansätze finden Sie im Abschnitt „Methoden“.

Zunächst stellen wir fest, dass die Komplexitätsreduzierung des Equalizers seine Leistung nicht drastisch beeinträchtigen darf, dh die Leistung des Systems muss weiterhin in einem akzeptablen Bereich liegen. In Abb. 3a ist der vom NN-Entzerrer erreichte Q-Faktor im Vergleich zu verschiedenen Sparsity-Werten für drei Einkopplungsleistungspegel dargestellt: 0 dBm, blau; 1 dBm, rot; und 2 dBm, grün. Die Ergebnisse werden anhand gepunkteter Linien und Sterne dargestellt, die auf dem PC, Raspberry Pi und Nvidia Jetson Nano unter Verwendung des beschnittenen und quantisierten Modells erzielt wurden. Für jede dieser Startleistungen werden zwei Basislinien für den Q-Faktor dargestellt: Eine entspricht dem durch das unkomprimierte Modell erreichten Niveau, definiert durch die geraden Linien, während die andere den Maßstab darstellt, wenn wir keine NN-Entzerrung und -Nutzung verwenden nur standardmäßige lineare chromatische Dispersionskompensation plus Phasen-/Amplitudennormalisierung (LE, lineare Entzerrung); Die letztgenannten Stufen für die drei verschiedenen Startleistungen sind durch gepunktete Linien in den entsprechenden Farben gekennzeichnet.

Abbildung 3b quantifiziert den Einfluss, den jede Komprimierungstechnik auf die Leistung hat: In dieser Abbildung haben wir den vom NN-Entzerrer erzielten Q-Faktor im Vergleich zu verschiedenen Sparsity-Werten für die 1-dBm-Einkopplungsleistung aufgetragen. Die blauen und roten geraden Linien stellen den Q-Faktor des Originalmodells und den von ihm nach der Quantisierung erreichten Q-Faktor dar. Die gepunkteten Linien mit Sternchen zeigen die Leistung eines Modells, das nur beschnitten wurde (blau), und die Leistung sowohl bei Beschneidung als auch bei Quantisierung (rot). Es zeigt sich, dass eine wesentliche Reduzierung der Komplexität erreicht werden kann, ohne dass es zu einer dramatischen Verschlechterung der Leistung kommt. Auch die geringe Dichte, bei der es zu einer schnellen Verschlechterung der Leistung kommt, ist in dieser Abbildung deutlich zu erkennen.

(a) Der für beschnittene und quantisierte Modelle erreichte Q-Faktor im Vergleich zum Grad der Sparsity für Datensätze, die drei Startleistungen entsprechen: 0 dBm, 1 dBm und 2 dBm; Die durchgezogenen Linien entsprechen dem vom Originalmodell erreichten Q-Faktor. Die gestrichelten Linien zeigen den Q-Faktor, wenn nur eine lineare Entzerrung (LE) implementiert ist. (b) Nach dem Beschneiden erreichter Q-Faktor im Vergleich zu dem, der sowohl nach dem Beschneiden als auch der Quantisierung erreicht wurde, für verschiedene Sparsity-Level und für einen Datensatz, der der 1-dBm-Startleistung entspricht. Die blauen und roten durchgezogenen Linien entsprechen dem vom Originalmodell erreichten Q-Faktor bzw. dem von diesem Modell nach der Quantisierung erreichten Q-Faktor.

Erstens lässt sich aus Abb. 3a erkennen, dass der Quantisierungs- und Beschneidungsprozess erst dann zu einer signifikanten Leistungsverschlechterung führt, wenn ein Sparsity-Niveau von 60 % erreicht ist, bei lediglich einer Leistungsreduzierung von \(4\%). Wenn wir jedoch zu Sparsity-Niveaus um die 90 % übergehen, ist die Leistung nahe an der Leistung, die mit einer linearen Entzerrung erreicht wird (d. h. die Q-Faktor-Kurven fallen auf die mit gestrichelten Linien derselben Farbe markierten Niveaus).

Wir können daraus schließen, dass bei einem Sparsity-Level über 60 % der Leistungsabfall hauptsächlich auf den Quantisierungsprozess zurückzuführen ist. Bei der Quantisierung eines bereits bereinigten Modells wurde auch ein Rückgang des Q-Faktor-Werts um fast 2,5 % beobachtet. Sobald die Sparsity-Werte über 60 % liegen, beschleunigt sich der Leistungsabfall aufgrund der Quantisierung. Darüber hinaus beobachten wir, dass ein gewisses Maß an Sparsifizierung sogar die Leistung des Modells im Vergleich zum ungekürzten Modell verbessern kann. Dieses Verhalten wurde bereits in anderen Studien berichtet und es wurde festgestellt, dass es speziell für die überparametrisierten Modelle relevant ist. Daher weisen die NNs mit weniger komplexen Strukturen aufgrund der Beschneidung mit geringer Sparsität keine solche Leistungssteigerung auf, was es unmöglich macht, ein derart gutes Leistungs-Komplexitäts-Verhältnis zu erreichen32,33,35,36.

Abbildung 4 zeigt die Verringerung der Größe des Modells sowie der Rechenkomplexität des Modells für verschiedene Sparsity-Werte nach Anwendung der Quantisierung. Die Definition der Metriken, die zur Berechnung der Rechenkomplexität sowie der Größe der Modelle verwendet werden, finden Sie in den Unterabschnitten „Metriken der Rechenkomplexität und Metriken der Speichergröße“ unter „Methoden“. Insgesamt haben wir eine Reduzierung der Speichergröße um 87,12 % erreicht, nachdem wir 60 % der NN-Equalizer-Gewichte beschnitten und die verbleibenden quantisiert haben. Dadurch verringerte sich die Größe des Modells von 201,4 auf 25,9 Kilobyte. Die Verringerung der Rechenkomplexität des Modells geht von 75.960.427,38 auf 16.447.962 Bitoperationen (BoPs) nach Anwendung derselben Komprimierungsstrategie, was einer Reduzierung um \(78,34\%\) entspricht (siehe die explizite Definition von BoPs im Abschnitt „Methoden“) ). Wir möchten noch einmal darauf hinweisen, dass Sparsity-Werte von \(60\%\) ohne nennenswerten Leistungsverlust erreicht werden können. Daher kann mit einem Modell, das deutlich weniger komplex ist als die ursprüngliche NN-Struktur, annähernd das gleiche hohe Leistungsniveau erreicht werden, was eines der Hauptergebnisse unserer Arbeit ist.

Komplexitäts- und Größenreduzierung durch Beschneiden und Quantisierung für verschiedene Sparsitätsgrade. Die gestrichelte schwarze Linie stellt die Referenzkomplexität dar, wenn nur Quantisierung angewendet wird.

Es ist erwähnenswert, welche individuellen Auswirkungen Quantisierung und Bereinigung auf die Rechenkomplexität des Modells haben. Wenn die Rechenkomplexität für ein quantisiertes, aber ungekürztes Modell berechnet wird, beträgt die Anzahl der BOPs 23.321.563. Vergleicht man diesen Wert also mit den bereits erwähnten 75.960.427 BoPs für das ungekürzte und unquantisierte NN, ergibt sich dank der Quantisierung eine Komplexitätsreduktion von 69,3 %. Wie in Abb. 4 zu sehen ist, stammt der verbleibende Gewinn aus der Beschneidungstechnik und wächst linear, wie in Gl. (5).

Zahlreiche Deep-Learning-Anwendungen sind latenzkritisch und daher muss die Inferenzzeit innerhalb der durch die Service-Level-Ziele festgelegten Grenzen liegen. Ein gutes Beispiel hierfür sind optische Kommunikationsanwendungen, die Deep-Learning-Techniken nutzen. Beachten Sie, dass die Latenz stark von der Implementierung des NN-Modells und der verwendeten Hardware (z. B. FPGA, CPU, GPU) abhängt. Weitere Einzelheiten zu den Inferenzzeitmessungen der Geräte finden Sie im Abschnitt „Methoden“.

Bei der Messung der Inferenzzeit für die verschiedenen Hardwaretypen und das quantisierte Modell, bei dem 60 % seiner Gewichtungen bereinigt wurden, ergeben sich folgende Ergebnisse:

Latenz Raspberry Pi: \(\mu = 0,81~s\) und \(\sigma = \pm 0,035\)

Nvidia Jetson Nano Latenz: \(\mu=0,53~s\) und \(\sigma=\pm 0,022\)

Latenz PC: \(\mu = 0,1~s\) und \(\sigma =0,006\)

Im Fall des unbereinigten und unquantisierten Modells:

Latenz Raspberry Pi: \(\mu = 1,84~s\) und \(\sigma = \pm 0,08\)

Nvidia Jetson Nano Latenz: \(\mu = 1,22~s\) und \(\sigma=\pm 0,052 s\)

Latenz PC: \(\mu = 0,18~s\) und \(\sigma = \pm 0,008\)

Abbildung 5 zeigt die Latenz des betrachteten NN-Modells vor und nach der Quantisierung. Wir bemerken, dass die Ergebnisse auf eine Art und Weise ausgedrückt werden, die der jeweiligen Aufgabe besser entspricht. Daher ist die Latenz als die Zeit definiert, die zur Verarbeitung eines Symbols benötigt wird: Wir haben sie über 30.000 Symbole gemittelt. Mit dem quantisierten Modell beobachten wir im Vergleich zum Originalmodell eine Reduzierung der Latenz um etwa 56 % für alle drei Leistungswerte. Wir müssen beachten, dass das Beschneiden nicht berücksichtigt wird, da es diese Metrik nicht beeinflusst, da Tensorflow Lite noch keine spärliche Inferenz unterstützt, wodurch der Algorithmus immer noch die gleiche Menge an Cache-Speicher verwendet. Außerdem konnten wir beobachten, dass der Raspberry Pi unter unseren Geräten die längste Inferenzzeit hat. Dies steht im Einklang mit der Tatsache, dass Raspberry als kostengünstiger und universell einsetzbarer Einplatinencomputer konzipiert ist37. Andererseits wurde der Nvidia Jetson Nano mit GPU-Fähigkeiten entwickelt, was ihn besser für Deep-Learning-Anwendungen geeignet macht und uns ermöglicht, geringere Latenzen zu erreichen.

Zusammenfassung der Symbolverarbeitungszeit (Inferenzzeit) für die komprimierten NN-Modelle (nach Beschneidung und Quantisierung) und die Originalmodelle für drei zu evaluierende Geräte: einen Raspberry Pi 4, einen Nvidia Jetson Nano und einen Standard-PC.

Im Kontext des Edge Computing ist nicht nur die Geschwindigkeit ein wichtiger Faktor, sondern auch die Energieeffizienz. In dieser Arbeit ist die Metrik, die zur Bewertung des Energieverbrauchs und zum Vergleich der verschiedenen Hardwaretypen für die kohärente optische Kanalausgleichsaufgabe verwendet wird, die Energie pro wiederhergestelltem Symbol. Bei Verwendung eines quantisierten Modells mit einem Bereinigungsgrad von 60 % beträgt der durchschnittliche Energieverbrauch während der Inferenz für den Raspberry Pi 4 und den Nvidia Jetson Nano 2,98 W (\(\sigma = \pm 0,012\) ) und 3,03 W (\( \sigma = \pm 0,017\)). Bei Verwendung des Originalmodells ergibt sich dagegen ein Anstieg des Energieverbrauchs um etwa 3 %, was mit den Erkenntnissen früherer Arbeiten übereinstimmt23. Somit verbraucht der Raspberry Pi 4 während der Inferenz 3,06 W (\(\sigma = \pm 0,011\) ) und der Nvidia Jetson Nano 3,13 W (\(\sigma = \pm 0,015\)). Durch Multiplizieren dieser Werte mit den in Abb. 5 angegebenen NN-Verarbeitungszeiten pro wiederhergestelltem Symbol erhalten wir die in Abb. 6 dargestellten Ergebnisse. Wir stellen fest, dass Raspberry Pi den höchsten Energieverbrauch pro wiederhergestelltem Symbol aufweist. Dies ist eine Folge des Fehlens einer GPU, was zu längeren Inferenzzeiten führt. Somit verbraucht der Nvidia Jetson Nano 33,78 % weniger Energie als der Raspberry Pi 4. Bezüglich Beschneidung und Quantisierung ermöglicht der Einsatz dieser Techniken eine Energieeinsparung von 56,98 % beim Raspberry Pi 4 und 57,76 % beim Nvidia Jetson Nano.

Es muss beachtet werden, dass TensorFlow Lite zwar keine spärliche Inferenz unterstützt und das Bereinigen daher nicht zur Verkürzung der Inferenzzeit beiträgt, sich jedoch auf die Größe des Modells auswirkt. Dies wirkt sich aufgrund des geringeren Ressourcenverbrauchs direkt auf den Stromverbrauch des Geräts aus. Im Gegensatz dazu wirkt sich die Quantisierung positiv auf beide Parameter aus, da Formate mit geringerer Präzision verwendet und die Größe des Modells verringert werden. Daher hat es einen stärkeren Einfluss auf den Energieverbrauch. Dies spiegelt sich in den in diesem Abschnitt dargelegten Ergebnissen wider. Darüber hinaus stimmt es mit den Ergebnissen früherer Studien überein23,38.

Weitere Einzelheiten zur Messung des Energieverbrauchs finden Sie im Abschnitt „Methoden“.

Energieverbrauch für Raspberry Pi 4 und Nvidia Jetson Nano. Der blaue Abschnitt stellt den Energieverbrauch pro wiederhergestelltem Symbol bei Verwendung des komprimierten Modells dar, und seine relativen Energiekosten werden als Prozentsatz in Bezug auf die Summe der vom ursprünglichen und komprimierten Modell verbrauchten Energie ausgedrückt. Ebenso beschreibt der rote Abschnitt den Energieverbrauch pro wiederhergestelltem Symbol bei Verwendung des Originalmodells und seine relativen Energiekosten.

In unserer Arbeit haben wir untersucht, wie wir mithilfe von Pruning und Quantisierung die Komplexität der Hardware-Implementierung eines NN-basierten Kanalentzerrers in einem kohärenten optischen Übertragungssystem reduzieren können. Damit haben wir die Implementierung des entworfenen Equalizers experimentell getestet, wobei wir einen Raspberry Pi 4 und einen Nvidia Jetson Nano verwendet haben. Es wurde gezeigt, dass es dank der beiden oben genannten Komprimierungstechniken möglich ist, die Speichernutzung des NN um \(87,12\%\) und die Rechenkomplexität des NN um \(78,34\%\) zu reduzieren, ohne dass es zu ernsthaften Leistungseinbußen kommt.

Darüber hinaus wurde der Effekt der Verwendung verschiedener Hardwaretypen experimentell charakterisiert, indem die Inferenzzeit und der Energieverbrauch sowohl in einem Raspberry Pi 4 als auch in einem Nvidia Jetson Nano gemessen wurden. Wir weisen jedoch darauf hin, dass wir nur mit den Edge-Geräten experimentiert haben und die Daten aus dem Kommunikationssystem durch Simulationen gewonnen wurden; Wir gehen jedoch nicht davon aus, dass die Ergebnisse hinsichtlich des Kompromisses zwischen Leistung und Komplexität, die dank Beschneidung und Quantisierung für das echte optische System erzielt werden, ernsthaft abweichen würden. Es wurde nachgewiesen, dass der Nvidia Jetson Nano 34 % schnellere Inferenzzeiten als der Raspberry Pi ermöglicht und dass dank des Quantisierungsprozesses eine Reduzierung der Inferenzzeit um 56 % erreicht werden kann. Schließlich erreichen wir durch den Einsatz von Beschneidungs- und Quantisierungstechniken eine Energieeinsparung von 56,98 % beim Raspberry Pi 4 und 57,76 % beim Nvidia Jetson Nano; Wir haben außerdem festgestellt, dass das letztere Gerät 33,78 % weniger Energie verbraucht.

Insgesamt zeigen unsere Ergebnisse, dass der Einsatz von Beschneidung und Quantisierung eine geeignete Strategie für die Implementierung von NN-basierten Equalizern sein kann, die in optischen Hochgeschwindigkeitsübertragungssystemen effizient sind, wenn sie auf ressourcenbeschränkter Hardware eingesetzt werden. Wir glauben, dass diese Modellkomprimierungstechniken für den Einsatz von NN-basierten Entzerrern in realen optischen Kommunikationssystemen und für die Entwicklung neuartiger Online-Tools zur optischen Signalverarbeitung verwendet werden können. Wir hoffen, dass unsere Ergebnisse auch für Forscher von Interesse sein können, die Sensor- und Lasersysteme entwickeln, wo die Anwendung von maschinellem Lernen zur Feldverarbeitung und -charakterisierung ein sich schnell entwickelndes Forschungsgebiet ist39.

Wir haben die Dualpolarisationsübertragung (DP) eines Einkanalsignals bei 30 GBd numerisch simuliert. Das Signal wird mit einem Root-Raised-Cosine-Filter (RRC) mit 0,1 Roll-off und einer Abtastrate von 8 Samples pro Symbol vorgeformt. Darüber hinaus ist das Signalmodulationsformat 64-QAM. Wir haben den Fall einer Übertragung über 20 \(\times\) 50 km lange SMF-Verbindungen betrachtet. Die Ausbreitung des optischen Signals entlang der Faser wurde durch Lösen der Manakov-Gleichung mithilfe der Split-Step-Fourier-Methode40 mit einer Auflösung von 1 km pro Schritt simuliert. Die betrachteten Parameter der TWC-Faser sind: der Dämpfungsparameter \(\alpha = 0,23 dB/km\), der Dispersionskoeffizient \(D = 2,8\) ps/(nm \(\times\) km) und der effektive Nichtlinearitätskoeffizient \(\gamma = 2,5\) (W \(\times\) km)\(^{-1}\). Die SSMF-Parameter sind: \(\alpha = 0,2\) dB/km, \(D = 17\) ps/(nm \(\times\) km) und \(\gamma = 1,2\) (W \( \times\) km)\(^{-1}\). Darüber hinaus wurde nach jedem Abschnitt ein optischer Verstärker mit der Rauschzahl NF = 4,5 dB platziert, um Faserverluste vollständig zu kompensieren und zusätzliches Rauschen der verstärkten spontanen Emission (ASE) hinzuzufügen. Beim Empfänger kam ein Standard-Rx-DSP zum Einsatz. Es bestand aus der vollständigen elektronischen chromatischen Dispersionskompensation (CDC) unter Verwendung eines Frequenzbereichsentzerrers, der Anwendung eines angepassten Filters und dem Downsampling auf die Symbolrate. Schließlich wurden die empfangenen Symbole (nach Phase und Amplitude) auf die gesendeten normalisiert. In dieser Arbeit wurden keine zusätzlichen Transceiver-Verzerrungen berücksichtigt. Nach dem Rx-DSP wird die Bitfehlerrate (BER) anhand der gesendeten Symbole, der empfangenen Soft-Symbole und der Hard-Entscheidungen nach der Entzerrung geschätzt.

Das NN empfängt als Eingabe einen Tensor mit einer durch drei Dimensionen definierten Form: (B, M, 4), wobei B die Mini-Batch-Größe und M die Speichergröße ist, die durch die Anzahl der Nachbarn N als \(M = 2N) bestimmt wird + 1\), und 4 ist die Anzahl der Merkmale für jedes Symbol, die dem Real- und Imaginärteil zweier Polarisationskomponenten entsprechen. Das NN muss den Real- und Imaginärteil des k-ten Symbols einer der Polarisationen wiederherstellen. Daher kann die Form des NN-Ausgabestapels als (B, 2) ausgedrückt werden. Diese Aufgabe kann als Regressions- oder Klassifizierungsaufgabe behandelt werden. Dieser Aspekt wurde in früheren Studien berücksichtigt und festgestellt, dass die durch Regressions- und Klassifizierungsalgorithmen erzielten Ergebnisse ähnlich sind, bei der Regression jedoch weniger Epochen erforderlich sind. Daher wird in diesem Dokument der Verlustschätzer des mittleren quadratischen Fehlers (MSE) verwendet, da es sich um die Standardverlustfunktion handelt, die bei Regressionsaufgaben verwendet wird41. Die Verlustfunktion wird mithilfe des Adam-Algorithmus42 mit der Standardlernrate von 0,001 optimiert. Die maximale Anzahl von Epochen während des Trainingsprozesses betrug 1000, da er früher gestoppt wurde, wenn sich der Wert der Verlustfunktion über 150 Epochen hinweg nicht änderte. Nach jeder Trainingsepoche haben wir die mithilfe des Testdatensatzes ermittelte BER berechnet. Die optimale Anzahl von Neuronen und Aktivierungsfunktionen in jeder Schicht des NN sowie der Speicher (Eingabe) des Systems wurden mithilfe des Bayes'schen Optimierungsalgorithmus (BO) abgeleitet. Die getesteten Werte für die Anzahl der Neuronen waren \(n \in [10, 500]\) . Für die Aktivierungsfunktion musste der BO wählen zwischen: „\(\tanh\)“, „ReLu“, „sigmoid“ und „LeackyReLu“. Die für den Speicher (Eingabe) des Systems getesteten Werte waren \(N \in [5, 50]\) Die Metrik des BO war die BER, wobei die Hyperparameter gefunden wurden, die dazu beitrugen, die BER durch eine Validierung so weit wie möglich zu reduzieren Datensatz von \(2^{17}\) Datenpunkten. Die endgültige Lösung war die Verwendung von „\(\tanh\)“ als Aktivierungsfunktion und 500, 10 bzw. 500 Neuronen für die erste, zweite und dritte Schicht. Die Trainings- und Testdatensätze bestanden aus unabhängig generierten Symbolen der Länge jeweils \(2^{18}\). Um eine mögliche Datenperiodizität und Überschätzung43,44 zu verhindern, wurde eine Pseudozufallsbitfolge (PRBS) der Ordnung 32 verwendet, um diese Datensätze mit unterschiedlichen Zufallsstartwerten für jeden von ihnen zu generieren. Die Periodizität der Daten ist daher \(2^{12}\)-mal höher als die Größe unseres Trainingsdatensatzes. Für die Simulation wurde der Mersenne-Twister-Generator45 mit verschiedenen Zufallskeimen verwendet. Darüber hinaus wurden die Trainingsdaten gemischt, bevor sie als Eingabe für das NN verwendet wurden.

Abschließend möchten wir auf einen wichtigen Punkt hinweisen, nämlich die Notwendigkeit einer regelmäßigen Neuschulung des Equalizers auf realistische Übertragung. In diesem Fall könnte dies Anlass zur Sorge geben. Dieses Problem wurde bereits in früheren Studien angesprochen29, in denen gezeigt wurde, dass der Einsatz von Transferlernen die Trainingszeit und den Trainingsdatenbedarf drastisch reduzieren kann, wenn Änderungen am Übertragungsaufbau vorgenommen werden.

Durch Beschneiden können die redundanten NN-Elemente entfernt werden, um das Netzwerk dünner zu machen, ohne seine Fähigkeit, eine erforderliche Aufgabe auszuführen, wesentlich einzuschränken24,32,46. Dadurch werden Netzwerke mit geringerer Größe und Rechenkomplexität erhalten, was zu geringeren Hardwareanforderungen sowie schnelleren Vorhersagezeiten führt23,24. Darüber hinaus fungiert das Pruning als Regularisierungstechnik und verbessert die Modellqualität, indem es dazu beiträgt, Überanpassungen zu reduzieren32. Darüber hinaus kann das erneute Training eines bereits bereinigten NN dazu beitragen, lokale Verlustfunktionsminima zu umgehen, was zu einer besseren Vorhersagegenauigkeit führen kann24. Daher können oft weniger komplexe Modelle erstellt werden, ohne dass sich dies spürbar auf die Leistung des NN auswirkt32.

Abhängig davon, was beschnitten werden soll, können die Sparsifizierungstechniken in zwei Typen eingeteilt werden: Modell-Sparsifizierung und kurzlebige Sparsifizierung32. Im ersten Fall wird die Sparsifizierung dauerhaft auf das Modell angewendet, während im zweiten Fall die Sparsifizierung erst während des Rechenvorgangs erfolgt. In unserer Arbeit werden wir die Modellsparsifizierung verwenden, da sie Auswirkungen auf die Rechen- und Speicherhardwareanforderungen des endgültigen NN hat. Darüber hinaus kann die Sparsifizierung des Modells darin bestehen, nicht nur Gewichte, sondern auch größere Bausteine wie Neuronen, Faltungsfilter usw. zu entfernen.32. Der Einfachheit halber und soweit es mit der betrachteten NN-Struktur (dem MLP) übereinstimmt, wenden wir hier das Pruning nur auf die Gewichte des Netzwerks an.

Nachdem Sie definiert haben, was beschnitten werden soll, müssen Sie festlegen, wann der Beschnitt erfolgen soll. Auf dieser Grundlage gibt es zwei Hauptarten des Beschneidens: statisch und dynamisch24. Im statischen Fall werden die Elemente nach dem Training aus dem NN entfernt. Um den Effekt zu demonstrieren, verwenden wir in dieser Arbeit aufgrund ihrer Einfachheit die statische Beschneidungsvariante.

Der statische Rückschnitt erfolgt grundsätzlich in drei Schritten. Zuerst entscheiden wir, was beschnitten werden muss. Ein einfacher Ansatz zum Definieren der Beschneidungsobjekte kann darin bestehen, die Leistung des NN mit und ohne bestimmte (beschnittene) Elemente zu bewerten. Dies führt jedoch zu Skalierbarkeitsproblemen: Wir müssen die Leistung beim Beschneiden der einzelnen NN-Parameter bewerten, und davon kann es Millionen geben.

Alternativ ist es möglich, die zu entfernenden Elemente zufällig auszuwählen, was schneller geht32,47,48. Diesem letztgenannten Ansatz folgend, haben wir uns im Vorfeld entschieden, die Gewichte zu beschneiden. Sobald entschieden wurde, welche Elemente beschnitten werden sollen, müssen die Kriterien festgelegt werden, wie die Elemente aus dem NN entfernt werden sollen, um sicherzustellen, dass ein hohes Maß an Sparsity ohne nennenswerten Leistungsverlust erreicht wird. Bei der Beschneidung der Gewichte des NN ist es möglich, sie basierend auf verschiedenen Aspekten zu entfernen: unter Berücksichtigung ihrer Größe (d. h. die Gewichte mit Werten nahe Null sollen beschnitten werden, wobei der Beschneidungsprozentsatz durch den von uns angestrebten Sparsitätsgrad definiert wird erreichen) oder ihre Ähnlichkeit (wenn zwei Gewichte einen ähnlichen Wert haben, wird nur eines davon beibehalten); wir erwähnen, dass es auch die anderen Auswahlverfahren gibt32,48. Hier wählen wir die relativ einfache Strategie zum Beschneiden von Gewichten basierend auf ihrer Größe aus. In Abb. 7 zeigen wir die Auswirkung, wenn wir unseren NN-Equalizer um 40 % beschnitten haben. Beim Vergleich der Gewichtsverteilungen des ursprünglichen und des beschnittenen Modells wird deutlich, dass der Sparsity-Grad die Anzahl der Gewichtungen definiert, die beschnitten werden müssen. Daher beginnt der Beschneidungsprozess mit der Entfernung des kleinsten Gewichts und wird fortgesetzt, bis der gewünschte Grad der Sparsamkeit erreicht ist. Abschließend sollte eine Umschulungs- oder Feinabstimmungsphase durchgeführt werden, um die Verschlechterung der modifizierten NN-Leistung zu verringern24.

Bei der Bereinigung mit der Tensorflow Model Optimization API ist es notwendig, einen Bereinigungsplan zu definieren, um diesen Prozess zu steuern, indem bei jedem Schritt die Ebene mitgeteilt wird, auf der die Ebene bereinigt werden soll49. In dieser Arbeit wird der als Polynomial Decay bekannte Zeitplan verwendet. Das Hauptmerkmal dieser Art von Zeitplan besteht darin, dass eine polynomische Sparsity-Funktion erstellt wird. In diesem Fall ist die Potenz der Funktion gleich 3 und die Bereinigung erfolgt alle 50 Schritte. Dies bedeutet, dass in den letzten Schritten höhere Sparsifikationsverhältnisse angewendet werden (z. B. werden mehr Gewichte entfernt), was den Beschneidungsprozess beschleunigt. Wenn andererseits die Potenz der Funktion negativ wäre, würde das Beschneiden verlangsamt werden. Das Modell beginnt mit einer Sparsity von 0 % und der Prozess findet über 300 Epochen statt. Dies entspricht etwa 35 % der Anzahl der Iterationen, die für das Training des ursprünglichen Modells erforderlich sind. Ziel zukünftiger Arbeiten ist es, die Hyperparameter des Beschneidungsprozesses zu optimieren, seine Effizienz zu verbessern und die mit einer hohen Anzahl von Iterationen verbundenen Kosten zu senken.

Eine typische Verteilung der Gewichte des NN-basierten MLP-Equalizers ohne Beschneidung und mit Beschneidung, wenn der Sparsity-Wert auf 40 % eingestellt ist.

Neben der Reduzierung der Anzahl der an der NN-Signalverarbeitung beteiligten Operationen ist die Präzision solcher arithmetischer Operationen ein weiterer entscheidender Faktor bei der Bestimmung der Komplexität des Modells und damit der Inferenzlatenz sowie des Speicher- und Energiebedarfs des Equalizers23,50,51 ,52. Der Prozess der Annäherung einer kontinuierlichen Variablen an einen bestimmten Satz diskreter Werte wird als Quantisierung bezeichnet. Die Anzahl der diskreten Werte bestimmt die Anzahl der Bits, die zur Darstellung der Daten erforderlich sind. Wenn diese Technik im Zusammenhang mit Deep Learning angewendet wird, besteht das Ziel daher darin, die numerische Präzision zu verringern, die zum Kodieren der Gewichte und Aktivierungen der Modelle verwendet wird, um einen spürbaren Leistungsabfall des NN zu vermeiden20,52.

Durch die Verwendung von Formaten mit geringer Genauigkeit können wir mathematikintensive Operationen wie Faltung und Matrixmultiplikation beschleunigen52. Andererseits hängt die Inferenzzeit (Signalverarbeitungszeit) nicht nur von der Formatdarstellung der an den mathematischen Operationen beteiligten Ziffern ab, sondern wird auch durch den Transport der Daten vom Speicher zu den Rechenelementen beeinflusst23,38. Darüber hinaus entsteht bei letzterem Prozess Wärme, sodass die Verwendung einer Darstellung mit geringerer Genauigkeit zu Energieeinsparungen führen kann23. Ein weiterer Vorteil der Verwendung von Formaten mit geringer Genauigkeit besteht schließlich darin, dass eine geringere Anzahl von Bits zum Speichern der Daten benötigt wird, was den Speicherbedarf und die Größenanforderungen reduziert23,52.

FP32 wird traditionell als numerisches Format zur Kodierung von Gewichten und Aktivierungen (Ausgabe der Neuronen) in einem NN verwendet, um einen größeren Dynamikbereich zu nutzen. Allerdings führt dies, wie bereits erwähnt, zu höheren Inferenzzeiten, was ein wichtiger Faktor ist, wenn eine Echtzeit-Signalverarbeitung in Betracht gezogen wird20. In letzter Zeit wurden verschiedene Alternativen zum numerischen FP32-Format für die Darstellung von NN-Elementen vorgeschlagen, um die Inferenzzeit zu verkürzen und die Hardwareanforderungen zu verringern. Beispielsweise wird es immer beliebter, NNs in FP16-Formaten zu trainieren, da es von den meisten Deep-Learning-Beschleunigern20 unterstützt wird. Andererseits können mathematikintensive Tensoroperationen, die auf INT8-Typen ausgeführt werden, im Vergleich zu denselben Operationen in FP32 eine bis zu 16-fache Beschleunigung erfahren. Darüber hinaus könnten speicherbegrenzte Vorgänge im Vergleich zur FP32-Version22,23,24,52 eine bis zu 4-fache Beschleunigung erfahren. Daher werden wir zusätzlich zur Bereinigung die Präzision der Gewichte und Aktivierungen reduzieren, um die Rechenkomplexität des Equalizers weiter zu verringern, indem wir die als Ganzzahlquantisierung52 bekannte Technik anwenden.

Die ganzzahlige Quantisierung bildet einen Gleitkommawert \(x\in [\alpha ,\,\beta ]\) auf eine Bit-Ganzzahl \(x_{q}\in [\alpha _{q},\,\beta _{ Q} ]\). Diese Abbildung kann mathematisch mit der folgenden Formel definiert werden: \(x_{q} = \mathrm {round} \left( \frac{1}{s}x + z\right)\), wobei s (ein positiver Gleitkommawert) ist Zahl) wird als Skala bezeichnet, und z ist der Nullpunkt (eine ganze Zahl). Der Skalierungsfaktor unterteilt grundsätzlich einen Bereich realer Werte, in diesem Fall diejenigen innerhalb des Clipping-Bereichs \([\alpha ,\,\beta ]\), in mehrere Partitionen. Somit kann es als \(s = \frac{\beta - \alpha }{2^{b}-1}\) ausgedrückt werden, wobei b die Quantisierungsbitbreite ist. Andererseits kann der Nullpunkt definiert werden als \(z = \frac{\alpha (1 - 2^{b} )}{\beta - \alpha }\). Bei symmetrischer Quantisierung ist er daher 0. Darüber hinaus kann die vorherige Zuordnung umgestaltet werden, um zu berücksichtigen, dass, wenn x außerhalb des Bereichs \([\alpha ,\,\beta ]\ liegt, \(x_{q}\) außerhalb von \( [\alpha _{q}, \, \beta _{q}]\). Daher ist es in diesem Fall erforderlich, die Werte zu beschneiden; als Konsequenz lautet die Abbildungsformel: \(x_{q} = \mathrm {clip}(\mathrm {round} \left[ \frac{1}{s}x + z \right] , \alpha _{q }, \beta _{q})\), wobei die Funktion \(\mathrm {clip}\) die Werte annimmt24,53:

Die Ganzzahlquantisierung kann unterschiedliche Formen annehmen, abhängig vom Abstand zwischen den Quantisierungsstufen und der Symmetrie des Beschneidungsbereichs (bestimmt durch den Wert des Nullpunkts z)53. Der Einfachheit halber haben wir in dieser Arbeit eine symmetrische und gleichmäßige ganzzahlige Quantisierung verwendet.

Der Quantisierungsprozess kann nach dem Training oder während desselben erfolgen. Der erste Fall ist als Post-Training-Quantisierung (PTQ) bekannt und der zweite Fall ist das quantisierungsbewusste Training22,23,24. Bei der PTQ werden das Gewicht und die Aktivierungen eines trainierten Modells quantifiziert. Danach wird ein kleiner unbeschrifteter Kalibrierungssatz verwendet, um die dynamischen Bereiche der Aktivierungen zu bestimmen23,52,53,54. Es ist keine Umschulung erforderlich, was diese Methode aufgrund ihrer Einfachheit und geringeren Datenanforderungen sehr beliebt macht53,54. Wenn ein trainiertes Modell jedoch direkt quantisiert wird, kann dies die trainierten Parameter stören und das Modell vom Konvergenzpunkt entfernen, der während des Trainings mit Gleitkommagenauigkeit erreicht wurde. Mit anderen Worten stellen wir fest, dass es bei PTQ zu Genauigkeitsproblemen kommen kann53.

In dieser Arbeit wird die Quantisierung nach der Trainingsphase durchgeführt, dh wir verwenden die PTQ. Der erforderliche Kalibrierungsprozess zur Schätzung des Bereichs, d. h. (Min., Max.) der Aktivierungen im Modell, erfolgt durch die Ausführung einiger Schlussfolgerungen mit einem kleinen Teil des Testdatensatzes. In unserem Fall bestand es aus 100 Proben. Bei Verwendung der Tensorflow Lite API erfolgt die Kalibrierung automatisch und es ist nicht möglich, die Anzahl der Inferenzen auszuwählen.

Abschließend ist es wichtig zu diskutieren, wie wir die Rechenkomplexität solcher Modelle richtig bewerten können. In diesem Zusammenhang bewerten wir quantitativ die Reduzierung der Rechenkomplexität, die durch die Anwendung von Beschneidung und Quantisierung erreicht wird, und berechnen die Anzahl der während eines Inferenzschritts verwendeten Bits. Die häufigsten Operationen in einem NN sind Multiplikations- und Akkumulationsoperationen (MACs). Dabei handelt es sich um Operationen der Form \(a = a + w \times x\), an denen drei Terme beteiligt sind: Erstens entspricht x dem Eingangssignal des Neurons; zweitens bezieht sich w auf das Gewicht; und schließlich die Akkumulationsvariable a55. Traditionell wurde die Netzwerkkomplexitätsarithmetik anhand der Anzahl der MAC-Operationen gemessen. Im Hinblick auf die DSP-Verarbeitung ist die Anzahl der BoPs jedoch eine geeignetere Metrik zur Beschreibung der Rechenkomplexität des Modells, da es bei Netzwerken mit geringer Präzision, die aus ganzzahligen Operationen bestehen, nicht möglich ist, die Rechenkomplexität mithilfe von FLOPS22 zu messen. 56. Daher verwenden wir in dieser Arbeit BoPs, um die Komplexität des Equalizers zu quantifizieren. Es ist wichtig zu beachten, dass im Zusammenhang mit der nichtlinearen Kompensation optischer Kanäle die Komplexität von NN-basierten Kanalentzerrern traditionell nur unter Berücksichtigung der Anzahl der Multiplikationen gemessen wurde12,44,57. Somit wurde der Akkumulatorbeitrag vernachlässigt. In diesem Projekt streben wir jedoch eine allgemeinere Komplexitätsmetrik an und beziehen diese daher in unsere Berechnungen ein.

Das BOPs-Maß wurde erstmals im Jahr 56 vorgeschlagen und für eine Faltungsschicht definiert, die wie folgt quantisiert wurde:

In Gl. (2), \(b_{w}\) und \(b_{a}\) sind das Gewicht bzw. die Aktivierungsbitbreite; n ist die Anzahl der Eingangskanäle, m ist die Anzahl der Ausgangskanäle und k definiert die Filtergröße (z. B. \(k\times k\) Filter)58. Unter Berücksichtigung der Tatsache, dass eine MAC-Operation die Form \(a = a + w \times x\) annimmt, ist es möglich, zwei Beiträge in der obigen Gleichung zu unterscheiden: einen, der dem \(nk^{2}\times b_ {0}\) Anzahl der Additionen, wobei \(b_{0} = b_{a} +b_{w} + \log _{2}(nk^{2})\) (z. B. Akkumulatorbreite in den MAC-Operationen). ), und der andere entspricht der Anzahl der Multiplikationen, z. B. \(nk^{2}(b_{a}b_{w})\)56.

Gleichung (2) wurde für den Fall einer dichten Schicht, die sowohl beschnitten als auch quantisiert wurde, weiter angepasst59. Somit ist es auf unseren Fall anwendbar, da das MLP aus einer Reihe dichter, nacheinander angeordneter Schichten besteht:

In Gl. (3), n und m entsprechen der Anzahl der Ein- bzw. Ausgänge; \(b_{w}\) und \(b_{a}\) sind die Bitbreiten der Gewichte und Aktivierungen. Der zusätzliche Term \(f_{p_{i}}\) ist der Anteil der beschnittenen Schichtgewichte, wodurch wir die Reduzierung der Multiplikationsoperationen aufgrund der Beschneidung berücksichtigen können. Aus diesem Grund bezieht es sich nur auf den Begriff \(b_{a}b_{w}\)59.

Daher beträgt in unserem Fall des MLP mit 3 verborgenen Schichten die Gesamtzahl der BOPs:

wobei \(i\in [1,2,3]\), \(\mathrm {BoPs_{input}}\) und \(\mathrm {BoPs_{output}}\) den Beiträgen der Ein- und Ausgabe entsprechen Lagen. Gleichung (4) kann weniger kompakt wie folgt geschrieben werden:

wobei \(n_{i}\), \(n_{1}\), \(n_{2}\), \(n_{3}\) und \(n_{o}\) die Anzahl von sind Neuronen in der Eingabe-, ersten, zweiten, dritten und Ausgabeschicht; \(b_{w}\), \(b_{a}\), \(b_{o}\) und \(b_{i}\) sind die Bitbreiten der Gewichte, Aktivierungen, Ausgabe und Eingabe ; \(f_{p}\) ist der Anteil der Gewichte, die in einer Schicht beschnitten wurden, was in unserem Fall für jede Schicht gleich ist.

In dieser Arbeit wird die Größe des Modells als die Anzahl der Bytes definiert, die es im Speicher belegt. Darüber hinaus bemerken wir die direkte Korrelation zwischen dem Wert dieser Metrik und dem Format, das zur Darstellung des Modells verwendet wird. Im Gegensatz zu den herkömmlichen Formaten, die in TensorFlow verwendet werden (z. B. .h5- oder HDF5-Binärdatenformat und .pb oder Protobuf), wird ein TensorFlow Lite-Modell in einem besonders effizienten tragbaren Format dargestellt, das durch die Dateierweiterung .tflite gekennzeichnet ist. Dies bietet zwei Hauptvorteile: eine geringere Modellgröße und kürzere Inferenzzeiten. Daher wird die Bereitstellung des NN-Modells auf einer ressourcenbeschränkten Hardware möglich. Daher wäre es nicht sinnvoll, die im traditionellen Tensorflow-Format gespeicherten Modelle mit denen zu vergleichen, die bereinigt und quantisiert sowie in Tensorflow Lite konvertiert wurden. Wir waren uns dieser Situation bei der Umsetzung des Verfahrens bewusst und um daher die Vorteile von Beschneidung und Quantisierung nicht überzubewerten, wurden das ungekürzte und nicht quantisierte Modell in das .tflite-Format konvertiert. Um die Auswirkungen dieses Schritts besser zu verstehen, würde die Größe des Originalmodells im .h5-Format nach der Konvertierung in das .tflite-Format, der Quantisierung und der Bereinigung (60 % Sparsity) eine Größenreduzierung von 96,22 % erfahren. Wenn das Originalmodell hingegen bereits in .tflite konvertiert wurde, beträgt die Größenreduzierung 87,12 %. Auf dieser Grundlage scheint es natürlich die beste Strategie zu sein, immer das .tflite-Format anstelle der anderen herkömmlichen Formate zu verwenden. Der Hauptgrund dafür, dies nicht zu tun, ist, dass ein Diagramm im .tflite-Format nicht erneut trainiert werden kann, da es nur einen Online-Inferenzmodus unterstützt. Dennoch kann ein Modell, das beispielsweise im .h5-Format vorliegt, offline trainiert werden. Daher ist die .tflite nur für den Einsatz im Zusammenhang mit Edge Computing gedacht.

Bei vielen Deep-Learning-Anwendungen sind ein geringer Stromverbrauch und eine verkürzte Inferenzzeit besonders wünschenswert. Darüber hinaus bringt der Einsatz von Grafikprozessoren (GPU) zur Erzielung hoher Leistung einige Kostenprobleme mit sich, die noch lange nicht endgültig gelöst sind37,60. Daher ist eine kleine, tragbare und kostengünstige Hardware erforderlich, um dieses Problem zu lösen. Infolgedessen sind Einplatinencomputer populär geworden, und Raspberry Pi 4 und Nvidia Jetson Nano gehören zu den am häufigsten verwendeten37. Daher analysieren wir hier die Funktionsweise unseres NN-basierten Equalizers anhand dieser beiden oben genannten gängigen Hardwaretypen.

Raspberry Pi ist ein kleiner Einplatinencomputer. Es ist mit einer Broadcom Video Core VI (32-Bit) GPU, einer Quad-Core ARM CortexA72 64-Bit 1,5 GHz CPU, 2 USB 2.0-Anschlüssen und 2 USB 3.0-Anschlüssen ausgestattet; Zur Datenspeicherung kommt eine MicroSD-Karte zum Einsatz. Darüber hinaus werden Verbindungen über Gigabit Ethernet/WiFi 802.11ac bereitgestellt. Es verwendet ein Betriebssystem namens Raspbian und verfügt über keine GPU-Fähigkeit sowie keinen speziellen Hardwarebeschleuniger37,61.

Nvidia Jetson Nano ist ein kleiner GPU-basierter Einplatinencomputer, der den parallelen Betrieb mehrerer NNs ermöglicht. Es hat eine reduzierte Größe (100 mm \(\times\) 80 mm \(\times\) 29 mm) und ist mit einer Maxwell 128-Core-GPU und einer Quad-Core-ARM-A57-64-Bit-1,4-GHz-CPU ausgestattet. Zur Speicherung der Daten wird wie beim Raspberry Pi eine MicroSD-Karte verwendet. Schließlich werden die Verbindungen über Gigabit-Ethernet hergestellt und als Betriebssystem kommt Linux4Tegra auf Basis von Ubuntu 18.0437,60 zum Einsatz.

In dieser Arbeit befassen wir uns neben der Latenz und Genauigkeit, die jeder Modellverarbeitung zugeschrieben werden, auch mit dem Problem des Stromverbrauchs für die NN-Equalizer, die im Nvidia Jetson Nano und im Raspberry Pi 4 implementiert sind.

Es ist möglich, den Stromverbrauch sowohl des Nvidia Jetson Nano als auch des Raspberry Pi auf unterschiedliche Weise zu messen. Beim Nvidia Jetson Nano befinden sich drei integrierte Sensoren am Stromeingang, an der GPU und an der CPU. Somit ist die Genauigkeit der Messungen durch diese Sensoren begrenzt. Um die Aufzeichnungen dieser Sensoren auszulesen, ist es möglich, dies automatisch mit dem Tool tegrastats oder manuell durch Auslesen von .sys-Dateien, einem Pseudo-Dateisystem unter Linux, zu tun. Durch die Verwendung beider Ansätze können die Informationen von Messungen für Leistung, Spannung und Strom leicht erfasst werden62. Im Gegensatz dazu verfügt der Raspberry Pi 4 über kein System, mit dem sich die Stromverbrauchszahlen einfach ermitteln lassen. Es wurden einige softwarebasierte Methoden sowie einige empirische Schätzungen entwickelt63. Es hat sich jedoch gezeigt, dass die meisten der oben genannten Softwaremethoden lediglich eine Näherung liefern, die möglicherweise nicht verwendet wird, wenn sehr genaue Ergebnisse erforderlich sind63. Andererseits ist die zweite empirische Strategie zur Messung des Stromverbrauchs auf dem Raspberry Pi spezifisch für diese Art von Hardware und kann nicht im Nvidia Jetson Nano verwendet werden.

Um den Stromverbrauch des Equalizers auf diesen beiden Hardwaretypen zu vergleichen, ist es genauer und wünschenswerter, bei beiden die gleiche Methode zu verwenden, um instrumentelle Verzerrungen zu vermeiden. In diesem Artikel haben wir eine plattformunabhängige Methode mithilfe eines digitalen USB-Multimeters entwickelt. Das vorgeschlagene System zur Messung des Stromverbrauchs befasst sich mit dem Problem, dass diese Geräte keine integrierten Shunt-Widerstände haben. Ein solcher Ansatz ermöglicht es uns, die Leistung einfach mit einer externen Energiesonde zu messen. Eine schematische Darstellung der Messaufbauten ist in Abb. 8 dargestellt.

(a) Der Leistungsmessaufbau für Nivida Jetson Nano und (b) – derselbe für Raspberry Pi.

Beim Raspberry Pi erfolgt die Stromversorgung über einen USB-Typ-C-Anschluss über ein 5,1 V–2,5 A Netzteil. Beim Nvidia Jetson Nano kann die Stromversorgung über einen Micro-USB-Anschluss mit einem 5,1 V–2,5 A-Netzteil oder einem Hohlstecker-Netzteil mit 5 V–4 A (20 W) erfolgen. Es ist möglich, von einer Konfiguration zur anderen zu wechseln, indem man einen Jumper setzt und vom 5-W-Modus in den 10-W-Modus wechselt. Um die gleiche Stromquelle wie beim Raspberry Pi zu nutzen, wird die Micro-USB-Konfiguration verwendet.

Da die Energieversorgung über einen USB-Anschluss erfolgt, ist es möglich, die Leistung mit einem USB-Digitalmultimeter zu messen. Das in dieser Arbeit verwendete Modell ist der A3-B/A3 von Innovateking-EU. Es erfasst Spannung, Strom, Impedanz und Stromverbrauch. Die Eingangsspannungs- und Strombereiche liegen bei 4,5 V–24 V bzw. 0 A–3 A. Darüber hinaus können wir die Energie in einem Bereich von 0 bis 99.999 mWh messen. Die Auflösung der Spannungs- und Strommessung beträgt 0,01 V bzw. 0,001 A, die Messgenauigkeit beträgt ± 0,2 % bzw. ± 0,8 %.

Das USB-Digitalmultimeter A3-B/A3 wird mit der Software UM24C PC Software V1.3 geliefert, die das Senden der Messdaten an einen Computer in Echtzeit ermöglicht, wie in Abb. 8a,b dargestellt. Während des Messvorgangs sind bis auf den Ethernet-Anschluss keine Peripheriegeräte an Raspberry Pi oder Nvidia Jetson Nano angeschlossen. Dies wird für die Kommunikation über SSH verwendet, Abb. 8. Darüber hinaus wurden für jedes Gerät 25 Maßnahmen ergriffen. In jedem von ihnen wurden 100 Inferenzen durchgeführt und der Stromverbrauch darüber gemittelt, wobei der Stromverbrauch während der Initialisierungsphase nicht berücksichtigt wurde.

Um die Inferenzzeit für jedes Modell auszuwerten, werden weder an den Raspberry Pi noch an den Nvidia Jetson Nano Peripheriegeräte angeschlossen, mit Ausnahme des Ethernet-Ports, der für die Kommunikation über das Secure Shell-Protokoll verwendet wird. Darüber hinaus wird jegliche Initialisierungszeit (z. B. Laden der Bibliothek, Datengenerierung und Laden der Modellgewichtung) ignoriert, da es sich dabei um einmalige Kosten handelt, die während der Einrichtung des Geräts anfallen. Darüber hinaus wurden für jedes Gerät 25 Maßnahmen ergriffen. In jedem von ihnen wurden 100 Inferenzen ausgeführt (in jeder Inferenz werden 30.000 Symbole wiederhergestellt) und die Inferenzzeit wurde gemittelt, wobei die Initialisierungsphase nicht berücksichtigt wurde.

Die den in diesem Dokument präsentierten Ergebnissen zugrunde liegenden Daten sind derzeit nicht öffentlich verfügbar, können aber auf Anfrage bei den Autoren angefordert werden.

Winzer, PJ, Neilson, DT & Chraplyvy, AR Glasfaserübertragung und -netzwerke: Die letzten 20 und die nächsten 20 Jahre. Opt. Express 26, 24190–24239. https://doi.org/10.1364/OE.26.024190 (2018).

Artikel ADS CAS PubMed Google Scholar

Cartledge, JC, Guiomar, FP, Kschischang, FR, Liga, G. & Yankov, MP Digitale Signalverarbeitung für Faser-Nichtlinearitäten. Opt. Express 25, 1916–1936. https://doi.org/10.1364/OE.25.001916 (2017).

Artikel ADS PubMed Google Scholar

Rafique, D. Faser-Nichtlinearitätskompensation: Kommerzielle Anwendungen und Komplexitätsanalyse. J. Lightw. Technol. 34, 544–553. https://doi.org/10.1109/JLT.2015.2461512 (2016).

Artikel ADS Google Scholar

Dar, R. & Winzer, PJ Nichtlineare Interferenzminderung: Methoden und potenzieller Gewinn. J. Lightw. Technol. 35, 903–930. https://doi.org/10.1109/JLT.2016.2646752 (2017).

Artikel CAS Google Scholar

Musumeci, F. et al. Ein Überblick über die Anwendung maschineller Lerntechniken in optischen Netzwerken. IEEE-Komm. Überleben. Tutor. 21, 1383–1408. https://doi.org/10.1109/COMST.2018.2880039 (2019).

Artikel Google Scholar

Nevin, JW et al. Maschinelles Lernen für Glasfaserkommunikationssysteme: Eine Einführung und ein Überblick. APL Photon.https://doi.org/10.1063/5.0070838 (2021).

Artikel Google Scholar

Jarajreh, MA et al. Nichtlinearer Entzerrer eines künstlichen neuronalen Netzwerks für kohärentes optisches OFM. IEEE Photon. Technol. Lette. 27, 387–390. https://doi.org/10.1109/LPT.2014.2375960 (2015).

Artikel ADS Google Scholar

Häger, C. & Pfister, HD Nichtlineare Interferenzminderung durch tiefe neuronale Netze. Im Jahr 2018 Optical Fiber Communications Conference and Exposition (OFC), 1–3 (IEEE) (2018).

Zhang, S. et al. Feld- und laborexperimentelle Demonstration der nichtlinearen Beeinträchtigungskompensation mithilfe neuronaler Netze. Nat. Komm. 10, 3033. https://doi.org/10.1038/s41467-019-10911-9 (2019).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Freire, PJ et al. Untersuchung von Leistung und Komplexität neuronaler Netzwerk-Equalizer in kohärenten optischen Systemen. J. Lightw. Technol. 39, 6085–6096. https://doi.org/10.1109/JLT.2021.3096286 (2021).

Artikel ADS Google Scholar

Deligiannidis, S., Bogris, A., Mesaritakis, C. & Kopsinis, Y. Kompensation von Faser-Nichtlinearitäten in digitalen kohärenten Systemen unter Nutzung neuronaler Netze mit langem Kurzzeitgedächtnis. J. Lightw. Technol. 38, 5991–5999. https://doi.org/10.1109/JLT.2020.3007919 (2020).

Artikel ADS Google Scholar

Deligiannidis, S., Mesaritakis, C. & Bogris, A. Leistungs- und Komplexitätsanalyse bidirektionaler rekurrenter neuronaler Netzwerkmodelle im Vergleich zu nichtlinearen Volterra-Entzerrern in digitalen kohärenten Systemen. J. Lightw. Technol. 39, 5791–5798. https://doi.org/10.1109/JLT.2021.3092415 (2021).

Artikel ADS Google Scholar

Freire, PJ et al. Experimentelle Untersuchung der Leistung von Equalizern für tiefe neuronale Netze in optischen Verbindungen. Im Jahr 2021, Optical Fiber Communications Conference and Exhibition (OFC), 1–3 (2021).

Sidelnikov, O., Redyuk, A. & Sygletos, S. Ausgleichsleistung und Komplexitätsanalyse dynamischer tiefer neuronaler Netze in Fernübertragungssystemen. Opt. Express 26, 32765–32776. https://doi.org/10.1364/OE.26.032765 (2018).

Artikel ADS PubMed Google Scholar

Sidelnikov, OS, Redyuk, AA, Sygletos, S. & Fedoruk, MP Methoden zur Kompensation nichtlinearer Effekte in Mehrkanal-Datenübertragungssystemen basierend auf dynamischen neuronalen Netzen. Quantenelektron. 49, 1154. https://doi.org/10.1070/QEL17158 (2019).

Artikel ADS Google Scholar

Barry, JR, Lee, EA & Messerschmitt, DG Digital Communication 3. Aufl. (Springer, ***, 2004).

Buchen Sie Google Scholar

Ming, H. et al. Langfristiges Speichernetzwerk mit extrem geringer Komplexität zur Minderung der Nichtlinearität von Glasfasern in kohärenten optischen Kommunikationssystemen. arXiv:2108.10212 (arXiv-Vorabdruck) (2021).

Kaneda, N. et al. Fpga-Implementierung von auf tiefen neuronalen Netzwerken basierenden Equalizern für Hochgeschwindigkeits-PON. In der Optical Fiber Communication Conference (OFC) 2020, T4D.2. https://doi.org/10.1364/OFC.2020.T4D.2 (Optical Society of America, 2020) (2020).

Blalock, D., Ortiz, JJG, Frankle, J. & Guttag, J. Wie ist der Stand der Bereinigung neuronaler Netzwerke? (2020). arXiv:2003.03033.

Han, S., Mao, H. & Dally, WJ Tiefenkomprimierung: Komprimierung tiefer neuronaler Netze mit Beschneidung, trainierter Quantisierung und Huffman-Codierung (2016). arXiv:1510.00149.

Srinivas, S., Subramanya, A. & Babu, RV Training spärlicher neuronaler Netze. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 455–462 (2017).

Hawks, B. et al. Ps und qs: Quantisierungsbewusstes Bereinigen für eine effiziente Inferenz neuronaler Netzwerke mit geringer Latenz. Vorderseite. Artif. Intell.https://doi.org/10.3389/frai.2021.676564 (2021).

Artikel PubMed PubMed Central Google Scholar

Sze, V., Chen, Y.-H., Yang, T.-J. & Emer, JS Effiziente Verarbeitung tiefer neuronaler Netze: Ein Tutorial und eine Umfrage. Proz. IEEE 105, 2295–2329. https://doi.org/10.1109/JPROC.2017.2761740 (2017).

Artikel Google Scholar

Liang, T., Glossner, J., Wang, L., Shi, S. & Zhang, X. Pruning und Quantisierung für die Beschleunigung tiefer neuronaler Netzwerke: Eine Umfrage. Neurocomputing 2101, 09671 (2021).

Google Scholar

Fujisawa, S. et al. Gewichtsbeschneidungstechniken zur photonischen Implementierung der nichtlinearen Beeinträchtigungskompensation mithilfe neuronaler Netze. J. Lightw. Technol.https://doi.org/10.1109/JLT.2021.3117609 (2021).

Artikel Google Scholar

Li, M., Zhang, W., Chen, Q. & He, Z. Hochdurchsatz-Hardwareeinsatz einer auf einem beschnittenen neuronalen Netzwerk basierenden nichtlinearen Entzerrung für optische 100-Gbit/s-Verbindungen mit kurzer Reichweite. Opt. Lette. 46, 4980–4983 (2021).

Artikel ADS Google Scholar

Oliari, V. et al. Überarbeitung einer effizienten mehrstufigen Nichtlinearitätskompensation mit maschinellem Lernen: Eine experimentelle Demonstration. J. Lightw. Technol. 38, 3114–3124 (2020).

Artikel ADS CAS Google Scholar

Koike-Akino, T., Wang, Y., Kojima, K., Parsons, K. & Yoshida, T. Sparse-DNN-Entzerrung mit Nullmultiplikator für faseroptische QAM-Systeme mit probabilistischer Amplitudenformung. Im Jahr 2021 Europäische Konferenz für optische Kommunikation (ECOC), 1–4 (IEEE) (2021).

Freire, PJ et al. Transferlernen für auf neuronalen Netzen basierende Equalizer in kohärenten optischen Systemen. J. Lightw. Technol. 39, 6733–6745. https://doi.org/10.1109/JLT.2021.3108006 (2021).

Artikel ADS Google Scholar

Pelikan, M., Goldberg, DE, Cantú-Paz, E. et al. Boa: Der Bayes'sche Optimierungsalgorithmus. In Proceedings of the Genetic and Evolutionary Computation Conference GECCO-99, vol. 1, 525–532 (Citeseer) (1999).

Abadi, M. et al. TensorFlow: Groß angelegtes maschinelles Lernen auf heterogenen Systemen (2015). Software verfügbar von tensorflow.org.

Hoefler, T., Alistarh, D., Ben-Nun, T., Dryden, N. & Peste, A. Transferlernen für auf neuronalen Netzen basierende Entzerrer in kohärenten optischen Systemen. J. Mach. Lernen. Res. 2102, 00554 (2021).

Google Scholar

Allen-Zhu, Z., Li, Y. & Song, Z. Eine Konvergenztheorie für Deep Learning durch Überparametrisierung. In International Conference on Machine Learning, 242–252 (PMLR) (2019).

Neill, JO Ein Überblick über die Komprimierung neuronaler Netzwerke. arXiv:2006.03669 (2020).

Neyshabur, B., Li, Z., Bhojanapalli, S., LeCun, Y. & Srebro, N. Auf dem Weg zum Verständnis der Rolle der Überparametrisierung bei der Generalisierung neuronaler Netze. arXiv:1805.12076 (arXiv-Vorabdruck) (2018).

Zhu, M. & Gupta, S. Beschneiden oder nicht beschneiden: Untersuchung der Wirksamkeit des Beschneidens für die Modellkomprimierung. arXiv:1710.01878 (arXiv-Vorabdruck) (2017).

Hadidi, R. et al. Charakterisierung des Einsatzes tiefer neuronaler Netze auf kommerziellen Edge-Geräten. Im Jahr 2019 IEEE International Symposium on Workload Characterization (IISWC), 35–48 (IEEE) (2019).

Yang, T.-J., Chen, Y.-H., Emer, J. & Sze, V. Eine Methode zur Schätzung des Energieverbrauchs tiefer neuronaler Netze. 2017 51. Asilomar-Konferenz über Signale, Systeme und Computer, 1916–1920 (IEEE) (2017).

Närhi, M. et al. Analyse extremer Ereignisse bei der Instabilität der Glasfasermodulation durch maschinelles Lernen. Nat. Komm. 9, 4923. https://doi.org/10.1038/s41467-018-07355-y (2018).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Agrawal, G. Kapitel 2 – Impulsausbreitung in Fasern. In Nonlinear Fiber Optics (Fünfte Auflage), Optics and Photonics (Hrsg. Agrawal, G.) 27–56 (Academic Press, Bost***on, 2013). https://doi.org/10.1016/B978-0-12-397023-7.00002-4.

Kapitel Google Scholar

Freire, PJ, Prilepsky, JE, Osadchuk, Y., Turitsyn, SK & Aref, V. Auf neuronalen Netzen basierende Nachentzerrung in kohärenten optischen Systemen: Regression versus Klassifizierung. arXiv:2109.13843 (arXiv-Vorabdruck) (2021).

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. arXiv:1412.6980 (arXiv-Vorabdruck) (2014).

Eriksson, TA, Bülow, H. & Leven, A. Anwendung neuronaler Netze in optischen Kommunikationssystemen: Mögliche Fallstricke. IEEE Photon. Technol. Lette. 29, 2091–2094 (2017).

Artikel ADS Google Scholar

Freire, PJ et al. Auf neuronalen Netzen basierende Equalizer für kohärente optische Übertragung: Vorbehalte und Fallstricke. arXiv:2109.14942 (arXiv-Vorabdruck) (2021).

Matsumoto, M. & Nishimura, T. Mersenne Twister: Ein 623-dimensional gleichverteilter einheitlicher Pseudozufallszahlengenerator. ACM Trans. Modell. Berechnen. Simul. 8, 3–30 (1998).

Artikel Google Scholar

Dong, X. & Zhou, L. Überparametrisierte tiefe Netzwerke durch Geometrisierung verstehen. arXiv:1902.03793 (2019).

Bondarenko, A., Borisov, A. & Alekseeva, L. Neuronen vs. Gewichtungsbeschneidung in künstlichen neuronalen Netzen. In der UMWELT. TECHNOLOGIEN. RESSOURCEN. Proceedings of the International Scientific and Practical Conference, Bd. 3, 22–28 (2015).

Hu, H., Peng, R., Tai, Y. & Tang, C. Netzwerktrimmung: Ein datengesteuerter Ansatz zur Neuronenbereinigung für effiziente Tiefenarchitekturen. arXiv:1607.03250CoRR (2016).

Bartoldson, B., Morcos, A., Barbu, A. & Erlebacher, G. Der Kompromiss zwischen Generalisierung und Stabilität beim Bereinigen neuronaler Netze. Adv. Neuronal. Inf. Verfahren. Syst. 33, 20852–20864 (2020).

Google Scholar

Choukroun, Y., Kravchik, E., Yang, F. & Kisilev, P. Low-Bit-Quantisierung neuronaler Netze für effiziente Inferenz. arXiv:1902.06822 (2019).

Yang, J. et al. Quantisierungsnetzwerke. arXiv:1911.09464 (2019).

Wu, H., Judd, P., Zhang, X., Isaev, M. & Micikevicius, P. Ganzzahlige Quantisierung für Deep-Learning-Inferenz: Prinzipien und empirische Bewertung. arXiv:2004.09602 (arXiv-Vorabdruck) (2020).

Gholami, A. et al. Eine Übersicht über Quantisierungsmethoden für eine effiziente Inferenz neuronaler Netze. arXiv:2103.13630 (arXiv-Vorabdruck) (2021).

Hubara, I., Nahshan, Y., Hanani, Y., Banner, R. & Soudry, D. Präzise Quantisierung nach dem Training mit kleinen Kalibrierungssätzen. In International Conference on Machine Learning, 4466–4475 (PMLR) (2021).

de Lima, TF et al. Maschinelles Lernen mit neuromorpher Photonik. J. Lightw. Technol. 37, 1515–1534 (2019).

Artikel ADS Google Scholar

Baskin, C. et al. Uniq: Gleichmäßige Rauschinjektion zur ungleichmäßigen Quantisierung neuronaler Netze. ACM Trans. Berechnen. Syst.https://doi.org/10.1145/3444943 (2021).

Artikel Google Scholar

Freire, PJ et al. Komplexwertiges neuronales Netzwerkdesign zur Minderung von Signalverzerrungen in optischen Verbindungen. J. Lightw. Technol. 39, 1696–1705. https://doi.org/10.1109/JLT.2020.3042414 (2021).

Artikel ADS Google Scholar

Albawi, S., Mohammed, TA & Al-Zawi, S. Verständnis eines Faltungs-Neuronalen Netzwerks. Im Jahr 2017 International Conference on Engineering and Technology (ICET), 1–6 (Ieee) (2017).

Tran, N. et al. Ps und qs: Quantisierungsbewusstes Bereinigen für eine effiziente Inferenz neuronaler Netzwerke mit geringer Latenz. Vorderseite. Artif. Intel. 4, 94 (2021).

Artikel Google Scholar

Valladares, S., Toscano, M., Tufiño, R., Morillo, P. & Vallejo-Huanga, D. Leistungsbewertung des NVIDIA Jetson Nano durch eine Echtzeitanwendung für maschinelles Lernen. In International Conference on Intelligent Human Systems Integration, 343–349 (Springer) (2021).

Tang, R., Wang, W., Tu, Z. & Lin, J. Eine experimentelle Analyse des Stromverbrauchs von Faltungs-Neuronalen Netzen für das Keyword-Spotting. Im Jahr 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5479–5483 (IEEE) (2018).

Holly, S., Wendt, A. & Lechner, M. Profilierung des Energieverbrauchs tiefer neuronaler Netze auf NVIDIA Jetson Nano. Im Jahr 2020 11. International Green and Sustainable Computing Workshops (IGSC), 1–6 (IEEE) (2020).

Kaup, F., Gottschling, P. & Hausheer, D. Powerpi: Messung und Modellierung des Stromverbrauchs des Raspberry Pi. In der 39. jährlichen IEEE-Konferenz über lokale Computernetzwerke, 236–243 (IEEE) (2014).

Referenzen herunterladen

SKT und MKK werden teilweise durch das EPSRC-Programm Grant TRANSNET, EP/R035342/1, unterstützt. PJF und DAR bedanken sich für die Unterstützung durch die EU-Horizont-2020-Marie-Skodowska-Curie-Aktionsprojekte Nr. 813144 (REAL-NET) bzw. 860360 (POST-DIGITAL). JEP und SKT danken dem Leverhulme Trust-Projekt RPG-2018-063 für seine Unterstützung.

Aston Institute of Photonic Technologies, Aston University, Birmingham, B4 7ET, Großbritannien

Diego Arguello Ron, Peter J. Freire, Jaroslaw E. Prilepsky, Morteza Kamalian-Kopae und Sergei K. Turitsyn

Infinera, St. Martinsstr. 76, 81541, München, Deutschland

Peter J. Freire & Anthony Napoli

Sie können diesen Autor auch in PubMed Google Scholar suchen

DAR, PJF und JEP haben die Studie konzipiert. DAR und PJF schlugen das neuronale Netzwerkmodell vor. DAR führte die numerischen Simulationen durch, entwarf den Versuchsaufbau und erhielt die Versuchsergebnisse. PJF generierte die Daten und führte die Architekturoptimierung durch. DAR und PJF haben die Abbildungen und Tabellen entworfen. DAR, PJF und JEP haben das Manuskript mit Unterstützung von MKK und SKT verfasst. Alle Autoren haben das Manuskript überprüft. Die Arbeit von DAR wurde von MKK und SKT überwacht. Die Arbeit von PJF wurde von JEP, AN und SKT überwacht

Korrespondenz mit Diego Arguello Ron oder Sergei K. Turitsyn.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Ron, DA, Freire, PJ, Prilepsky, JE et al. Experimentelle Implementierung eines optischen Kanalentzerrers für ein neuronales Netzwerk in eingeschränkter Hardware unter Verwendung von Beschneidung und Quantisierung. Sci Rep 12, 8713 (2022). https://doi.org/10.1038/s41598-022-12563-0

Zitat herunterladen

Eingegangen: 06. Januar 2022

Angenommen: 03. Mai 2022

Veröffentlicht: 24. Mai 2022

DOI: https://doi.org/10.1038/s41598-022-12563-0

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

Nachricht

Experimentelle Implementierung eines optischen Kanalentzerrers für ein neuronales Netzwerk in eingeschränkter Hardware unter Verwendung von Beschneidung und Quantisierung