侵權投訴

一種名為ReZero的神經網絡結構改進方法

2020-03-27 15:06 ? 次閱讀

深度學習在眾多領域都取得了顯著進展,但與此同時也存在一個問題:深層網絡的訓練常常面臨梯度消失或梯度爆炸的阻礙,尤其是像 Transformer 這樣的大型網絡。現在,加州大學圣迭戈分校的研究者提出了一種名為 ReZero 的神經網絡結構改進方法,并使用 ReZero 訓練了具有一萬層的全連接網絡,以及首次訓練了超過 100 層的 Tansformer,效果都十分驚艷。

深度學習在計算機視覺、自然語言處理等領域取得了很多重大突破。神經網絡的表達能力通常隨著其網絡深度呈指數增長,這一特性賦予了它很強的泛化能力。然而深層的網絡也產生了梯度消失或梯度爆炸,以及模型中的信息傳遞變差等一系列問題。研究人員使用精心設計的權值初始化方法、BatchNorm 或 LayerNorm 這類標準化技術來緩解以上問題,然而這些技術往往會耗費更多計算資源,或者存在其自身的局限。

近日,來自加州大學圣迭戈分校(UCSD)的研究者提出一種神經網絡結構改進方法「ReZero」,它能夠動態地加快優質梯度和任意深層信號的傳播。

論文地址:https://arxiv.org/abs/2003.04887v1

代碼地址:https://github.com/majumderb/rezero

這個想法其實非常簡單:ReZero 將所有網絡層均初始化為恒等映射。在每一層中,研究者引入了一個關于輸入信號 x 的殘差連接和一個用于調節當前網絡層輸出 F(x) 的可訓練參數α,即:

在剛開始訓練的時候將α設置為零。這使得在神經網絡訓練初期,所有組成變換 F 的參數所對應的梯度均消失了,之后這些參數在訓練過程中動態地產生合適的值。改進的網絡結構如下圖所示:

圖 1:ReZero 結構示意圖

ReZero 主要帶來了以下兩個益處:

1. 能夠訓練更深層神經網絡

學習信號能夠有效地在深層神經網絡中傳遞,這使得我們能夠訓練一些之前所無法訓練的網絡。研究者使用 ReZero 成功訓練了具有一萬層的全連接網絡,首次訓練了超過 100 層的 Tansformer 并且沒有使用學習速率熱身和 LayerNorm 這些奇技淫巧。

2. 更快的收斂速度

與帶有標準化操作的常規殘差網絡相比,ReZero 的收斂速度明顯更快。當 ReZero 應用于 Transformer 時,在 enwiki8 語言建模基準上,其收斂速度比一般的 Transformer 快 56%,達到 1.2BPB。當 ReZero 應用于 ResNet,在 CIFAR 10 上可實現 32% 的加速和 85% 的精度。

ReZero (residual with zero initialization)

ReZero 對深度殘差網絡的結構進行了簡單的更改,可促進動態等距(dynamical isometry)并實現對極深網絡的有效訓練。研究者在初始階段沒有使用那些非平凡函數 F[W_i] 傳遞信號,而是添加了一個殘差連接并通過初始為零的 L 個可學習參數α_i(作者稱其為殘差權重)來重新縮放該函數。目前,信號根據以下方式進行傳遞:

在初始階段,該網絡表示為恒等函數并且普遍滿足動態等距關系。在該架構修改中,即使某一層的 Jacobian 值消失,也可以訓練深度網絡(正如 ReLU 激活函數或自注意力機制出現這樣的狀況)。這一技術還可以在現有的已訓練網絡上添加新層。

實驗結果

更快的深層全連接網絡訓練

圖 3 展示了訓練損失的演變過程。在一個簡單實驗中,一個使用了 ReZero 的 32 層網絡,擬合訓練數據的收斂速度相比其他技術快了 7 到 15 倍。值得注意的是,與常規的全連接網絡相比,殘差連接在沒有額外的標準化層時會降低收斂速度。這可能是因為初始化階段信號的方差并不獨立于網絡深度。

隨著深度的增加,ReZero 架構的優勢更加明顯。為了驗證該架構可用于深度網絡訓練,研究者在一臺配備 GPU 的筆記本電腦上成功訓練了多達 1 萬層的全連接 ReZero 網絡,使其在訓練數據集上過擬合。

圖 3:256 寬度和 ReLU 激活的 32 層全連接網絡四種變體,在訓練過程中的交叉熵損失。

更快的深層 Transformer 訓練

研究者提出,常規的 Transformer 會抑制深層信號傳遞,他們在輸入序列 x 的 n x d 個 entry 的無窮小變化下評估其變化,獲得注意力處理的輸入-輸出 Jacobian,從而驗證了之前的觀點。

圖 5a 展示了不同深度中使用 Xavier 統一初始化權重的 Transformer 編碼層的輸入-輸出 Jacobian 值。淺層的 Transformer 表現出峰值在零點附近的單峰分布,可以發現,深層結構中 Jacobian 出現了大量超出計算精度的峰值。雖然這些分布取決于不同初始化方法,但以上量化的結論在很大范圍內是成立的。這些結果與普遍認為的相一致,也就是深層 Transformer 很難訓練。

圖 5:多個輸入-輸出 Jacobian 矩陣中對數奇異值λ_io 的直方圖。(a)層數分別為 4、12、64 層的 Transformer 編碼器網絡;(b)是 64 層時訓練前和訓練中的 ReZero Transformer 編碼器網絡。深層 Transformer 距離動態等距很遠,即λ_io 1,而 ReZero Transformer 更接近動態等距,平均奇異值 λ_io ≈ 1。

能夠在多項 NLP 任務中實現 SOTA 的 Transformer 模型通常是小于 24 層的,這項研究中,最深層模型最多使用了 78 層,并且需要 256 個 GPU 來訓練。研究者又將這一模型擴展至數百個 Transformer 層,并且仍然可以在臺式機上訓練。為了檢查該方法是否可以擴展至更深層的 Transformer 模型之上,研究者將 ReZero Transformer 拓展到了 64 及 128 層,并與普通 Transformer 進行了對比。

結果顯示,收斂之后,12 層的 ReZero Transformer 與常規的 Transformer 取得了相同的 BPB。也就是說,用 ReZero 來替代 LayerNorm 不會失去任何模型表現。訓練普通的 Transformer 模型會導致收斂困難或訓練緩慢。當達到 64 層時,普通的 Transformer 模型即使用了 warm-up 也無法收斂。ReZero Transformer 在α初始化為 1 時發散,從而支持了α = 0 的初始化理論。深層的 ReZero Transformer 比淺層的 Transformer 表現出了更優越的性能。

表 3:在 enwiki8 測試集上的 Transformers (TX) 對比。

收斂速度比較

選擇 enwiki8 上的語言建模作為基準,因為較難的語言模型是 NLP 任務性能的良好指標。在實驗中,其目標是通過測量 12 層的 Transformer 在 enwiki8 上達到 1.2 位每字節(BPB)所需的迭代次數,由此來衡量所提出的每種方法的收斂速度。

表二:針對 ReZero 的 12 層 Transformers 歸一化后與 enwiki8 驗證集上達到 1.2 BPB 時所需的訓練迭代比較。

更快的殘差網絡訓練

通過前述部分,看到了 ReZero 的連接是如何使深層網絡的訓練成為可能的,并且這些深層網絡都包含會消失的 Jacobian 奇異值,例如 ReLU 激活或自我注意力。但是,如果沒有 ReZero 的連接或者是其他架構的更改,其中某些架構將無法執行訓練。在本節中,會將 ReZero 連接應用于深層殘差網絡從而進行圖像識別。

雖然這些網絡并不需要 ReZero 連接便可以進行訓練,但通過觀察發現,在 CIFAR-10 數據集上訓練的 ResNet56 model4(最多 200 個 epochs)的驗證誤差得到了非常明顯的提升:從(7.37±0.06)%到(6.46±0.05)%。這一效果是將模型中的所有殘差連接轉換為 ReZero 連接之后得到的。在實施 ReZero 之后,驗證誤差降低到 15%以下的次數也減少了(32±14)%。盡管目前這些結果只提供了有限的信息,但它們仍指出了 ReZero 連接擁有更廣泛的適用性,從而也推進了進一步的研究。

上手實操

項目地址:

https://github.com/majumderb/rezero

在此提供了自定義的 ReZero Transformer 層(RZTX),比如以下操作將會創建一個 Transformer 編碼器:

import torchimport torch.nn as nnfrom rezero.transformer import RZTXEncoderLayerencoder_layer = RZTXEncoderLayer(d_model=512, nhead=8)transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)src = torch.rand(10, 32, 512)out = transformer_encoder(src)

創建一個 Transformer 解碼器:

import torchimport torch.nn as nnfrom rezero.transformer import RZTXDecoderLayerdecoder_layer = RZTXDecoderLayer(d_model=512, nhead=8)transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)memory = torch.rand(10, 32, 512)tgt = torch.rand(20, 32, 512)out = transformer_decoder(tgt, memory)

注意確保 norm 參數保留為 None,以免在 Transformer 中用到 LayerNorm。

收藏 人收藏
分享:

評論

相關推薦

Waymo利用DeepMind的進化AI技術來訓練自動駕駛汽車算法

該方法最初由DeepMind發明,是先前的AI項目的一部分,該方法借鑒了進化的線索來增強AI模型。 ....
的頭像 倩倩 發表于 03-31 16:06 ? 109次 閱讀
Waymo利用DeepMind的進化AI技術來訓練自動駕駛汽車算法

中國的聯想集團有限公司正在與英特爾公司合作

兩家公司表示,未來的計劃是利用英特爾技術優化聯想基于云的TruScale Infrastructur....
的頭像 倩倩 發表于 03-31 16:00 ? 155次 閱讀
中國的聯想集團有限公司正在與英特爾公司合作

人工智能地震監測系統有多牛

隨著人工智能的應用越來越充分,他們分析大量地震數據的方式發生了改變,這將有助于人們更好地了解地震,預....
發表于 03-31 11:20 ? 121次 閱讀
人工智能地震監測系統有多牛

人工智能與心理學能否完美配合

從構成單位上看,人腦的神經網絡與深度神經網絡非常不同,深度神經網絡最小單元一般為同類的神經元,但人腦....
發表于 03-31 11:12 ? 19次 閱讀
人工智能與心理學能否完美配合

美國研究便攜式人臉識別設備 能識別一公里外的目標

來自外媒消息,近日,在《新科學》雜志刊登了一篇報道:美國軍方正在開發一種便攜式人臉識別設備,能夠識別....
的頭像 汽車玩家 發表于 03-31 09:18 ? 110次 閱讀
美國研究便攜式人臉識別設備 能識別一公里外的目標

Facebook Inc.開放了一個名為AI Habitat的平臺的源代碼

為了幫助加快這一進程,Facebook Inc.今天開放了一個名為AI Habitat的平臺的源代碼....
的頭像 倩倩 發表于 03-30 15:36 ? 100次 閱讀
Facebook Inc.開放了一個名為AI Habitat的平臺的源代碼

英特爾公司正在與百度公司合作

這項合作擴展了兩家公司之間的伙伴關系,這種伙伴關系可以追溯到近十年。近年來,兩家公司已經合作在百度的....
的頭像 倩倩 發表于 03-30 15:16 ? 140次 閱讀
英特爾公司正在與百度公司合作

機器學習帶來了怎樣的改變

盡管無人駕駛汽車和機器人技術可能占據了新聞頭條,但人工智能、深度學習以及類似技術可能會讓它們的最大影....
發表于 03-30 14:42 ? 140次 閱讀
機器學習帶來了怎樣的改變

深度學習對于生物學有什么影響

卷積神經網絡能夠讓計算機高效而且完整的處理圖像,而且不需要再對圖像進行分解。
發表于 03-30 14:15 ? 126次 閱讀
深度學習對于生物學有什么影響

AI技術最主要用在哪些地方

人工智能技術應用的細分領域:深度學習、計算機視覺、智能機器人、虛擬個人助理、自然語言處理—語音識別、....
發表于 03-30 10:48 ? 42次 閱讀
AI技術最主要用在哪些地方

機器學習需要具備哪一些數學基礎

我們說到,線性代數起作用是在表示的過程當中。在評價過程中,我們需要使用到概率統計。概率統計包括了兩個....
發表于 03-30 10:02 ? 24次 閱讀
機器學習需要具備哪一些數學基礎

需要了解哪一些神經網絡架構

機器學習方法如下:它沒有為每個特定的任務編寫相應的程序,而是收集大量事例,為給定輸入指定正確輸出。
發表于 03-30 09:41 ? 21次 閱讀
需要了解哪一些神經網絡架構

過份追捧人工智能會帶來什么后果

人工智能技術--深度學習,由于其能夠在影像辨識和語音翻譯等上獲得強大成功,甚至其可以幫助自動駕駛汽車....
發表于 03-29 16:45 ? 14次 閱讀
過份追捧人工智能會帶來什么后果

Google發布降水預報的神經天氣模型 幾秒鐘進行預測

據外媒報道,近日,在先前對降水量預報的研究基礎上,Google提出了MetNet,這是一種用于降水預....
的頭像 汽車玩家 發表于 03-29 13:45 ? 207次 閱讀
Google發布降水預報的神經天氣模型 幾秒鐘進行預測

AI能夠實現預測疫情嗎

在預測疫情傳播和追根溯源方面,利用深度學習等新興人工智能技術,聯合出行軌跡流動信息、社交信息、消費數....
發表于 03-28 11:12 ? 310次 閱讀
AI能夠實現預測疫情嗎

加速度傳感器會成為竊聽的工具?

對于手機加速度計的原理以及如何被利用來監聽電話的問題,任奎教授表示,加速度傳感器(又稱加速計)是目前....
發表于 03-28 09:41 ? 74次 閱讀
加速度傳感器會成為竊聽的工具?

光學3D傳感器可以讓物體變得“透明”?

隨著傳感器技術的不斷發展,各種各樣的傳感器被研制出來,其中就包括光學 3D 傳感器。
發表于 03-28 09:31 ? 62次 閱讀
光學3D傳感器可以讓物體變得“透明”?

如何使用小波神經網絡實現溫度傳感器非線性補償的研究

針對熱敏電阻溫度傳感器應用中存在的非線性問題,提出了應用小波神經網絡實現其非線性補償的方法,介紹了非....
發表于 03-27 17:18 ? 32次 閱讀
如何使用小波神經網絡實現溫度傳感器非線性補償的研究

如何使用神經網絡的融合實現溫度傳感器誤差補償的資料說明

海底油氣輸送管道漏磁檢測裝置工作于高溫高壓環境下,其中的InSb霍爾傳感器對溫度敏感,需要補償溫度誤....
發表于 03-27 17:18 ? 27次 閱讀
如何使用神經網絡的融合實現溫度傳感器誤差補償的資料說明

深度神經網絡的實現機理與決策邏輯難以理解

人工智能系統所面臨的兩大安全問題的根源在于深度神經網絡的不可解釋性。深度神經網絡可解釋性定義為可判讀....
的頭像 倩倩 發表于 03-27 15:56 ? 158次 閱讀
深度神經網絡的實現機理與決策邏輯難以理解

科學家繪制哺乳動物腦組織圖

由馬普腦科學研究所主任莫里茲·赫爾姆斯特德領導的研究小組分析了一只4周齡小鼠大腦皮層的活檢腦組織。該....
的頭像 倩倩 發表于 03-27 15:53 ? 250次 閱讀
科學家繪制哺乳動物腦組織圖

邊緣計算中深度神經網絡剪枝壓縮的研究

深度神經網絡與其他很多機器學習模型一樣,可分為訓練和推理兩個階段。訓練階段根據數據學習模型中的參數(....
的頭像 倩倩 發表于 03-27 15:50 ? 197次 閱讀
邊緣計算中深度神經網絡剪枝壓縮的研究

5行代碼打造無限寬神經網絡模型

但是,問題來了:推導有限網絡的無限寬度限制需要大量的數學知識,并且必須針對不同研究的體系結構分別進行....
的頭像 倩倩 發表于 03-27 15:47 ? 921次 閱讀
5行代碼打造無限寬神經網絡模型

卷積神經網絡有以下幾種應用可供研究

卷積神經網絡與傳統的人臉檢測方法不同,它是通過直接作用于輸入樣本,用樣本來訓練網絡并最終實現檢測任務....
的頭像 倩倩 發表于 03-27 15:43 ? 176次 閱讀
卷積神經網絡有以下幾種應用可供研究

機器學習或將能夠解決時空問題

神經網絡能夠以一種流行的方法進行重要的計算,以統一廣義相對論的量子力學。
發表于 03-27 15:42 ? 159次 閱讀
機器學習或將能夠解決時空問題

基于AI,機器學習和開源社區的復雜智能攻擊正在增加

全球安全公司Fortinet Korea(首席執行官Won-Kyun Cho)宣布推出fortiAI....
的頭像 倩倩 發表于 03-27 15:41 ? 260次 閱讀
基于AI,機器學習和開源社區的復雜智能攻擊正在增加

脈沖神經網絡成為下一代機器學習?

脈沖神經網絡將脈沖神經元作為計算單元,能夠模仿人類大腦的信息編碼和處理過程。不同于CNN使用具體的值....
的頭像 倩倩 發表于 03-27 15:37 ? 263次 閱讀
脈沖神經網絡成為下一代機器學習?

基于硅量子位的可容錯量子計算機體系結構的一種構建方法

這允許以單個晶格來高度精確地找到原子的量子點位,不過下一個挑戰,就是如何將這種精確的空間定位方法,擴....
的頭像 倩倩 發表于 03-27 15:34 ? 820次 閱讀
基于硅量子位的可容錯量子計算機體系結構的一種構建方法

使用numpy Python庫從零開始構建人工神經網絡

人工神經網絡是一種監督式學習算法,這意味著我們為它提供含有自變量的輸入數據和含有因變量的輸出數據。比....
的頭像 倩倩 發表于 03-27 15:29 ? 195次 閱讀
使用numpy Python庫從零開始構建人工神經網絡

信息保留的二值神經網絡IR-Net,落地性能和實用性俱佳

IR-Net提供了一個全新的角度來理解二值神經網絡是如何運行的,并且具有很好的通用性,可以在標準的網....
的頭像 倩倩 發表于 03-27 15:25 ? 174次 閱讀
信息保留的二值神經網絡IR-Net,落地性能和實用性俱佳

賦予機器自主設計模型“能力”,一文概覽結構搜索的起源

隨著近年來計算機設備的算力以及存儲能力逐年遞增,人們逐漸開始去思考是否我們可以讓計算機像學網絡參數一....
的頭像 倩倩 發表于 03-27 15:21 ? 195次 閱讀
賦予機器自主設計模型“能力”,一文概覽結構搜索的起源

深度神經網絡竟然是模塊化的?

先把數據轉換為圖,所有的數據看做是空間中的點,點和點之間用邊相連。距離較遠的兩個點,它們之間邊的權重....
的頭像 倩倩 發表于 03-27 15:16 ? 154次 閱讀
深度神經網絡竟然是模塊化的?

沒有乘法的神經網絡,你敢想象嗎?

現階段的AdderNet并非沒有缺陷,作者在項目主頁中說,由于AdderNet是用加法過濾器實現的,....
的頭像 倩倩 發表于 03-27 15:11 ? 145次 閱讀
沒有乘法的神經網絡,你敢想象嗎?

如何從其龐大的客戶車隊中獲取訓練數據,以訓練其自動駕駛神經網絡

卡帕西描述了在應用程序中為深度學習培訓收集數據的問題:“用于自動駕駛等應用的深度學習系統是通過訓練機....
的頭像 倩倩 發表于 03-27 15:03 ? 270次 閱讀
如何從其龐大的客戶車隊中獲取訓練數據,以訓練其自動駕駛神經網絡

Facebook為人工智能研究開放輕量級交互式可視化庫/工具HiPlot

能夠選擇將HiPlot用作notebook中的python庫或網絡應用程序,就可以馬上開始對其進行使....
的頭像 倩倩 發表于 03-27 14:52 ? 231次 閱讀
Facebook為人工智能研究開放輕量級交互式可視化庫/工具HiPlot

嵌入式技術在人工智能師時代遇到什么機遇

隨著大數據和深度神經網絡等技術的飛速發展,人工智能在語音分析、計算機視覺以及自然語言處理等方面取得巨....
發表于 03-27 13:58 ? 26次 閱讀
嵌入式技術在人工智能師時代遇到什么機遇

深度學習技術已顯示出永久改變心臟MRI的潛力

實際上,研究人員發現,深度學習可以幫助提供者通過結構量化,功能量化,應變和運動量化,組織量化等方式來....
的頭像 倩倩 發表于 03-26 16:04 ? 282次 閱讀
深度學習技術已顯示出永久改變心臟MRI的潛力

全球AI開發框架又添一員,曠視開源“天元”

學界和業界的共同努力下,誕生了早期從學術界走出的 Caffe、 Torch 和 Theano,現如今....
的頭像 倩倩 發表于 03-26 16:01 ? 359次 閱讀
全球AI開發框架又添一員,曠視開源“天元”

國際首部完整講授當代深度學習計算系統軟硬件技術棧的教材

我國智能計算系統能力的缺失原因,可謂眾說紛紜。我個人感覺,人才教育可能是最根本的原因之一(這或許是因....
的頭像 倩倩 發表于 03-26 15:58 ? 281次 閱讀
國際首部完整講授當代深度學習計算系統軟硬件技術棧的教材

“天元”訓練推理一體化、兼容并包、靈活高效

簡單回想一下人工智能發展初期,想要訓練出一個AI模型,至少需要一兩個月,而且開發者要通過手敲代碼完成....
的頭像 倩倩 發表于 03-26 15:52 ? 295次 閱讀
“天元”訓練推理一體化、兼容并包、靈活高效

一個全新的深度學習框架——計圖

清華大學計算機系胡事民教授研究團隊提出了一個全新的深度學習框架——計圖(Jittor)。Jittor....
的頭像 倩倩 發表于 03-26 15:50 ? 327次 閱讀
一個全新的深度學習框架——計圖

研究人員推出了一種新的基于深度學習的策略

蘇黎世聯邦理工學院的研究人員最近推出了一種新的基于深度學習的策略,該策略可以在不需要大量真實數據的情....
的頭像 倩倩 發表于 03-26 15:47 ? 262次 閱讀
研究人員推出了一種新的基于深度學習的策略

又一家中國企業曠視開源深度學習框架

此前,百度相關人士曾對AI財經社介紹,深度學習框架就像智能時代的操作系統,它向下接芯片、大型計算機系....
的頭像 倩倩 發表于 03-26 15:45 ? 541次 閱讀
又一家中國企業曠視開源深度學習框架

基于神經網絡融合的傳感器怎么消除溫度誤差?

目前,我國在役長距離油氣輸送管道總長兩萬公里左右,腐蝕導致的油氣泄漏事故時有發生,造成了經濟損失、能源浪費。因此,對油氣...
發表于 03-06 08:16 ? 154次 閱讀
基于神經網絡融合的傳感器怎么消除溫度誤差?

BP神經網絡PID控制電機模型仿真

求一個simulink的蓄電池用BP神經網絡PID控制電機加速勻速減速運動的模型仿真...
發表于 02-22 02:17 ? 326次 閱讀
BP神經網絡PID控制電機模型仿真

BP模糊神經網絡純電動汽車電機控制

針對傳統比例積分(PI)控制在電機控制中控制效果不良的問題,設計了一種基于向后傳播算法(BP)模糊神經網絡的PI控制器。...
發表于 12-10 16:32 ? 731次 閱讀
BP模糊神經網絡純電動汽車電機控制

深度學習入門

發表于 12-03 18:11 ? 474次 閱讀
深度學習入門

BiLSTM模型的CRF層是怎么工作的?

BiLSTM模型中CRF層的運行原理-1
發表于 11-06 09:26 ? 249次 閱讀
BiLSTM模型的CRF層是怎么工作的?

平衡Winnow算法在短信過濾系統上有什么應用?

手機短信以其短小、迅速、簡便、價格低廉等優點成為一種重要的通信和交流方式,受到眾多人士的青睞。然而, 手機短信與郵件一樣存...
發表于 11-01 07:04 ? 265次 閱讀
平衡Winnow算法在短信過濾系統上有什么應用?

淺析監督學習算法MLPClassifier

sklearn 神經網絡 MLPClassifier簡單應用與參數說明...
發表于 10-23 10:46 ? 316次 閱讀
淺析監督學習算法MLPClassifier

如何設計基于FPGA的通用CNN加速?

隨著互聯網用戶的快速增長,數據體量的急劇膨脹,數據中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數據分析和金融分析...
發表于 10-23 07:17 ? 400次 閱讀
如何設計基于FPGA的通用CNN加速?

FPGA和深度學習有什么關系?

人工智能的風潮從技術一路蔓延到硬件,讓“芯片”成為今年行業里盛極一時的主題。人們關注通用芯片領域里CPU和GPU不斷刷新...
發表于 10-18 08:30 ? 356次 閱讀
FPGA和深度學習有什么關系?

用代碼實現人工神經網絡原理

學習筆記CB014TensorFlow seq2seq模型步步進階
發表于 10-12 07:34 ? 255次 閱讀
用代碼實現人工神經網絡原理
神马电影院午夜视频