神碁智慧·算領未來 | 太初2024優秀開發者故事

發布時間：2025-01-23

2024年，太初舉辦了多場精彩紛呈的開發者生態活動，例如：元碁智匯·定義未來-模型復現賽、SDAA C算子挑戰賽、開放原子大賽-Tecorigin挑戰賽等，吸引了數百位開發者參加。伴隨著SDAA生態的孕育，開發者們在各個活動中大放異彩。

西安交通大學張棟旭：

優化算子性能，提升計算效率

張棟旭同學是西安交通大學軟件工程專業的在讀研究生，曾獲得計算機能力挑戰賽C++組國家二等獎，以及計算機網絡對戰賽西北賽區一等獎，并發表了三篇學術論文。2024年Q4，他與香港中文大學和北京師范大學的兩名隊友一起，在開放原子大賽-Tecorigin算子開發任務挑戰賽中，榮獲一等獎。

在比賽中，張棟旭基于太初 AI 加速卡，對 Conv_forward 這一 CNN 卷積前向傳播的關鍵操作進行了深度優化。他通過將預處理邏輯從設備端轉移到 CPU 端，避免了設備端計算資源的浪費；手動調整初始分塊參數，實現了線程負載的均衡，有效減少了性能瓶頸；同時運用 SIMD 加速，替換了原有的數據寫回方式，大幅降低了開銷。經過一系列優化，性能得到了顯著提升，從優化前的 18.25 ms降低至優化后的 8.41 ms，充分展現了太初AI加速卡在性能優化方面的強大潛力。

張棟旭表示：

通過參加本場賽事，在高性能計算方面的知識得到了顯著積累，加深了對算子性能優化方法的理解與應用。將復雜問題中的前處理與計算任務有效分離，這不僅提高了代碼的執行效率，還使得代碼結構更加清晰，易于維護和擴展。比賽所提供的教程詳盡且易于上手。這些教程不僅系統地介紹了SDAA C的基本概念，還通過實例引導我快速實踐，極大地降低了學習門檻，使我在短時間內能掌握核心知識。感謝大賽官方提供的機會，也感謝團隊的努力與支持。

北京郵電大學王濤：

復現開源視覺模型，超越官方指標

王濤同學是北京郵電大學電子科學與技術專業的在讀博士，研究方向涵蓋人體姿態估計、后處理和生成等領域，曾以第一作者身份在 AI 頂會 ACM MM、CVPR 上發表兩篇論文。2024年Q2，王濤參加了太初的小模型復現比賽，基于太初AI加速卡對開源模型進行適配優化，獲得了元碁開物初級認證。

考慮到全連接網絡（FCN）在人工智能領域的基礎性地位，王濤首先復現了基于FCN的人體姿態后處理算法SmoothNet。得益于TecoPyTorch框架優秀的接口適配，王濤僅更改了幾行代碼就將基于CUDA設備的代碼遷移到了SDAA設備上，完成了SmoothNet pipeline的復現。進一步，他在TecoPyTorch上開啟了混合精度訓練，成功將模型訓練速度提升了40%。最終，復現模型不僅達到了官方基準性能，更在部分指標上超越了原論文報告的結果，充分展現了太初AI加速卡在硬件和軟件層面的卓越計算精度。

在第二個模型的選擇上，王濤著眼于當前主導大語言模型領域的Transformer架構，探索太初AI加速卡的廣泛適用性。他選取了基于Transformer的人體動作預測網絡MRT作為研究對象，通過規范化官方開源代碼，使其能夠兼容CPU、CUDA和SDAA等多種設備，為用戶提供了靈活的設備選擇空間。隨后，他深入探索了TecoPyTorch的多卡訓練能力，通過三種不同的啟動方式實現多卡并行訓練，并結合混合精度技術進一步優化了MRT的訓練效率。這種訓練策略具有廣泛的適用性，能夠滿足大多數科研工作者的需求。最終，復現模型完全達到了官方性能標準，這充分證明了TecoPyTorch對Transformer架構的良好支持。

王濤表示：

回顧整個參賽歷程，我不僅深化了對混合精度訓練和多卡并行技術的理解，更在評委們嚴謹的評審標準下提升了代碼接口規范化的意識。太初軟件生態的卓越適配性給我留下了深刻印象：僅需一條簡單命令即可完成模型設備的遷移，極大降低了科研人員的遷移成本。TecoPyTorch提供的教程文檔內容豐富、易于理解，顯著降低了學習曲線。特別值得一提的是，太初AI加速卡在顯著提升訓練速度的同時，其超低功耗特性也為降低訓練過程中的碳排放做出了重要貢獻。我十分期待在未來的科研工作中繼續使用太初AI加速卡，為推動AI技術的發展貢獻自己的力量。

蘇州大學蘇儀：

適配自研大模型，拓展應用邊界

蘇儀是蘇州大學計算機科學與技術專業的在讀研究生，主要研究方向為大語言模型的預訓練和推理加速。他曾以第一/共一作者身份在頂會 ACL、EMNLP 上發表了三篇論文。蘇儀基于太初 AI 加速卡，對蘇大自研的大語言模型 OpenBA-V2 進行了適配和指令微調，取得了顯著成果。

在適配過程中，蘇儀修改了 cross-attention API，使其支持 OpenBA-V2 的 encoder-decoder 類型；在將文本轉換成tokens的過程中，增加了 SentencePieceTokenizer；針對optimized-ul2預訓練任務，添加數據預處理代碼。微調過程中，他針對 optimized-ul2 預訓練任務，添加了數據預處理代碼，并搜集處理了 1 億條中英指令數據；針對 8 機 64 卡與實際模型結構，調整了分布式策略，修改 TP、DP、PP 參數，以獲得最優的硬件利用率；同時，在多機多卡的訓練過程中進行了精度排查，提升了模型的可靠性。最終，微調后的 OpenBA-V2 在 C-Eval、MMLU、CMMLU 數據集上的評測準確率分別提升了 13%、13%、12%。

蘇儀表示：

本次活動中我獲得了十分難得的多機多卡訓練機會，在64卡上完成了自研模型的訓練。使用 torch2.0 以上版本 + 太初開發的 torch_sdaa 后端，可以在用戶層面實現太初AI加速卡和友商加速卡的無縫切換。通過這次活動，還學習了分布式系統下的debug技巧，以及如何在分布式訓練的場景下通過調整超參提升模型的訓練效率，這對我以后的訓練經驗是非常重要。

總結與展望

2024年，太初生態活動不僅為開發者提供了強大的算力和易用的軟件，還通過豐富的教程和文檔，幫助開發者快速上手，輕松完成模型運行、應用開發/運行、模型遷移、算子開發、自研模型開發等任務。

通過參加太初生態活動，開發者們不僅提升了自身的技術水平，還加深了對算子優化、混合精度訓練、多機多卡訓練、分布式系統調試等方面的理解。開發者們對太初AI加速卡強大的計算能力及軟件優秀的適配性給予了高度評價。

展望未來，我們將為開發者提供更多精彩的生態活動，希望更多的開發者能夠加入到這一充滿活力的社區中，共同探索 AI 技術的無限可能，為構建未來智能世界貢獻自己的力量。

永久免费观看国产裸体美女_亚洲不卡av不卡一区二区_亚洲国产精品国语在线_99精品偷拍视频一区二区三区_色播在线播放_亚洲不卡免费视频

太初資訊

神碁智慧·算領未來 | 太初2024優秀開發者故事