2024-04-06 (Sat) - biochem

電気ストーブを 10 日ほど使わなかったので片付けた。

バッテリー

古い機器の維持のため、半年(?)ぶりにバッテリーの自然放電状況を確認。Nexus 7 74 %, iPad 97 % だったため、充電せず、そのまま保管。Mac Book Pro は 44 % だったので充電。

→ 次回は 11/4。

読んだ

ウィンタブ "ARM は x86 より効率がいいというのは過去の神話"
自分も昔はこの誤解をしていた。PCIe が大量の電力を食うというのは知らなかった。
CISC 的な複雑な命令はデコーダを複雑化しそうだが、デコーダが占めるダイ面積は限定的だし、レジスタ間の依存関係が固定的になって OoO 実行のための解析がかえって容易になるという利点もあるそうだ。
ウィンタブ "Core Ultra / Meteor lake、実際のところどうなの? －マルチ性能、電池持ち、GPU で大きな進歩"
しっかりした分析。Intel 4 は高密度(高効率)セルがない or 弱いというのは知らなかった。あれほど喧伝された LP-E core があまり寄与していないっぽいというのは残念。NPU の点でも消費電力の点でも Lunar Lake が本命になってくるのは分かるけど、あれはメモリも統合した、省電力に全振りみたいな位置づけらしいからなあ。
Chips and Cheese "Nvidia’s H100: Funny L2, and Tons of Bandwidth"
bandwidth よりも latency を重視するゲーム用クライアント GPU と、データセンタ用 GPU の違いがよく分かる。H100 は AI 向けと言われるが、A100 の弱点だった FP32 や FP64 を強化してはいるのね。
Tech PowerUp "NVIDIA H100 Hopper GPU Tested for Gaming, Slower Than Integrated GPU"
とはいえ、H100 のレンダリング性能が Radeon 680M にすら劣るというのは驚きだった。ROP (Render Output Units) が 24 で、GA102 の 112 よりはるかに少ないとはいえ、こんなに違うものなのか。
Chips and Cheese "AVX10/128 is a silly idea and should be completely removed from the specification"
AVX10 のこと、PC watch 等の記事ではよく分からなかったが、これでだいぶスッキリした。演算器の幅が狭くてもレジスタさえあればループすることで(速度はともかく) 512 bit SIMD 命令とかを実装できるけど、レジスタの幅が狭かったらたしかにどうしようもないね。
でも、AVX10/128 という仕様で 128 bit レジスタ幅を認めてしまうと AVX2 よりも劣るという主張がよく分からなかった。AVX10/128 も 16 本の 256 bit YMM レジスタは実装して AVX2 はサポートするわけだから "downgrade over AVX2" とはいえないのでは。32 本実装して AVX10/256 を最低ラインにしておけば variant の数が増大しなくて助かるという主張は同意できるけど。それとも暗に AVX2 は 256 bit 幅の演算器を備えていると仮定していて、AVX10/128 だと AVX256 命令を 128 bit 演算器の double pumping で実装されることもあるから劣ると言いたいのだろうか。しかし、記事にあるように Zen1, Bulldozer, Gracemont が AVX2 についてまさにそれをしているわけでしょ。つまるところ、AVX2 より後で追加された SIMD 命令が最低 256 bit 幅のレジスタに対して動くようにしてほしいという主張かな。