AMD CPUの不具合とその対処方法について【トゥモロー・ネット テックブログ】

平素より当社のサーバをご愛用いただき、誠に有難うございます。
2023年4月にAMDのCPUに関する不具合情報が公開されました。
この記事では、その具体的な内容と対処方法についてご紹介します。
目次
不具合の概要
AMDのCPUに関するエラッタとして、CPUが稼働してから約1,044日以上経過すると、CPUコアがCC6ステートから正常に終了できず、システムがハングアップするという事象が確認されています。
Linux (CentOS等) における対処方法
1. msr toolsのインストール
まずは、msr toolsをLinux OSにインストールします。
$ yum -y install msr tools
2. 状態確認
以下のコマンドで現在の状態を確認します。もし、全コアが80808の場合はすでに無効状態です。それ以外の場合は次の手順に進んでください。
$ sudo rdmsr -a 0xC0010296
3. 値の変更
コマンド”wrmsr”を使用して、特定の値を変更します。
$ sudo wrmsr -a 0xC0010296 0x80808
4. 変更確認
以下のコマンドで、変更が適切に行われたかを確認します。
$ sudo rdmsr -a 0xC0010296
注意事項
msr toolsでの変更は再起動後に保持されません。そのため、再起動後も設定を維持したい場合は、適切なスクリプトや設定ファイルを使用して、変更を再適用する必要があります。
VMware ESXi ESXi6 or 7系での対処方法
VMware社が提供するナレッジベースにて対応方法が紹介されています。
詳細は以下のリンクからご確認ください。
VMware Knowledge Base
VMware Knowledge Baseはこちら
参考URL
AMD公式技術資料
AMD公式技術資料はこちら
この記事を書いた人

株式会社トゥモロー・ネット カスタマーサポート部門
皆様のサーバー運用において、少しでもお役に立つ情報をこれからの投稿でも提供していきます。何かご不明点や質問がございましたら、いつでもお気軽にお問い合わせください。お問合せはこちらトゥモロー・ネットは「ITをもとに楽しい未来へつなごう」という経営理念のもと、感動や喜びのある、より良い社会へと導く企業を目指し、最先端のテクノロジーとサステナブルなインフラを提供しています。設立以来培ってきたハードウェア・ソフトウェア製造・販売、運用、保守などインフラに関わる豊富な実績と近年注力するAIサービスのコンサルティング、開発、運用、サポートにより、国内システムインテグレーション市場においてユニークなポジションを確立しています。インフラからAIサービスまで包括的に提供することで、システム全体の柔軟性、ユーザビリティ、コストの最適化、パフォーマンス向上など、お客様の細かなニーズに沿った提案を行っています。