Claude 4.6 Sonnet登場|人間レベルのPC操作で実務作業が短縮

ニュース

米Anthropic社は、2026年2月17日、最新モデル「Claude 4.6 Sonnet」をリリースしました。

前モデルの4.5からわずか数ヶ月での更新です。最大の特徴は、PC画面を認識して自律的に操作する「Computer Use」機能の進化です。PC操作をAIが自動的に処理できる能力が向上し、単純作業をAIに任せたり複雑な処理を短時間で処理できることが期待されます。

現在、無料・有料プランのすべてにおいて、Web版およびアプリ版のデフォルトモデルとして提供されています。


Claude 4.6 Sonnet できるようになったこと

今回のアップデートでは、主に以下の3点が強化されました。

  • PC自律操作(Computer Use)の精度向上
    • OSWorldベンチマークで**72.5%**を達成。ブラウザの操作、Excelへの入力、多段階のWebフォーム入力などの複雑な作業を、人間と同等の精度で実行します。
  • 100万トークンのコンテキストウィンドウ(ベータ版)
    • 一度に処理できる情報量が**100万トークン(約75万ワード)**へ拡大。大規模なコードベースや数百ページの資料を一度に読み取ることが可能です。
  • 「Adaptive Thinking(適応型思考)」の実装
    • タスクの難易度に応じてAIが「思考の深さ」を自動調整します。簡単な回答は素早く、複雑な論理展開が必要な課題には時間をかけて精度を高めます。
  • Computer Use AIが人間と同じようにPC画面を認識し、マウス操作や入力を代行する機能です。
  • トークン AIが文字を処理する際の最小単位で、100万トークンは日本語で約75万文字に相当します。
  • コンテキストウィンドウ AIが一度に記憶し、処理できる情報の長さを指します
OSWorldベンチマークにおけるいくつかのSonnetモデルのスコアを比較したグラフ
SonnetのComputer Use 機能の向上を示すグラフ

ユーザーの7割がSonnet4.6を支持(Sonnet 4.5比)

最新のClaude 4.6 Sonnetは、初期テストにおいて約70%のユーザーが旧モデル(Sonnet 4.5)よりも好ましいと回答しました。Claude 4.6 Sonnetは、コードの背景情報をより正確に把握することで、共通ロジックを重複なくスマートに統合し、読み取り効率とロジックの最適化を同時に実現しています。

「Claude 4.6 Sonnet」と他AIの比較

一般的なベンチマークと、他のフロンティアモデルと比較したSonnet 4.6の相対的なパフォーマンスの表

各種ベンチマークによる他AIとの比較をまとめました。

優れている点:競合や上位モデルを上回る実務能力
  • Office tasks(1633):事務処理の総合力は表の中で最高スコアであり、標準的なオフィス業務において最も高いパフォーマンスを発揮します。
  • Agentic computer use(72.5%):PCの自律操作精度はGPT-5.2(38.2%)の約2倍であり、AIが直接ソフトウェアを操作する作業で圧倒的な優位性があります。
  • Agentic financial analysis(63.3%):財務分析の精度は上位モデルのOpus 4.6(60.1%)を超えており、専門的なデータ解析において高い投資対効果(ROI)を有します。
劣っている点:高度な推論や新領域での課題
  • Novel problem-solving(58.3%):前例のない未知の課題を解く能力は、上位モデルのOpus 4.6(68.8%)に一歩譲ります。
  • Graduate-level reasoning(89.9%):大学院レベルの高度な論理推論では、GPT-5.2(93.2%)やGemini 3 Pro(91.9%)に僅差で及びません。
  • Multilingual Q&A(89.3%):多言語対応の精度はGemini 3 Pro(91.8%)に劣るため、非常に複雑な多言語翻訳やマイナー言語の処理には注意が必要です。

Claude 4.6 Sonnetは、「知能テスト(推論力)」ではChatGPTやOpusに劣るものの、「ビジネス実務(事務・PC操作・専門分析)」では、高い性能を発揮します

まとめ

Claude 4.6 Sonnetは、事務・分析能力において、上位モデルのOpus4.6と同等に近い性能、他AIと比較して優位な性能を持つ一方、Opus4.6より低価格(入力 $3 / 出力 $15(100万トークンあたり))で提供しています。「実務の代行コスパ」に優れており、ビジネス現場での利用価値が高いモデルと言えます。