#automation のAIニュース
23件の記事
Gemini 3.5 Flash にコンピュータ操作機能を導入
Google が軽量モデル「Gemini 3.5 Flash」にネイティブのコンピュータ操作機能を追加し、連続するスクリーンショットを解析してデスクトップ上のクリックやスクロール、入力操作を直接実行可能にした。
Gemini 3.5 Flash にコンピュータ操作機能を導入
Google DeepMind は、AI モデル「Gemini 3.5 Flash」に、ユーザーの代わりにブラウザやアプリケーションを直接操作する機能を実装したと発表した。これにより、複雑なタスクの自動化が可能になる。
AI エージェント向けのクラウドフレア一時アカウントの提供開始
クラウドフレアは、AI エージェントが人間向けに設計された認証フロー(ブラウザ操作や多要素認証など)に直面して停止する問題を解決するため、エージェント専用の一時アカウント機能をリリースした。
Photoshop と Premiere に AI アシスタントが搭載
Adobe が Creative Cloud の主要アプリに個別の AI アシスタントを公開ベータとして導入し、編集・デザイン業務を支援する機能を展開した。
Moonshot AI、Kimi K2.6搭載のローカルデスクトップエージェント「Kimi Work」を発表
北京のAI企業Moonshot AIは、ユーザーのPC上で動作するローカル型AIエージェント「Kimi Work」をリリースした。同製品はKimi K2.6モデルを搭載し、300ものサブエージェントからなる群れで構成され、ローカルファイルの閲覧やブラウザ操作、スケジュールタスクの実行を可能にする。
退屈な PDF タスクを自動化する Python スクリプト 5 つ
KDnuggets は、PDF の処理や変換など日常的な作業を自動化するための有用な Python スクリプト 5 つを紹介した。
アップルの最良の AI アイデアは「バイブコーディング」に似ている
The Verge は、アップルが WWDC で発表した Siri の新機能や画像生成ツールなどの AI 施策が、他社と大差なく競合他社の後追い状態にあると指摘し、同社の最良のアイデアは「バイブコーディング」のような直感的な開発体験に似ていると分析した。
エージェントが2つのHugging Face Spaceを連鎖させて3Dのパリ美術館を構築した方法
Hugging Face Blogは、AIエージェントが2つの異なるHugging Face Spaceを連携させることで、3D形式のパリ美術館を構築するプロセスを紹介している。
Claude Managed Agents に新機能:スケジュール実行と Vault での環境変数保存が可能に
Anthropic は Claude Managed Agents に、エージェントをスケジュール通りに実行する機能と、Vault を使用して環境変数を安全に保存する機能を追加しました。
Apple、新ショートカットアプリで AI を活用したワークフロー構築を可能に
Apple は新しいショートカットアプリにおいて、ユーザーが AI を利用して自動化ワークフローを構築できる機能を追加すると発表した。
今日は何も大きな出来事はありませんでした
Smol AI News は、5 月 16 日から 18 日にかけての期間に、主要なニュースや技術進展がない静かな日であったと報告しています。
コード自動化とカスタマイズが容易に:Codex にフック機能とプログラムトークンを追加
OpenAI は、コード処理の主要なタイミングでスクリプトを実行できるフック機能と、ビジネス・エンタープライズチーム向けのスコープ限定認証情報を提供するプログラムアクセス機能を Codex に実装し、コードの自動化とカスタマイズを容易にした。
Codex はプロシューマー向けだ - その理由と移行方法(4 分読)
a16z のオリビア・ムーアは、非技術系の知識労働者に対し、Claude との切り替えを不要にする OpenAI の Codex デスクトップアプリへの移行を推奨している。同氏は、プラグインや自動化機能により、スキル設定の難易度が低下し、市場形成が期待できると述べている。
スクリプトのシェバング行に大規模言語モデルを使用する
開発者がテキストファイルの先頭にシェバング記述を追加し、LLM を直接実行可能にする実験的パターンを紹介した。
構造化 API よりも視覚エージェントの使用コストが45倍高いという現実
API を提供していない Web アプリの操作において、多くのチームはコストのかかる構造化インターフェース作成を避け、視覚エージェントを採用している。しかし、このアプローチは詳細なプロンプトが必要でミスが多く、高価であることが示された。
Amazon Bedrock AgentCore Browser に OS レベルの操作機能を追加
Amazon は、Bedrock AgentCore Browser の新機能として、ネイティブダイアログやセキュリティプロンプトなど、従来の Web 層では扱えなかった OS レベルの操作を可能にする機能を導入した。これにより、AI エージェントがブラウザ外のリソースにも安全にアクセスできるようになる。
MolmoWeb:ウェブタスクを自動化するオープンエージェント
MolmoWebは、スクリーンショットのみでブラウザを操作しタスクを完了するオープンな視覚ウェブエージェントです。また、同様のエージェントの学習に使用される最大規模の公開データセット「MolmoWebMix」も同時に公開されました。
10年後、私の仕事はまだ存在しているだろうか
著者が、AIや自動化の進展により、自身の仕事が10年後も存続するか不確実性を感じていることを述べている。
エージェント向けに最適化されたVercel Marketplace統合用Vercel CLI
Vercelが、AIエージェントがVercel Marketplaceの統合機能を自律的に発見・インストール・設定できるVercel CLIを発表した。これにより、データベースや認証などのサービスを一貫したワークフローで設定可能となる。
懐疑者へ、AIは確かにプログラミング業界を変えている
ブロックCEOのジャック・ドーシー氏は、4000人以上の人員削減を発表し、株価は上昇した。彼はAIツールの活用と小規模なチーム編成により、企業の構築・運営方法が根本的に変化していると述べた。
AIは自動的に法律サービスを安くしない
ハーバード法科大学院の学生との共著で、AIが知識労働を変革するとする見通しに対し、法律サービス分野では自動的な価格低下が起こらない可能性を示唆している。
最新AI技術情報をキャッチアップするAIエージェントを作成し、研究開発業務の一部を自動化した
AI技術の急速な進歩に追いつくため、AIエージェントを開発し、研究開発業務の一部を自動化する試みを実施した。
iOSアプリの週次リリースを支える技術
SmartNewsアプリの急成長とチーム拡大の中で、iOSチームが週次リリースを実現する技術的取り組みについて紹介。