#データ分析 のAIニュース
36件の記事
datasette-acl 0.6a0 のリリース
Alex Garcia 氏らが中心となり、データセットのテーブル単位での権限管理から、一般リソース共有システムへと拡張された「datasette-acl」バージョン 0.6a0 が公開されました。これにより、複数ユーザー環境でリソースへのアクセス制御が細かく行えるようになります。
高度な結合技術:LATERAL 結合、セミ結合、アンチ結合
KDnuggets は、サブクエリが FROM クラースの先行列を参照できる LATERAL 結合や、一致する行のみを返すセミ結合、一致しない行を返すアンチ結合といった SQL の高度な結合技術について解説した。
Pandas でループを書かない:試すべき 7 つの高速代替案
KDnuggets は、Pandas データ処理でループを使用する代わりに、ベクトル化や組み込み関数など 7 つの高速な代替手法を紹介している。
ClawHub セキュリティシグナル:AI スキルデータセットを用いたエンドツーエンドのセキュリティ分析と判定分類のためのコーディングガイド
MarkTechPost は、Hugging Face からデータを取得し、異なるセキュリティスキャナが AI スキルや関連ファイルをどのように評価するかを調査するチュートリアルを提供しています。また、スキャナの不一致パターンを分析した上で、SKILL.md テキストと組み合わせた実用的な機械学習パイプラインの構築方法を解説しています。
米軍が GPS を利用し、20 年間にわたり暗号化ネットワークの「ナンバーステーション」として機能させていた可能性を示す証拠
情報セキュリティ研究者のスティーブン・マーチャード氏によると、米軍は約 20 年にわたり、公衆用の GPS 衛星を利用して暗号化ネットワークのコードを放送し、各衛星を隠れた「ナンバーステーション」として活用してきた可能性が高い。
移民権弁護士らがパランティアの ELITE ツール使用を巡り訴訟を起こす
移民権利擁護団体と弁護団が、ICE(移民税関摘発局)に対し、同局がパランティア社のツール「ELITE」を使用して襲撃対象地域を選定している事実に関する記録開示を求める訴訟を提起した。
例題付きで解説するPandasのGroupBy機能
KDnuggetsが公開した記事は、Pythonのデータ分析ライブラリ「Pandas」におけるグループ化操作(GroupBy)の仕組みを具体的なコード例を用いて分かりやすく説明している。
米国、予測市場の内部者取引検出に AI を活用へ
米国政府は、Polymarket などの予測市場で発生した不審な内部者取引を特定・追跡するため、AI 技術を活用する方針を打ち出した。
データセット 1.0a29 のリリース発表
開発者シモン・ウィルソンが、トークン制限の簡略化機能やテーブルヘッダー表示の不具合修正を含む「datasette 1.0a29」を公開した。
TechPays が Levels.fyi に買収される
Levels.fyi が欧州の主要な技術職給与情報サイト TechPays を買収し、同サイトの運営を引き継ぐ。これにより、欧州における技術職の給与透明性向上が期待される。
GitHub イノベーショングラフデータを用いた各国の「デジタル複雑性」解明への研究者の取り組み
4人の研究者が、GitHub のイノベーショングラフデータを分析し、オープンソースソフトウェアの生産地理から各国のデジタル複雑性を明らかにする研究論文を『Research Policy』誌に発表した。
Google、画面なしのFitbit Airと新健康アプリを発表しFitbitブランドを再編
Googleは画面を持たないウェアラブル端末「Fitbit Air」とAI搭載ヘルスコーチ機能を備えた新アプリ「Google Health」を発表し、従来のスマートウォッチからデータ追跡型デバイスへの転換を図る。
datasette-llm 0.1a7 のリリース:LLM プラグインのデフォルト設定機能追加
Datasette が提供する LLM 対応プラグイン「datasette-llm」がバージョン 0.1a7 に更新され、特定のモデルに対してデフォルトオプションを設定する機能が新たに実装されました。これにより、開発者は各モデルの動作を柔軟に制御できるようになります。
GPT-5.5の発表
OpenAIは最新モデル「GPT-5.5」を発表した。同モデルは高速化と高度な能力を備え、コーディングや研究、データ分析などの複雑なタスクに対応する。
LangSmithとLilacを用いたLLMのファインチューニング
LangSmithとLilacを使用して大規模言語モデルをファインチューニングする方法を紹介する。高品質な学習データの収集、データセットのフィルタリングや強化を行い、より高性能なモデルを迅速にデプロイする手法を解説している。
LinkedInデータが示す:採用減少の原因はAIではない…まだ
LinkedInが、2022年以降の採用が20%減少したが、その原因はAIではなく高金利だと発表した。
ChatGPTでデータを分析する方法
OpenAIのChatGPTが、データセットの探索、洞察の生成、視覚化の作成、実行可能な決定への変換を通じて、データ分析を支援する方法について解説している。
クエリ集計ミス激減!脱「バイブコーディング」と仕様駆動分析(SDA)のすすめ
ゲームサービス事業本部分析部の浜岡氏が、生成AIを活用した分析体制の構築と、曖昧な指示(バイブコーディング)を避ける仕様駆動分析(SDA)の重要性を説明している。
datasette-enrichments-llm 0.2a1 のリリース
データセット拡張ライブラリ「datasette-enrichments-llm」のバージョン0.2a1が公開された。このアップデートでは、拡張処理をトリガーする「actor」情報をLLMメソッドに渡す機能が追加され、処理の文脈が明確になった。
datasette-extract 0.3a0のリリース
データセットプラグイン「datasette-llm」を利用し、モデルの構成と管理を可能にした。これにより、利用可能なモデルを指定してデータ強化に使用できるようになった。
エプスタイン島訪問者の電話を追跡したジャーナリスト(Dhruv Mehrotraとの対談)
Bloombergのジャーナリスト兼技術者Dhruv Mehrotraが、データ分析ツールを自ら開発しながら調査報道を行う独自の手法について語る。
datasette-showboat 0.1a2 リリース
シモン・ウィリソンがdatasette-showboat 0.1a2をリリース。このツールはデータセットを視覚的に表示・探索するための拡張機能で、データ分析の効率を向上させる。
datasette-files-s3 0.1a1 のリリース
Datasetteのファイル管理プラグイン「datasette-files-s3」がバージョン0.1a1としてリリースされた。このバックエンドはS3バケットへのファイル保存・取得機能を追加し、URLからS3設定を定期的にフェッチするメカニズムを実装した。
datasette-llm 0.1a1 のリリース
DatasetteのLLM利用を可能にする基本プラグイン「datasette-llm」がバージョン0.1a1としてリリースされた。この更新により、他のDatasetteプラグインがLLMモデルを利用できるようになる。
datasette-files 0.1a2のリリース
Datasette公式プラグイン「datasette-files」バージョン0.1a2が公開された。この新機能により、Datasetteインスタンスへファイルを直接アップロードできるようになる。
データ分析のためのコーディングエージェント
Simon Willison氏が、データジャーナリスト向けに、Claude CodeやOpenAI Codexなどのツールを使用してデータを探索・分析・整理する方法を紹介するワークショップ資料を公開した。
WorkhumanがAmazon QuickSight埋め込みダッシュボードで構築したマルチテナント・セルフサービス型レポーティング
Workhumanは、全世界700万人のユーザーからのレポート要求に対応するため、Amazon QuickSightの埋め込みダッシュボードを使用してマルチテナント・セルフサービス型レポーティングシステムを構築した。
Google BigQueryが分散データ向けクロスリージョンSQLクエリをプレビュー
Google Cloudは、BigQueryのグローバルクエリ機能のプレビューを発表した。この新機能により、開発者は異なる地理的リージョンに保存されたデータを移動またはコピーせずにSQLクエリを実行できる。
自動化されたデータ分析に向けて:LLMベースのリスク推定のためのガイド付きフレームワーク
研究者らは、大規模言語モデル(LLM)を用いたデータセットリスク分析のためのガイド付きフレームワークを提案し、手動監査の課題と完全自動化の限界を克服する。
現代の外国為替自動化におけるAIの統合
Fortune Business Insightsは、AI市場規模が2034年までに2.48兆ドルに達すると予測している。AIは外国為替取引の自動化に大きな役割を果たしており、従来のチャート分析や経済指標に頼る取引方法を変革している。
政府、スパイ技術購入情報の閲覧を困難に
米国政府が、政府機関が購入する電話ハッキング技術や位置データなどの監視ツール情報を公開するFPDS.govのアクセスを制限した。
公開データの洞察を迅速に取得:Data Commons MCPがGoogle Cloudでホスト開始
Data CommonsがGoogle Cloud Platform上で無料のModel Context Protocolサービスを開始し、ユーザーはセットアップ不要で公開データの分析を迅速に行えるようになりました。
データチームはヘルプデスクであってはならない:データと共にコンパスを活用せよ
コンパスが主要なデータウェアハウス全てをサポート。自社データを接続し、ガバナンスを維持したまま、データを移動させずにSlack内でAIによる回答を得られる。
OpenAIが営利目的で再編、MiniMax-M2がオープンコーディングを牽引、ユニバーサルミュージックグループがAIを採用、LLMがプライベート化
AIエージェントが企業内の多様なデータを分析しパターンを発見する能力が向上しているが、データサイロの問題が深刻化している。OpenAIは営利目的で再編し、MiniMax-M2はオープンコーディングを主導、ユニバーサルミュージックグループはAIを積極採用、LLMはプライベート化が進んでいる。
【〆切間近 3/6】セッション登壇でスポットライトを浴びよう!
Google Cloud Next '25 Tokyoが、3月6日までにセッション登壇者を募集している。
【連載】時系列データにおける異常検知(2)
機械学習エンジニアの福成が、時系列異常検知の具体的なアプローチ(外れ値検知・変化点検知)について解説する連載記事の第2回。