2025-01-20 に確認した最新投稿の一部です。
Article: 1
Title:
ML Mule: Mobile-Driven Context-Aware Collaborative Learning
Published:
2025-01-13
Authors:
Haoxiang Yu, Javier Berrocal, Christine Julien
Abstract:
人工知能は日常生活のほぼすべての側面に統合されており、コンピュータービジョンによるオブジェクト検出から、メールを作成するための大規模言語モデル、スマートホームのコンパクトモデルまで、さまざまなアプリケーションを強化しています。これらの機械学習モデルは個々のユーザーに対応していますが、通常は一元化されたデータセンターに保存および処理されるため、多くの場合、ユーザーから切り離されています。この一元化されたアプローチは、プライバシーに関する懸念を引き起こし、高いインフラストラクチャコストが発生し、パーソナライゼーションに苦労します。これらの問題に対処するために、連合型および完全分散型の学習方法が提案されていますが、それでも中央集権的なサーバーに依存していたり、通信の制約により収束が遅くなったりします。これらの課題を克服するために、個々のモバイルデバイスを「ミュール」として利用し、物理空間を移動するモデルのスナップショットをトレーニングおよび転送し、これらのモデルをそれらが生息する物理的な「空間」と共有するアプローチであるMLミュールを提案します。この方法は、特定のスペースを共有するユーザーに関連付けられたデバイス間で暗黙的にアフィニティグループを形成し、協調的なモデルの進化を可能にし、ユーザーのプライバシーを保護します。私たちのアプローチは、従来の学習システム、連合型学習システム、および完全に分散化された学習システムのいくつかの主要な欠点に対処します。提案されたフレームワークは、より堅牢で、分散され、パーソナライズされた新しいクラスの機械学習方法を表しており、インテリジェントで適応性があり、真にコンテキスト認識型のスマート環境という当初のビジョンの実現にこの分野を近づけます。その結果、ML Mule は他の既存の方法と比較して、より迅速に収束し、高いモデル精度を達成していることが示されています。
Article: 2
Title:
OpenMLDB: A Real-Time Relational Data Feature Computation System for Online ML
Published:
2025-01-15
Authors:
Xuanhe Zhou, Wei Zhou, Liguo Qi, Hao Zhang, Dihao Chen, Bingsheng He, Mian Lu, Guoliang Li, Fan Wu, Yuqiang Chen
Abstract:
効率的で一貫性のある特徴計算は、幅広いオンラインMLアプリケーションにとって非常に重要です。通常、特徴量の計算は、モデルトレーニング用のオフラインステージとモデル提供用のオンラインステージの2つの異なるフェーズに分けられます。これらのフェーズは、多くの場合、異なるインターフェイス言語と関数の実装を持つ実行エンジンに依存しているため、重大な不整合が生じます。さらに、多くのオンライン ML 機能には、標準のストリーミング クエリや分析クエリとは異なる複雑な時系列計算 (さまざまな長さのテーブル ウィンドウでの関数など) が含まれます。既存のデータ処理システム(Spark、Flink、DuckDBなど)は、これらの計算に数秒のレイテンシーが発生することが多く、タイムリーな機能更新を必要とするリアルタイムのオンラインMLアプリケーションには適していません。 この論文では、4ParadigmのSageOneプラットフォームにデプロイされた特徴計算システムであるOpenMLDBと、100を超える実際のシナリオを紹介します。技術的には、OpenMLDBはまず、オフラインステージとオンラインステージで一貫した計算結果を得るために、統合されたクエリプランジェネレータを採用し、機能デプロイメントのオーバーヘッドを大幅に削減します。次に、OpenMLDBは、長いウィンドウ計算(事前集計による)とマルチテーブルウィンドウユニオン(データの自己調整による)によって引き起こされるパフォーマンスのボトルネックを解決するオンライン実行エンジンを提供します。また、ウィンドウ並列最適化と時間認識型データスキュー解決機能を備えた高性能オフライン実行エンジンも提供します。第三に、OpenMLDBは、メモリ使用量を最大化し、データアクセスを高速化するために、コンパクトなデータ形式とストリームに焦点を当てたインデックス作成を特徴としています。テストと実際のワークロードでの評価により、ベースライン システムと比較して、パフォーマンスが大幅に向上し、リソースが削減されたことが明らかになります。OpenMLDBのオープンコミュニティには現在150人以上のコントリビューターがおり、GitHubで1.6kの星を獲得しています。
Article: 3
Title:
Generalizable Graph Neural Networks for Robust Power Grid Topology Control
Published:
2025-01-13
Authors:
Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova
Abstract:
エネルギー転換には、新しい渋滞管理方法が必要です。そのような方法の1つは、機械学習(ML)を使用してグリッドトポロジを制御することです。このアプローチは、Learning to Run a Power Network(L2RPN)コンペティションを受けて人気を博しました。グラフニューラルネットワーク(GNN)は、計算にグラフ構造を反映するMLモデルのクラスであり、電力網モデリングに適しています。このように、トポロジー制御のためのさまざまなGNNアプローチが提案されています。我々は、GNN層のみを用いたグリッドトポロジー制御のための最初のGNNモデルを提案する。さらに、一般的な同次グラフ表現が苦しんでいるバスバー情報の非対称性問題を特定し、それを解決するための異種グラフ表現を提案します。同種GNNと異種GNNの両方と、全結合ニューラルネットワーク(FCNN)ベースラインを模倣学習タスクで訓練します。分類精度とグリッド運用能力に応じてモデルを評価します。その結果、異種 GNN は配信内ネットワークで最もパフォーマンスを発揮し、次に FCNN、最後に同種 GNN が最も高いことがわかりました。また、どちらのGNNタイプもFCNNよりも配信外ネットワークに一般化しやすいこともわかりました。
Article: 4
Title:
Published:
2025-01-16
Authors:
Zhenxiang Wang, Taizheng Wu, Liang Zeng, Jiaxing Peng, Ding Yu, Ming Gao, Guang Feng
Abstract:
スーパーキャパシタの開発は、主にさまざまな構造記述子の複雑な相互依存性をデカップリングする際の課題により、ナノポーラス電極構造と電気化学的性能との間の不明確な関係によって妨げられています。機械学習(ML)技術は有望なソリューションを提供しますが、大規模で統一されたデータベースがないため、その適用が妨げられています。ここでは、定電位分子シミュレーションを使用して、数百の金属有機フレームワーク(MOF)電極を備えた統一されたスーパーキャパシタデータベースを構築します。このデータベースを活用することで、十分に訓練されたデシジョンツリーベースのMLモデルは、代表的なケースによって実験的に検証された、キャパシタンスと充電レートの高速かつ正確で解釈可能な予測を実現します。SHAP解析により、比表面積(SSA)が重量キャパシタンスを支配し、細孔径の影響は最小限であることが明らかになりました。これは、電極-イオン配位が細孔サイズではなくSSAに強く依存しているためです。SSAとポロシティは、それぞれ1DポアMOFと3DポアMOFの体積容量を支配し、ポア次元の不可欠な効果を極限まで高めています。一方、空隙率は、1D-poreと3D-pore MOFの両方の充電率の最も決定的な要因であることがわかっています。特に3D細孔MOFでは、イオンコンダクタンスとインポアイオン拡散係数の両方で、イオン充填の緩みに起因するポロシティによる指数関数的な増加が観察されます。これらの知見は、高性能スーパーキャパシタ電極の設計に深い洞察を提供します。
Article: 5
Title:
Privacy-Preserving Model and Preprocessing Verification for Machine Learning
Published:
2025-01-14
Authors:
Wenbiao Li, Anisa Halimi, Xiaoqian Jiang, Jaideep Vaidya, Erman Ayday
Abstract:
このホワイトペーパーでは、機密データでトレーニングされたモデルに焦点を当てて、機械学習モデルのプライバシー保護検証のフレームワークを紹介します。LDP(Local Differential Privacy)とLIMEおよびSHAPのモデル説明を統合することで、当社のフレームワークは、個々のプライバシーを損なうことなく堅牢な検証を可能にします。これは、適切な前処理手順を適用してターゲット モデルが正しくトレーニングされたかどうかを確認するバイナリ分類と、特定の前処理エラーを特定するマルチクラス分類という 2 つの主要なタスクに対処します。3つのリアルワールドデータセット(Diabetes、Adult、Student Record)での評価では、MLベースのアプローチがバイナリタスクで特に効果的である一方で、しきい値ベースの方法はマルチクラスタスクで同等のパフォーマンスを発揮することが示されています。結果は、検証精度はデータセットやノイズレベルによって異なりますが、このフレームワークは、前処理エラーの効果的な検出、強力なプライバシー保証、および機密データの保護のための実用的な適用性を提供することを示しています。