2025-01-01 Updates

2025-01-01 に確認した最新投稿の一部です。

Article: 1

Title:

A Matrix Logic Approach to Efficient Frequent Itemset Discovery in Large Data Sets

Published:

2024-12-27

Authors:

Xuan Li, Tingyi Ruan, Yankaiqi Li, Quanchao Lu, Xiaoxuan Sun

Abstract:

この論文では、ブール行列法に基づく頻出アイテムセットマイニングアルゴリズムを提案し、高次元で大規模なトランザクションデータベースにおける従来の頻繁パターンマイニングアルゴリズムのストレージと計算のボトルネックを解決することを目的としています。トランザクション データベース内のアイテムセットをブール行列として表すことにより、アルゴリズムは AND や OR などのブール論理演算を使用してアイテムセットのサポートを効率的に計算し、従来のアルゴリズムで多数の候補アイテムセットを生成して保存するのを回避します。このアルゴリズムは、行列演算を通じて頻繁なアイテムセットを再帰的にマイニングし、さまざまなデータスケールとサポートしきい値に柔軟に適応できます。実験では、公開されている Groceries データセットが選択され、実行効率テストと頻出アイテムセットマイニング効果テストは、さまざまなトランザクション数とサポートしきい値の下での実行時間、メモリ使用量、頻出アイテムセットの数などのアルゴリズムのパフォーマンス指標を評価するために設計されました。実験結果は、アルゴリズムがサポートしきい値が低いときには多数の頻繁なアイテムセットを効率的にマイニングでき、しきい値が高いときには高いサポートを持つ強力な関連付けルールに焦点を当てることができることを示しています。さらに、実行時間とメモリ使用量の傾向の変化は、トランザクション数が大幅に増加し、高いスケーラビリティと堅牢性を備えている場合でも、ブール行列法が良好な実行効率を維持できることを示しています。今後の研究では、メモリ最適化と行列ブロック演算を改善し、分散コンピューティングと深層学習モデルを組み合わせて、超大規模データ環境でのアルゴリズムの適用性とリアルタイム処理能力をさらに強化することができます。このアルゴリズムは、市場分析、推奨システム、およびネットワークセキュリティの分野で幅広い応用の可能性と開発の見通しを持っています。

Article: 2

Title:

Simplified integrity checking for an expressive class of denial constraints

Published:

2024-12-30

Authors:

Davide Martinenghi

Abstract:

データの整合性は、データの正確性と品質を確保するために重要であり、特にOLTPのようなデータ集約型システムでは、継続的にチェックする必要がある整合性制約を通じて維持されます。DBMS は一般的な制約を適切に処理しますが、複雑な制約には多くの場合、アドホックなソリューションが必要です。1980年代以降の研究では、更新前にデータベースが一貫しているという仮定を活用して、自動的かつ簡素化された整合性制約チェックに重点が置かれてきました。このホワイト ペーパーでは、プログラム変換演算子を使用して簡略化された整合性制約を生成する方法について説明し、拒否形式で表現される複雑な制約に焦点を当てます。特に、拡張拒否と呼ばれる整合性制約のクラスを対象としており、これはタプル生成依存関係や等価生成依存関係よりも一般的です。これらの手法は、標準的なデータベース手法に容易に適用でき、直接 SQL に変換できます。

Article: 3

Title:

Bridging the Gap: A Decade Review of Time-Series Clustering Methods

Published:

2024-12-29

Authors:

John Paparrizos, Fan Yang, Haojun Li

Abstract:

時系列は、シーケンシャルデータの最も基本的な表現の1つとして、コンピューターサイエンス、生物学、地質学、天文学、環境科学など、さまざまな分野で広く研究されてきました。しかし、高度なセンシング技術、ストレージ技術、ネットワーク技術の出現により、高次元の時系列データが得られ、拡張された時間スケールでの潜在構造の解析には大きな課題が生じています。時系列クラスタリングは、類似した時系列をグループ化する教師なし学習戦略として確立されており、これらの複雑なデータセットの隠れたパターンを明らかにするのに役立ちます。この調査では、古典的なアプローチからニューラルネットワークの最近の進歩までの時系列クラスタリング手法の進化を追跡します。これまでの調査では特定の方法論のカテゴリーに焦点を当てていましたが、従来のクラスタリング手法と新しい深層学習ベースのアルゴリズムとの間のギャップを埋め、この研究領域の包括的で統一された分類法を提示します。この調査では、主要な開発点に焦点を当て、時系列クラスタリングに関する将来の研究を導くための洞察を提供します。

Article: 4

Title:

Dive into Time-Series Anomaly Detection: A Decade Review

Published:

2024-12-29

Authors:

Paul Boniol, Qinghua Liu, Mingyi Huang, Themis Palpanas, John Paparrizos

Abstract:

近年のデータ収集技術の進歩に伴い、ストリーミングデータの量と速度がますます増加していることから、時系列分析の必要性が高まっています。この点で、時系列異常検出は重要な活動であり、サイバーセキュリティ、金融市場、法執行機関、ヘルスケアなどの分野でさまざまなアプリケーションを必要としています。異常検出に関する従来の文献は統計的測定が中心ですが、近年の機械学習アルゴリズムの数の増加により、時系列異常検出の研究方法の構造化された一般的な特性評価が求められています。この調査では、時系列のコンテキストで、プロセス中心の分類法の下で異常検出の既存のソリューションをグループ化して要約します。異常検出方法の独自の分類を提供するだけでなく、文献のメタアナリシスを実行し、時系列異常検出研究の一般的な傾向を概説します。

Article: 5

Title:

Identifying Split Vacancies with Foundation Models and Electrostatics

Published:

2024-12-26

Authors:

Seán R. Kavanagh

Abstract:

点欠陥は固体化合物に遍在し、導電性、触媒活性、キャリア再結合などの多くの機能特性を決定します。過去10年間で、準安定欠損形状の普及率と、関連する特性に対するその重要性がますます認識されるようになりました。この特に顕著な例は、孤立した原子空孔が2つの空孔と間質($V_X \rightarrow [V_X + X_i + V_X]$)からなる化学量論保存複合体に変化する分割空孔であり、欠陥エネルギーの劇的な低下と行動の変化を伴うことがあります。このような種は、この再構成の「非局所的」な性質のために、計算から同定するのが特に困難です。ここでは、幾何学的解析、静電エネルギー、および基礎機械学習(ML)モデルを組み合わせた段階的スクリーニングを通じて、固体化合物中のそのような種を効率的に同定するためのアプローチを紹介します。このアプローチにより、Materials Projectデータベース内のすべての化合物(ICSDのすべてのエントリと数千の予測された準安定材料を含む)をスクリーニングし、これまで知られていなかった数千の分割空孔構成を特定できます。この研究は、欠陥調査における機械学習の可能性の潜在的な有用性と、重要な注意点と、安定した欠陥形状を正しく特定するためのグローバル最適化アプローチの重要性の両方を強調しています。

Licensed under CC BY-NC-SA 4.0
Hugo で構築されています。
テーマ StackJimmy によって設計されています。