2025-01-15 Updates

2025-01-15 に確認した最新投稿の一部です。

Article: 1

Title:

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

Published:

2025-01-13

Authors:

Difei Gu, Yunhe Gao, Yang Zhou, Mu Zhou, Dimitris Metaxas

Abstract:

胸部X線写真の自動解釈には、正確な疾患分類と詳細な放射線レポート作成の両方が必要であり、臨床ワークフローにおいて大きな課題となっています。現在のアプローチは、解釈可能性を犠牲にして分類の精度に焦点を当てるか、画像キャプション技術を使用して詳細ではあるが信頼性の低いレポートを生成します。この研究では、視覚言語モデル(VLM)の予測精度と大規模言語モデル(LLM)の推論機能を組み合わせた新しいフレームワークであるRadAlignを紹介します。放射線科医のワークフローに触発されたRadAlignは、まず特殊なVLMを使用して視覚的な特徴を主要な医療概念に合わせ、複数の疾患で平均AUCが0.885という優れた疾患分類を達成します。これらの認識された病状は、整列された視覚言語空間でテキストベースの概念として表され、LLMベースのレポート生成を促すために使用されます。RadAlignは、類似の過去のケースで出力を根拠とする検索拡張生成メカニズムによって強化され、GREENスコア0.678という優れたレポート品質を提供し、最先端のメソッドの0.634を上回ります。当社のフレームワークは、幻覚を減らしながら強力な臨床解釈可能性を維持し、統合された予測AIと生成AIによる自動医用画像処理とレポート分析を進歩させます。コードは https://github.com/difeigu/RadAlign で入手できます。

Article: 2

Title:

UnCommon Objects in 3D

Published:

2025-01-13

Authors:

Xingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny

Abstract:

3D深層学習と3D生成AIのための新しいオブジェクト中心のデータセットであるUncommon Objects in 3D(uCO3D)を紹介します。uCO3Dは、3Dアノテーション付きのオブジェクトの高解像度ビデオの最大の公開コレクションであり、360$^{\circ}$のフルカバレッジを保証します。uCO3Dは、MVImgNetやCO3Dv2よりもはるかに多様で、1,000を超えるオブジェクトカテゴリをカバーしています。また、収集されたビデオと3D注釈の両方の広範な品質チェックにより、高品質になります。類似のデータセットと同様に、uCO3Dには3Dカメラの姿勢、深度マップ、スパース点群の注釈が含まれています。さらに、各オブジェクトにはキャプションと3Dガウススプラット再構成が装備されています。MVImgNet、CO3Dv2、およびuCO3Dでいくつかの大規模な3Dモデルをトレーニングし、後者を使用して優れた結果を得ることは、uCO3Dが学習アプリケーションに適していることを示しています。

Article: 3

Title:

FaceOracle: Chat with a Face Image Oracle

Published:

2025-01-13

Authors:

Wassim Kabbani, Kiran Raja, Raghavendra Ramachandra, Christoph Busch

Abstract:

顔画像は、身分証明書や渡航書類の必須部分です。このような書類を発行する際に高品質の顔画像を取得することは、人間の審査官と自動顔認識システムの両方にとって非常に重要です。いくつかの国際規格では、顔の画質要件は複雑で詳細に定義されています。提出された顔画像のコンプライアンス違反または欠陥を特定して理解することは、発行機関と申請者の両方にとって非常に重要です。本作では、LLMを搭載したAIアシスタントであるFaceOracleを紹介し、標準に準拠したアルゴリズムを使用して自然な会話形式で顔画像を分析します。LLMの力を活用することで、ユーザーはさまざまな顔画像品質の概念の説明を得るだけでなく、顔画像品質評価(FIQA)アルゴリズムの結果を解釈することができます。私たちは、発行機関の専門家がFaceOracleをワークフローに統合して、意思決定をより効率的に分析、理解、伝達し、生産性を向上させる方法を示す概念実証を実装します。

Article: 4

Title:

Containers as the Quantum Leap in Software Development

Published:

2025-01-13

Authors:

Iftikhar Ahmad, Teemu Autto, Teerath Das, Joonas Hämäläinen, Pasi Jalonen, Viljami Järvinen, Harri Kallio, Tomi Kankainen, Taija Kolehmainen, Pertti Kontio, Pyry Kotilainen, Matti Kurittu, Tommi Mikkonen, Rahul Mohanani, Niko Mäkitalo, Jari Partanen, Roope Pajasmaa, Jarkko Pellikka, Manu Setälä, Jari Siukonen, Anssi Sorvisto, Maha Sroor, Teppo Suominen, Salla Timonen, Muhammad Waseem, Yuriy Yevstihnyeyev, Verneri Äberg, Leif Åstrand

Abstract:

ビジネスフィンランドと参加団体が資金提供したプロジェクトQLEAP(2022-24)の目標は、建築設計の要素としてコンテナを使用することを研究することでした。このようなシステムには、コンテナ化されたAIシステム、ハイブリッドセットアップ(パブリック/ハイブリッド/プライベートクラウド)でのコンテナの使用、および関連するセキュリティ上の懸念事項が含まれます。このコンソーシアムは、コンテナの使用に関するさまざまな懸念を代表する4つの企業(Bittium、M-Files、Solita/ADE Insights、Vaadin)と1つの研究機関(University of Jyv"askyl"a)で構成されています。さらに、プロジェクトの運営に参加した2つのVeturi企業(NokiaとTietoevry)からも支援を受けています。さらに、SW4Eエコシステムがプロジェクトに参加しています。このドキュメントでは、プロジェクトから学んだ主要な教訓をまとめています。

Article: 5

Title:

QuantuneV2: Compiler-Based Local Metric-Driven Mixed Precision Quantization for Practical Embedded AI Applications

Published:

2025-01-13

Authors:

Jeongseok Kim, Jemin Lee, Yongin Kwon, Daeyoung Kim

Abstract:

精度の低下を最小限に抑えながらモデルサイズを縮小するために、混合精度量子化法が提案されています。ただし、既存の研究では再トレーニングが必要であり、コンパイルプロセス中に生成される計算オーバーヘッドと中間表現(IR)が考慮されていないため、コンパイラレベルでの適用が制限されています。この計算オーバーヘッドは、推論中の頻繁な量子化および逆量子化操作によって発生するランタイム レイテンシを指します。これらの操作を個々のオペレーター レベルで実行すると、実行時の遅延が大幅に発生します。これらの課題に対して、私たちは、実用的な組み込みAIアプリケーション向けに設計されたコンパイラベースの混合精度量子化手法であるQuantuneV2を提案します。QuantuneV2 は、量子化前と量子化後の 2 回だけ推論を実行し、モデル パラメーターの数に比例して増加する O(n) の計算量で動作します。また、重み、活性化値、信号対量子化ノイズ比、平均二乗誤差などのローカルメトリックを使用して、感度分析をより安定させました。また、最適な IR を選択し、オペレーター フュージョンを使用することで、計算オーバーヘッドを削減しました。実験結果によると、QuantuneV2 は、ResNet18v1、ResNet50v1、SqueezeNetv1、VGGNet、MobileNetv2 の 5 つのモデルで、既存の方法と比較して、精度が最大 10.28% 向上し、速度が 12.52% 向上しました。これは、QuantuneV2が計算効率を維持しながらモデルのパフォーマンスを向上させ、組み込みAI環境でのデプロイに適していることを示しています。

Licensed under CC BY-NC-SA 4.0
Hugo で構築されています。
テーマ StackJimmy によって設計されています。