2025-01-06 に確認した最新投稿の一部です。
Article: 1
Title:
Published:
2025-01-02
Authors:
Johan Wahréus, Ahmed Mohamed Hussain, Panos Papadimitratos
Abstract:
多くの研究が、大規模言語モデル(LLM)をジェイルブレイクして有害なコンテンツを生成する方法を調査しています。通常、これらの方法は、LLM プロバイダーによって確立されたセキュリティ ポリシーをバイパスするように設計された悪意のあるプロンプトのデータセットを使用して評価されます。しかし、既存のデータセットは一般的に範囲が広く、制限されていないため、特に特定の領域、特にサイバーセキュリティにおいて、ジェイルブレイクの有効性の評価が複雑になる可能性があります。この問題に対処するために、サイバーセキュリティ領域のジェイルブレイク技術を評価するために特別に設計された12662のプロンプトを含む包括的なデータセットであるCySecBenchを発表し、公開しています。データセットは10の異なる攻撃タイプのカテゴリに編成されており、ジェイルブレイクの試みをより一貫性のある正確な評価を可能にするために、クローズドエンドのプロンプトを備えています。さらに、データセットの生成とフィルタリングの方法論を詳しく説明し、他のドメインで同様のデータセットを作成するために適応させることができます。CySecBenchの有用性を実証するために、迅速な難読化に基づくジェイルブレイクアプローチを提案し、評価します。私たちの実験結果は、この方法が商用のブラックボックスLLMから有害なコンテンツをうまく引き出し、ChatGPTで65%、Geminiで88%の成功率(SR)を達成していることを示しています。対照的に、クロードはジェイルブレイクSRが17%と、より大きなレジリエンスを示しました。既存のベンチマークアプローチと比較して、私たちの方法は優れたパフォーマンスを示しており、LLMセキュリティ対策を評価するためのドメイン固有の評価データセットの価値を強調しています。さらに、広く使用されているデータセット(AdvBenchなど)からのプロンプトを使用して評価した場合、最先端の方法よりも高い78.5%のSRを達成しました。
Article: 2
Title:
WeAudit: Scaffolding User Auditors and AI Practitioners in Auditing Generative AI
Published:
2025-01-02
Authors:
Wesley Hanwen Deng, Claire Wang, Howard Ziyu Han, Jason I. Hong, Kenneth Holstein, Motahhare Eslami
Abstract:
実務家と研究者の両方から、エンドユーザーをAI監査に関与させ、ユーザー独自の知識と生きた経験を活用することに関心が高まっています。しかし、AIの実践者にとって実用的な洞察を生み出すことができる方法で、監査でエンドユーザーを効果的に足場にする方法についてはほとんどわかっていません。ユーザーとAI実務者の両方を対象とした形成的研究を通じて、まず、ユーザーエンゲージメントのAI監査をサポートするための一連の設計目標を特定しました。その後、エンドユーザーがAIを個別に監査するのを支援するワークフローとシステムであるWeAuditを開発しました。WeAuditは、ユーザー監査人による3週間のユーザー調査と、業界のジェネレーティブAI実務家へのインタビューを通じて評価しました。私たちの調査結果は、WeAuditがユーザーが潜在的なAIの害に気づき、反省し、業界の実務家が行動できる方法で調査結果を明確にするために、ユーザーをどのようにサポートしているかについての洞察を提供します。ユーザーと実務者の両方からの観察とフィードバックに基づいて、AI監査プロセスへのユーザーエンゲージメントをより適切にサポートするためのいくつかの機会を特定します。AI監査とレッドチームにおける効果的かつ責任あるユーザーエンゲージメントをサポートするための将来の研究への影響について話し合います。
Article: 3
Title:
Published:
2025-01-02
Authors:
Shudong Liu, Yiqiao Jin, Cheng Li, Derek F. Wong, Qingsong Wen, Lichao Sun, Haipeng Chen, Xing Xie, Jindong Wang
Abstract:
視覚言語モデル(VLM)は、人間とAIのインタラクションが進んでいますが、文化的な理解に苦労しており、主に西洋中心のトレーニングデータの偏りにより、シンボル、ジェスチャー、アーティファクトを誤って解釈することがよくあります。本稿では、VLMの多文化理解能力の特徴付けと向上を目的として、19,682の文化概念、188の国/地域、15の文化概念、3つの質問タイプをカバーする大規模なマルチモーダルベンチマークであるCultureVerseを構築します。次に、データセットを微調整した一連のVLMであるCultureVLMを提案し、文化的理解のパフォーマンスを大幅に向上させます。16のモデルを評価したところ、西洋の概念ではパフォーマンスが高く、アフリカとアジアの文脈では結果が弱いという大きな格差が明らかになりました。CultureVerse の微調整により、文化的な認識が向上し、モデルの一般的な VLM ベンチマークのパフォーマンスを犠牲にすることなく、異文化間、大陸間、データセット間の一般化が実証されます。さらに、文化の一般化と忘却についての洞察を提示します。この取り組みが、より公平で文化的に認識されたマルチモーダルAIシステムの基礎を築くことができることを願っています。
Article: 4
Title:
Published:
2025-01-01
Authors:
Junfeng Jiao, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar
Abstract:
ジェネレーティブAI(GAI)と大規模言語モデル(LLM)の台頭は、産業環境を一変させ、効率性とイノベーションのための前例のない機会を提供する一方で、倫理的、規制的、運用上の重要な課題を提起しています。この研究では、14の産業セクターにわたる160のガイドラインと政策声明のテキストベースの分析を行い、体系的な方法とテキストマイニング技術を利用して、これらのテクノロジーのガバナンスを評価します。このホワイトペーパーでは、グローバルな指令、業界の慣行、セクター固有のポリシーを検証することで、イノベーションと倫理的な説明責任、公平なアクセスとのバランスを取ることの複雑さを強調しています。調査結果は、さまざまな業界の状況でGAIとLLMの責任ある透明性のある安全な統合を促進するための実用的な洞察と推奨事項を提供します。
Article: 5
Title:
Published:
2025-01-02
Authors:
Sathwik Narkedimilli, Amballa Venkata Sriram, Sujith Makam, MSVPJ Sathvik, Sai Prashanth Mallellu
Abstract:
FAPL-DM-BC ソリューションは、Internet of Vehicles (IoV) 向けの新しい FL ベースのプライバシー、セキュリティ、およびスケーラビリティ ソリューションです。FAPL(Federated Adaptive Privacy-Aware Learning)とDM(Dynamic Masking)を活用して、データの機密性と状態の変化に応じてリアルタイムでプライバシーポリシーを学習し、適応的に変更することで、プライバシーとユーティリティの最適なトレードオフを実現します。Secure Logging and Verification、Blockchain-based provenance and decentralized validation、およびFedAvg(Federated Averaging)とSecure Multi-Party Computation(SMPC)を使用したCloud Microservices Secure Aggregation。モデルに依存しない説明可能なAI(XAI)によって駆動される2つのモデルフィードバックは、ローカルな予測と説明を認定して、効率を次のレベルに引き上げます。FAPL-DM-BCは、加重平均計算を通じてローカルフィードバックと世界の知識を組み合わせることで、安全でスケーラブル、かつ解釈可能な連合学習を保証します。自動運転車、交通管理と予測、リアルタイムの車両ネットワークサイバーセキュリティ、スマートシティなど、この統合されたプライバシーセーフで高性能なIoVプラットフォームのアプリケーションとして考えられます。