2024-12-30 Updates

2024-12-30 に確認した最新投稿の一部です。

Article: 1

Title:

A Paragraph is All It Takes: Rich Robot Behaviors from Interacting, Trusted LLMs

Published:

2024-12-24

Authors:

OpenMind, Shaohong Zhong, Adam Zhou, Boyuan Chen, Homin Luo, Jan Liphardt

Abstract:

大規模言語モデル(LLM)は、私たちの物理的環境、動物、人間の行動に関するすべての公的知識をコンパクトに表現したものです。LLMをロボティクスに応用することで、ほとんどの人間のタスクで優れたパフォーマンスを発揮する高性能ロボットへの道が開かれるかもしれません。チューニングは限られているか、まったくありません。ますます洗練された推論とタスク計画は別として、(適切に設計された)LLMのネットワークは、機能のアップグレードを容易にし、人間がロボットの思考を直接観察することを可能にします。ここでは、LLMを使用して物理ロボットを制御する利点、制限、および特殊性について説明します。基本システムは、WebソケットとROS2メッセージパッシングを介して実装された人間言語データバスを介して通信する4つのLLMで構成されています。驚くべきことに、ロボットのデータ融合サイクルがわずか1Hzで動作し、中央データバスが人間の脳の非常に限られた速度(約40ビット/秒)で動作するにもかかわらず、さまざまなタスク間で豊かなロボットの動作と優れたパフォーマンスを達成することができました。LLM間のコミュニケーションに自然言語を使用することで、ロボットの推論と意思決定を人間が直接観察できるようになり、平易な英語で書かれた一連のルールでシステムの動作に偏りを持たせることが容易になりました。これらのルールは、グローバルで、パブリックで、検閲に強いチューリングコンプリートコンピュータであるイーサリアムに不変に書き込まれました。私たちは、相互作用するAI間のデータバスとして自然言語を使用し、行動制約を格納するための不変の公開台帳を使用することで、予想外に豊かなパフォーマンス、アップグレード性、および人間との永続的な整合性を組み合わせたロボットを構築できることを提案します。

Article: 2

Title:

How Well Do LLMs Generate Code for Different Application Domains? Benchmark and Evaluation

Published:

2024-12-24

Authors:

Dewu Zheng, Yanlin Wang, Ensheng Shi, Hongyu Zhang, Zibin Zheng

Abstract:

最近では、コードLLMを搭載したAI駆動のプログラミングアシスタントが、さまざまな実世界のソフトウェア開発環境に統合されるケースが増えており、開発者の生産性が大幅に向上しています。ただし、既存のコード生成ベンチマークは主に汎用シナリオに焦点を当てているため、特定のアプリケーションドメインに対する LLM のコード生成パフォーマンスはほとんど知られていません。このホワイトペーパーでは、このギャップを埋めるための新しいベンチマークであるMultiCodeBenchを紹介します。MultiCodeBenchは、12の一般的なソフトウェア開発ドメインと15のプログラミング言語をカバーする2,400のプログラミングタスクで構成されています。具体的には、これらの12のアプリケーションドメインを特定するために詳細な調査を行います。各ドメインには複数の技術フレームワークが関与する可能性があり、異なるフレームワークがコーディングプロセスに異なる課題をもたらすことを考慮して、各ドメイン内で一般的に使用されるフレームワークとプラットフォームを分類します。次に、これらのサブドメインに関連するGitHubリポジトリからプログラミングの問題をサンプリングします。タスクの品質を確保し、データ漏洩の問題を軽減するために、アノテーターにはMultiCodeBenchで各タスクのdocstringを書き換えるようお願いしています。さらに、静的解析ベースの依存関係解析ツールを構築して、各タスクのグラウンドトゥルースの依存関係を抽出し、より深いパフォーマンス分析を可能にします。11 の代表的なメインストリーム LLM を使用した MultiCodeBench での広範な実験を通じて、さまざまなアプリケーションドメインにわたる LLM のコード生成パフォーマンスを明らかにし、ダウンストリームフィールドの開発者が LLM を選択する際の実用的な洞察を提供します。さらに、モデルがソフトウェアアプリケーションの開発タスクを完了できない理由を分析し、モデル開発者がドメイン固有のコード生成機能を強化するためのガイダンスを提供します。

Article: 3

Title:

Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability

Published:

2024-12-24

Authors:

Haonan Li, Xudong Han, Zenan Zhai, Honglin Mu, Hao Wang, Zhenxuan Zhang, Yilin Geng, Shom Lin, Renxi Wang, Artem Shelmanov, Xiangyu Qi, Yuxia Wang, Donghai Hong, Youliang Yuan, Meng Chen, Haoqin Tu, Fajri Koto, Tatsuki Kuribayashi, Cong Zeng, Rishabh Bhardwaj, Bingchen Zhao, Yawen Duan, Yi Liu, Emad A. Alghamdi, Yaodong Yang, Yinpeng Dong, Soujanya Poria, Pengfei Liu, Zhengzhong Liu, Xuguang Ren, Eduard Hovy, Iryna Gurevych, Preslav Nakov, Monojit Choudhury, Timothy Baldwin

Abstract:

このギャップに対処するために、パフォーマンスと安全性をバランスよく評価してLLMをランク付けするように設計された包括的なフレームワークであるLibra-Leaderboardを導入します。Libra-Leaderboardは、ダイナミックなリーダーボードとインタラクティブなLLMアリーナを組み合わせることで、機能と安全性の共同最適化を促進します。パフォーマンスと安全性の指標を平均化する従来のアプローチとは異なり、Libra-Leaderboardは、最適なスコアまでの距離の方法を使用して全体のランキングを計算します。このアプローチは、モデルが他の次元を犠牲にして1つの次元で優れているのではなく、バランスを達成するように奨励します。最初のリリースでは、Libra-Leaderboardは、14の主要組織の26のメインストリームLLMを評価し、最先端のモデルでも重要な安全性の課題を特定します。

Article: 4

Title:

Consistency Checks for Language Model Forecasters

Published:

2024-12-24

Authors:

Daniel Paleka, Abhimanyu Pallavi Sudhir, Alejandro Alvarez, Vineeth Bhat, Adam Shen, Evan Wang, Florian Tramèr

Abstract:

予測は評価が難しいタスクであり、グラウンドトゥルースは将来しか知ることができません。LLMの予報士が急速に人間レベルのパフォーマンスに近づいていることを示す最近の研究は、これらの予報士を瞬時にベンチマークし、評価するにはどうすればよいかという疑問を投げかけています。一貫性チェックのフレームワークに従って、論理的に関連するさまざまな質問に対する予測の一貫性の観点から、予測者のパフォーマンスを測定します。例えば、2024年の米国大統領選挙で民主党と共和党の両方が勝つ確率が60%であると予測するAIが非論理的に予測した場合、アービトラージは予測者の予測に反して取引を行い、利益を上げることができます。私たちは、一連の基本質問を生成し、これらの質問から一貫性チェックをインスタンス化し、予測者の予測を引き出し、予測の一貫性を測定する自動評価システムを構築します。次に、標準の適切なスコアリングルール予測ベンチマークを構築し、(瞬間的な)一貫性メトリックがLLM予測者のグラウンドトゥルースBrierスコア(将来のみ知られている)と相関することを示します。また、2028年に解決する一貫性ベンチマークもリリースし、予測のための長期的な評価ツールを提供しています。

Article: 5

Title:

Automated Code Review In Practice

Published:

2024-12-24

Authors:

Umut Cihan, Vahid Haratian, Arda İçöz, Mert Kaan Gül, Ömercan Devran, Emircan Furkan Bayendur, Baykal Mehmet Uçar, Eray Tüzün

Abstract:

コードレビューは、ソフトウェアの品質を向上させ、知識を伝達するための広範な手法です。手作業が必要で、遅延が発生する可能性があるため、時間がかかると思われがちです。Qodo、GitHub Copilot、Coderabbit など、いくつかの AI 支援ツールは、大規模言語モデル (LLM) を使用して自動レビューを提供します。このようなツールが業界に及ぼす影響については、まだ調査されていません。この研究では、産業環境におけるLLMベースの自動コードレビューツールの影響を調査します。この研究は、AI支援レビューツール(オープンソースのQodo PR Agentに基づく)を採用したソフトウェア開発環境内で実施されました。10のプロジェクトで約238人の実務家がこのツールにアクセスできました。私たちは 3 つのプロジェクトに焦点を当て、4,335 件のプルリクエストがあり、そのうち 1,568 件が自動レビューを受けました。データ収集は、(1) 開発者が自動コメントに基づいて行動したかどうかを示すコメントラベルを含む pull request データの定量分析、(2) 個々の pull request のレビューの経験について開発者に送信された調査、(3) 自動レビューに対する一般的な意見をまとめた 22 人の実務者を対象とした広範な調査の 3 つのソースで構成されていました。自動コメントの73.8%が解決されました。ただし、プルリクエストの平均クローズ期間は5時間52分から8時間20分に増加し、プロジェクトごとに傾向が異なります。ほとんどの実務家は、自動レビューによりコード品質がわずかに向上したと報告しています。 LLM ベースのツールは、ソフトウェア開発、バグ検出の強化、コード品質に対する認識の向上、ベストプラクティスの促進に役立つことが証明されました。しかし、それはまた、プルリクエストの終了時間が長くなり、誤ったレビュー、不必要な修正、無関係なコメントなどの欠点をもたらしました。