2025-01-19 Updates

2025-01-19 に確認した最新投稿の一部です。

Article: 1

Title:

VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science

Published:

2025-01-15

Authors:

Youssef Abdalla, Marrisa Taub, Eleanor Hilton, Priya Akkaraju, Alexander Milanovic, Mine Orlu, Abdul W. Basit, Michael T Cook, Tapabrata Chakraborty, David Shorthouse

Abstract:

医薬品研究におけるデータ不足は、データ駆動型の方法ではなく、労働集約的な試行錯誤のアプローチに開発に依存することにつながっています。機械学習は解決策を提供しますが、既存のデータセットは小さくてノイズが多いことが多く、その有用性は限られています。これに対処するために、私たちは、小さくてノイズの多いデータセットを増強するために特別に設計された新しい生成モデルであるVariationally Encoded Conditional Tabular Generative Adversarial Network(VECT GAN)を開発しました。回帰モデルの開発前にデータが拡張されるパイプラインを導入し、これにより他の最先端の表形式生成モデルよりも一貫して大幅にパフォーマンスが向上することを示します。このパイプラインを6つの医薬品データセットに適用し、医学的に望ましい粘液接着特性を持つ新規ポリマーを開発することで、その実世界での適用性を強調しています。さらに、薬物様分子のChEMBLデータベースでモデルを事前学習し、知識蒸留を活用してその一般化性を高め、非常に一般的な医薬品タスクである低分子を含む医薬品データセットで容易に使用できるようにしています。私たちは、小さな表形式データセットを正則化するための合成データの力を実証し、医薬品モデル開発の標準的な手法となる可能性を強調し、ChEMBLで事前学習したVECT GANを含む私たちのメソッドをピップパッケージとして利用できるようにしています。

Article: 2

Title:

CveBinarySheet: A Comprehensive Pre-built Binaries Database for IoT Vulnerability Analysis

Published:

2025-01-15

Authors:

Lingfeng Chen

Abstract:

BSCA(Binary Static Code Analysis)は、ソフトウェアの脆弱性研究において極めて重要な領域であり、バイナリ実行可能ファイル内の脆弱性の正確な位置特定に焦点を当てています。BSCA技術の進歩にもかかわらず、IoT、UEFI、MCUファームウェアなどの多様な環境向けに調整された包括的ですぐに使用できる脆弱性データセットは著しく不足しています。このギャップに対処するために、1999年から2024年までの1033のCVEエントリを含む、細心の注意を払ってキュレーションされたデータベースであるCveBinarySheetを紹介します。私たちのデータセットには、busybox や curl など 16 の重要なサードパーティ コンポーネントが含まれており、x86-64、i386、MIPS、ARMv7、RISC-V64 の 5 つの CPU アーキテクチャをサポートしています。各プリコンパイル済みバイナリは、2 つのコンパイラ最適化レベル (O0 と O3) で使用でき、さまざまなコンパイル シナリオでの包括的な脆弱性分析を容易にします。CveBinarySheetは、詳細なメタデータと多様なバイナリサンプルを提供することで、最先端のBSCAツール、バイナリ類似性分析、脆弱性マッチングアプリケーションの開発を加速することを目指しています。

Article: 3

Title:

Leveraging Large Language Models as Knowledge-Driven Agents for Reliable Retrosynthesis Planning

Published:

2025-01-15

Authors:

Qinyu Ma, Yuhao Zhou, Jianfeng Li

Abstract:

材料化学における信頼性の高い合成経路の同定は、特に高分子科学において、高分子の命名法が複雑で、しばしば一意ではないため、複雑な作業です。この課題に対して、大規模言語モデル(LLM)とナレッジグラフ(KG)を統合したエージェントシステムを提案します。LLMの強力な化学物質名抽出・認識機能や、抽出したデータを構造化ナレッジグラフに格納することで、関連文献の検索、反応データの抽出、データベース検索、逆合成経路ツリーの構築、追加文献の検索によるさらなる拡張、最適な反応経路の推奨などを全自動化します。新しいMulti-branched Reaction Pathway Search(MBRPS)アルゴリズムは、特に多分岐経路に焦点を当てて、すべての経路の探索を可能にし、LLMが多分岐経路の弱い推論を克服するのに役立ちます。この研究は、LLMを動力源とする高分子に特化した完全自動逆合成計画剤を開発する最初の試みであり、ポリイミド合成に適用することで、数百の経路を持つ逆合成経路ツリーを構築し、既知および新規の経路を含む最適化された経路を推奨し、その有効性とより広範な応用の可能性を実証しています。

Article: 4

Title:

Electronic Health Records: Towards Digital Twins in Healthcare

Published:

2025-01-16

Authors:

Muhammet Alkan, Hester Huijsdens, Yola Jones, Fani Deligianni

Abstract:

従来の紙ベースの記録から高度な電子健康記録(EHR)への重要な移行により、記述統計による患者データの体系的な収集と分析が可能になり、患者集団全体のパターンと傾向に関する洞察が得られました。この進化は予測分析へと進み、医療従事者は患者の転帰や潜在的な合併症を事前に予測できるようになりました。基本的なデジタル記録管理から高度な予測モデリングやデジタルツインへのこの進歩は、データドリブンなインサイトとパーソナライズされたケア提供を組み合わせた、より統合された患者中心のアプローチに向けたヘルスケアの広範な進化を反映しています。この章では、英国と米国におけるEHRの実装の調査から始めて、医療情報システムの進化と重要性を探ります。国際疾病分類(ICD)システムの包括的な概要を提供し、ICD-9からICD-10への発展を追跡します。この議論の中心となるのは、医療データ共有における画期的な成果であり、世界中の研究者が自由に利用できる最も包括的な救命救急データベースであるMIMIC-IIIデータベースです。MIMIC-IIIは、高品質の医療データへのアクセスを民主化し、これまでにない研究と分析の機会を可能にしました。この章では、その構造、臨床転帰分析機能、およびケーススタディを通じて、特に死亡率と滞在期間の指標、バイタルサインの抽出、およびICDコーディングに焦点を当てて、実用的なアプリケーションを検討します。このテキストでは、詳細なエンティティ関係の図と実際の例を通じて、MIMICの複雑なデータ構造を示し、クエリアプローチが異なると微妙に異なる結果につながる方法を示し、正確なデータ抽出のためにデータベースのアーキテクチャを理解することが非常に重要であることを強調しています。

Article: 5

Title:

The NEMESIS Catalogue of Young Stellar Objects for the Orion Star Formation Complex. I. General description of data curation

Published:

2025-01-14

Authors:

J. Roquette, M. Audard, D. Hernandez, I. Gezer, G. Marton, C. Mas, M. Madarász, O. Dionatos

Abstract:

過去10年間で、若い恒星の進化の研究における機械学習手法の使用が増加しています。この傾向により、調査固有のバイアスを超えて、機械学習結果のトレーニング、検証、および物理解釈の洗練に使用できる、若い恒星天体の包括的なデータベース(YSO)の必要性が高まっています。オリオン星形成複合体(OSFC)に焦点を当てた文献をレビューし、この地域で以前に特定されたYSO候補の詳細なカタログをまとめ、彼らの若さを調査するための観測可能なキュレーションを含めました。NASA/ADSのデータベースから始めて、200以上の査読付き論文からYSOの候補者を集めました。YSOの研究に関連するデータ製品を専用のカタログにまとめ、大規模な測光調査と分光調査、およびストラスブール天文データセンターのデータで補完しました。また、YSO赤外線分類ラベルを均一に導き出し、ソースの多様性に関するラベルを包括的にキュレーションすることにより、カタログに大きな価値を追加しました。最後に、パンクロマティックなアプローチを使用して、カタログのソースが汚染物質の銀河系外ソースまたは巨大な星である確率を導き出しました。OSFCのYSOのNEMESISカタログには、原始星からディスクレスの若い星までの全質量スペクトルと前主配列進化のさまざまな段階をカバーする27879のソースで照合されたデータが含まれています。このカタログには、スペクトルエネルギー分布、恒星パラメータ、赤外線クラス、YSOの降着と星と円盤の相互作用に関連する輝線の等価幅、リチウムや光源の重力に関連する線などの吸収線、X線発光観測量、測光変動観測量、および多重度ラベルに処理されたパンクロマティック測光データのコレクションが含まれています。

Licensed under CC BY-NC-SA 4.0
Hugo で構築されています。
テーマ StackJimmy によって設計されています。