arXiv AI Publications - 2025 semaine 42

Publications de la semaine #42 - 2025

Voici les 5 articles d’IA les plus pertinents d’ArXiv de la semaine 42/2025, avec analyse et insights complets.

Publications

Can MLLMs Absorb Math Reasoning Abilities from LLMs as Free Lunch? Yijie Hu, Zihao Zhou, Kaizhu Huang, Xiaowei Huang, Qiufeng Wang | 10/16/2025

Adaptive Selection of Symbolic Languages for Improving LLM Logical Reasoning Xiangyu Wang, Haocheng Yang, Fengxiang Cheng, Fenrong Liu | 10/12/2025

Confidence as a Reward: Transforming LLMs into Reward Models He Du, Bowen Li, Chengxing Xie, Chang Gao, Kai Chen, Dacheng Tao | 10/15/2025

Boosting Instruction Following at Scale Ben Elder, Evelyn Duesterwald, Vinod Muthusamy | 10/16/2025

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp | 10/16/2025

Can MLLMs Absorb Math Reasoning Abilities from LLMs as Free Lunch?

Publié le

10/16/2025

ID arXiv

[2510.14387v1]

Auteurs

Yijie Hu, Zihao Zhou, Kaizhu Huang, Xiaowei Huang, Qiufeng Wang

Points clés

Cette recherche introduit l'IP-Merging, une méthode innovante qui permet aux modèles de langage multi-modaux (MLLM) d'absorber des capacités de raisonnement mathématique à partir de modèles de langage prêts à l'emploi (LLM) sans nécessiter d'ajustement. L'étude identifie les couches critiques associées au raisonnement et aborde le problème d'alignement de l'espace des paramètres, améliorant ainsi de manière significative les performances de raisonnement mathématique des MLLM.

Impact potentiel

En permettant aux MLLMs de tirer parti des capacités de raisonnement mathématique des LLMs de manière transparente, cette approche pourrait révolutionner les applications dans l'éducation, la recherche scientifique et tout domaine nécessitant une résolution de problèmes mathématiques avancée. Elle pourrait également conduire à des pratiques de développement de modèles plus efficaces en réduisant le besoin de réentraînements extensifs tout en conservant les fonctionnalités plus larges des modèles.

retour à la liste

Adaptive Selection of Symbolic Languages for Improving LLM Logical Reasoning

Publié le

10/12/2025

ID arXiv

[2510.10703v1]

Auteurs

Xiangyu Wang, Haocheng Yang, Fengxiang Cheng, Fenrong Liu

Points clés

Cette recherche introduit une approche novatrice pour améliorer le raisonnement logique dans les grands modèles de langage (LLMs) en sélectionnant de manière adaptative le langage symbolique (SL) le plus approprié pour traduire des problèmes en langage naturel. Elle souligne que différentes tâches de raisonnement logique sont mieux servies par des types de SL spécifiques, un facteur précédemment négligé dans la littérature existante.

Impact potentiel

En améliorant la précision de la traduction des problèmes de raisonnement logique grâce à une sélection ciblée de SL, cette méthode pourrait améliorer de manière significative les performances des LLM dans des applications nécessitant un raisonnement complexe, telles que la démonstration automatique de théorèmes et les systèmes de prise de décision. Cette avancée pourrait également inspirer de nouveaux cadres pour intégrer le raisonnement symbolique avec les LLM, redéfinissant potentiellement le paysage de l'intelligence artificielle dans les tâches de raisonnement.

retour à la liste

Confidence as a Reward: Transforming LLMs into Reward Models

Publié le

10/15/2025

ID arXiv

[2510.13501v1]

Auteurs

He Du, Bowen Li, Chengxing Xie, Chang Gao, Kai Chen, Dacheng Tao

Points clés

Cette recherche présente la Confiance-comme-Récompense (CRew), une nouvelle méthode sans entraînement qui utilise la confiance au niveau des tokens dans les grands modèles de langage (LLMs) pour améliorer leurs capacités de raisonnement sans avoir besoin de données soigneusement sélectionnées. L'étude démontre que CRew non seulement surpasse les approches de récompense sans entraînement existantes, mais s'aligne également étroitement avec la performance réelle en raisonnement, mettant en avant son potentiel en tant que métrique d'évaluation robuste.

Impact potentiel

En tirant parti de la confiance du modèle comme métrique de récompense, CRew pourrait rationaliser le développement de LLMs plus efficaces, réduisant la dépendance à des ensembles de données d'entraînement coûteux et permettant des itérations plus rapides dans l'entraînement des modèles. De plus, la stratégie CRew-DPO proposée a le potentiel d'améliorer considérablement les méthodes d'auto-formation, faisant ainsi progresser les applications dans des domaines nécessitant un raisonnement et une prise de décision de haute qualité, tels que l'éducation et les systèmes automatisés.

retour à la liste

Boosting Instruction Following at Scale

Publié le

10/16/2025

ID arXiv

[2510.14842v1]

Auteurs

Ben Elder, Evelyn Duesterwald, Vinod Muthusamy

Points clés

Cette recherche introduit l'Instruction Boosting, une nouvelle méthode post-génération conçue pour améliorer la fiabilité du suivi des instructions dans les grands modèles de langage (LLMs), démontrant des améliorations significatives des taux de respect des instructions. De plus, l'étude présente le benchmark SCALEDIF pour analyser la dégradation des performances associée à l'augmentation du nombre d'instructions, révélant les conflits sous-jacents qui contribuent à cette tendance.

Impact potentiel

En fournissant une approche systématique pour améliorer l'adhérence aux instructions dans les LLM, l'Instruction Boosting pourrait fondamentalement changer la façon dont les développeurs créent et optimisent les invites, conduisant à des applications plus efficaces dans divers domaines. L'outil de scoring de conflit quantitatif offre également des retours d'information exploitables, permettant une compréhension plus nuancée des dynamiques d'instruction et potentiellement améliorant la performance globale des LLM dans des tâches complexes.

retour à la liste

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

Publié le

10/16/2025

ID arXiv

[2510.14942v1]

Auteurs

Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp

Points clés

GroundedPRM introduit un nouveau cadre guidé par des arbres et conscient de la fidélité qui améliore considérablement l'entraînement des Modèles de Récompense de Processus (PRMs) en réduisant le bruit dans les signaux de récompense et en améliorant la validation au niveau des étapes grâce à la vérification par des outils externes. Cette approche combine efficacement des chemins de raisonnement structurés et un mécanisme d'agrégation de récompenses hybride, réalisant des améliorations de performance notables avec une fraction des données généralement requises.

Impact potentiel

En offrant une méthode évolutive et plus fiable pour la supervision des processus dans les grands modèles de langage, GroundedPRM pourrait révolutionner les applications de raisonnement multi-étapes, les rendant plus efficaces et précises. Sa capacité à surpasser les méthodes existantes, même avec une supervision étiquetée par des humains, suggère un passage vers des modèles de raisonnement automatisés et de haute qualité qui peuvent être adoptés plus largement dans divers domaines.

retour à la liste