tgoop.com/ai_machinelearning_big_data/6338
Last Update:
ΠΡΡΠ΅ΡΠΏΡΠ²Π°ΡΡΠΈΠΉ ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π» ΠΏΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (Reinforcement Learning, RL), Π² ΠΊΠΎΡΠΎΡΠΎΠΌ ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΠΎ ΠΎΠΏΠΈΡΡΠ²Π°ΡΡΡΡ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΡΠ΅Π΄Ρ, Π·Π°Π΄Π°ΡΠΈ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ, ΠΈΡΡΠ»Π΅Π΄ΡΠ΅ΡΡΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΡΠΎΠΌΠΈΡΡΠ° ΠΌΠ΅ΠΆΠ΄Ρ ΡΠ΅ΠΎΡΠΈΠ΅ΠΉ ΠΈ ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠΊΡΠΏΠ»ΡΠ°ΡΠ°ΡΠΈΠΉ RL.
ΠΡΠ΄Π΅Π»ΡΠ½ΠΎ ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡΡΡ ΡΠΌΠ΅ΠΆΠ½ΡΠ΅ ΡΠ΅ΠΌΡ: ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ RL, ΠΈΠ΅ΡΠ°ΡΡ
ΠΈΡΠ΅ΡΠΊΠΎΠ΅ RL, ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Π²Π½Π΅ ΠΏΠΎΠ»ΠΈΡΠΈΠΊΠΈ ΠΈ VLM.
Π ΡΠ°Π±ΠΎΡΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ ΠΎΠ±Π·ΠΎΡ Π°Π»Π³ΠΎΡΠΈΡΠΌΠΎΠ² RL:
ΠΠ²ΡΠΎΡ - Kevin Murphy, Π³Π»Π°Π²Π½ΡΠΉ Π½Π°ΡΡΠ½ΡΠΉ ΡΠΎΡΡΡΠ΄Π½ΠΈΠΊ ΠΈ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΠΈΡΠ΅Π»Ρ ΠΊΠΎΠΌΠ°Π½Π΄Ρ ΠΈΠ· 28 ΡΠ΅ΡΠ΅ΡΠ΅ΡΠΎΠ² ΠΈ ΠΈΠ½ΠΆΠ΅Π½Π΅ΡΠΎΠ² Π² Google Deepmind. ΠΡΡΠΏΠΏΠ° ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π½Π°Π΄ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠ²Π½ΡΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΡΠΌΠΈ (Π΄ΠΈΡΡΡΠ·ΠΈΡ ΠΈ LLM), RL, ΡΠΎΠ±ΠΎΡΠΎΡΠ΅Ρ
Π½ΠΈΠΊΠΎΠΉ, Π±Π°ΠΉΠ΅ΡΠΎΠ²ΡΠΊΠΈΠΌ Π²ΡΠ²ΠΎΠ΄ΠΎΠΌ ΠΈ Π΄ΡΡΠ³ΠΈΠΌΠΈ ΡΠ΅ΠΌΠ°ΠΌΠΈ.
ΠΠ΅Π²ΠΈΠ½ ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» Π±ΠΎΠ»Π΅Π΅ 140 ΡΡΠ°ΡΠ΅ΠΉ Π½Π° ΡΠ΅ΡΠ΅Π½Π·ΠΈΡΡΠ΅ΠΌΡΡ
ΠΊΠΎΠ½ΡΠ΅ΡΠ΅Π½ΡΠΈΡΡ
ΠΈ Π² ΠΆΡΡΠ½Π°Π»Π°Ρ
, Π° ΡΠ°ΠΊΠΆΠ΅ 3 ΡΡΠ΅Π±Π½ΠΈΠΊΠ° ΠΏΠΎ ML, ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π½ΡΡ
Π² 2012, 2022 ΠΈ 2023 Π³ΠΎΠ΄Π°Ρ
ΠΈΠ·Π΄Π°ΡΠ΅Π»ΡΡΡΠ²ΠΎΠΌ MIT Press. (ΠΠ½ΠΈΠ³Π° 2012 Π³ΠΎΠ΄Π° Π±ΡΠ»Π° ΡΠ΄ΠΎΡΡΠΎΠ΅Π½Π° ΠΏΡΠ΅ΠΌΠΈΠΈ ΠΠ΅ΠΡΠΎΠΎΡΠ° ΠΊΠ°ΠΊ Π»ΡΡΡΠ°Ρ ΠΊΠ½ΠΈΠ³Π° Π² ΠΎΠ±Π»Π°ΡΡΠΈ ΡΡΠ°ΡΠΈΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ Π½Π°ΡΠΊΠΈ).
@ai_machinelearning_big_data
#AI #ML #Book #RL