Data scientist
Π΄ΠΈΡΡΠ°Π½ΡΠΈΠΎΠ½Π½ΠΎ
Π΄ΠΎΠ³ΠΎΠ²ΠΎΡΠ½Π°Ρ
Π Π΅ΡΠ΅Π½ΠΈΠ΅ Π΄ΠΎΠΌΠ°ΡΠ½Π΅Π³ΠΎ Π·Π°Π΄Π°Π½ΠΈΡ (ΡΡΠ΅Π±Π°). ΠΠ΅ΡΠ²ΠΊΠ° ΠΏΠ°ΡΠΈΠ΅Π½ΡΠΎΠ² Π½Π° ΠΏΡΠΈΡΠΌΡ ΠΊ Π²ΡΠ°ΡΡ ΡΠ²Π»ΡΠ΅ΡΡΡ Π²Π°ΠΆΠ½ΠΎΠΉ ΠΏΡΠΎΠ±Π»Π΅ΠΌΠΎΠΉ Π² Π·Π΄ΡΠ°Π²ΠΎΠΎΡ
ΡΠ°Π½Π΅Π½ΠΈΠΈ, ΡΠ°ΠΊ ΠΊΠ°ΠΊ ΡΡΠΎ ΡΠ½ΠΈΠΆΠ°Π΅Ρ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ ΡΠ°Π±ΠΎΡΡ ΠΈ ΡΠ²Π΅Π»ΠΈΡΠΈΠ²Π°Π΅Ρ Π·Π°ΡΡΠ°ΡΡ ΠΌΠ΅Π΄ΠΈΡΠΈΠ½ΡΠΊΠΈΡ
ΡΡΡΠ΅ΠΆΠ΄Π΅Π½ΠΈΠΉ. Π ΡΡΠΎΠΌ ΠΏΡΠΎΠ΅ΠΊΡΠ΅ ΠΌΡ Π±ΡΠ΄Π΅ΠΌ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ Π½Π°Π±ΠΎΡΠΎΠΌ Π΄Π°Π½Π½ΡΡ
ΠΈΠ· Kaggle, ΡΡΠΎΠ±Ρ Π½Π°ΠΉΡΠΈ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ ΠΌΠ΅ΠΆΠ΄Ρ Ρ
Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠ°ΠΌΠΈ ΠΏΠ°ΡΠΈΠ΅Π½ΡΠΎΠ² (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π²ΠΎΠ·ΡΠ°ΡΡΠΎΠΌ, Π½Π°Π»ΠΈΡΠΈΠ΅ΠΌ Ρ
ΡΠΎΠ½ΠΈΡΠ΅ΡΠΊΠΈΡ
Π·Π°Π±ΠΎΠ»Π΅Π²Π°Π½ΠΈΠΉ, ΡΠΎΡΠΈΠ°Π»ΡΠ½ΡΠΌΠΈ Π»ΡΠ³ΠΎΡΠ°ΠΌΠΈ ΠΈ Ρ. Π΄.) ΠΈ ΠΈΡ
Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡΡ ΠΏΡΠΈΠΉΡΠΈ Π½Π° ΠΏΡΠΈΡΠΌ. ΠΠ»Ρ Π°Π½Π°Π»ΠΈΠ·Π° ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² ΠΈ ΠΎΡΡΠ»Π΅ΠΆΠΈΠ²Π°Π½ΠΈΡ Π²ΡΠ΅Ρ
ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² Π±ΡΠ΄Π΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π° ΠΏΠ»Π°ΡΡΠΎΡΠΌΠ° Comet ML, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ ΡΠ΄Π΅Π»Π°ΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ ΠΏΠΎΠ½ΡΡΠ½ΡΠΌΠΈ ΠΈ Π²ΠΎΡΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠΌΡΠΌΠΈ. ΠΡΠΎΠ³ΠΈ ΠΏΡΠΎΠ΅ΠΊΡΠ° ΠΌΠΎΠ³ΡΡ ΠΏΠΎΠΌΠΎΡΡ Π»ΡΡΡΠ΅ ΠΎΡΠ³Π°Π½ΠΈΠ·ΠΎΠ²ΡΠ²Π°ΡΡ ΠΌΠ΅Π΄ΠΈΡΠΈΠ½ΡΠΊΠΈΠ΅ ΠΏΡΠΈΡΠΌΡ ΠΈ ΡΠ½ΠΈΠ·ΠΈΡΡ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ Π½Π΅ΡΠ²ΠΎΠΊ. Π§ΡΠΎ Π½ΡΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°ΡΡ ΠΠΈΠ·ΡΠ°Π»ΠΈΠ·ΠΈΡΡΠΉΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ ΡΠΈΡΠ»ΠΎΠ²ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° Ρ ΠΏΠΎΠΌΠΎΡΡΡ scatter matrix: Π²ΡΠ±Π΅ΡΠΈΡΠ΅ 7 ΡΠΈΡΠ»ΠΎΠ²ΡΡ
ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ· Π²Π°ΡΠ΅Π³ΠΎ Π½Π°Π±ΠΎΡΠ° Π΄Π°Π½Π½ΡΡ
ΠΈ ΡΠΎΡ
ΡΠ°Π½ΠΈΡΠ΅ ΠΈΡ
Π² ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ numeric_data; Π΄Π»Ρ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΠΈΡ
Π²Π·Π°ΠΈΠΌΠΎΡΠ²ΡΠ·Π΅ΠΉ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ scatter matrix (ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΡΠ½ΠΎΠ΅ ΡΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ ΡΠΈΡΠ»ΠΎΠ²ΠΎΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Ρ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΡΠ½ΡΠΌΠΈ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡΠΌΠΈ); ΡΠΊΠ°ΠΆΠΈΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ Π½Π° Π³ΡΠ°ΡΠΈΠΊΠ΅ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π΄ΠΎΠ±Π°Π²ΡΡΠ΅ ΠΏΠΎΠ΄ΠΏΠΈΡΠΈ Ρ ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΠ΅ΠΉ Π½Π° ΠΏΠ΅ΡΠ΅ΡΡΡΠΎΠ΅Π½ΠΈΠΈ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΡΠ½ΡΡ
plot'ΠΎΠ²); Π·Π°Π»ΠΎΠ³ΠΈΡΡΠΉΡΠ΅ Π³ΡΠ°ΡΠΈΠΊ scatter matrix Π² Comet ML Π΄Π»Ρ ΠΎΡΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Π½Π°Π³Π»ΡΠ΄Π½ΡΡ
ΡΠ²ΡΠ·Π΅ΠΉ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ². Π‘Π΄Π΅Π»Π°ΠΉΡΠ΅ ΠΊΡΠ°ΡΠΊΠΈΠΉ ΡΠΈΡΠ»ΠΎΠ²ΠΎΠΉ Π°Π½Π°Π»ΠΈΠ·: Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ· Π²ΡΠ±ΡΠ°Π½Π½ΡΡ
ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² Π½Π°ΠΏΠΈΡΠΈΡΠ΅ Π±Π°Π·ΠΎΠ²ΡΠ΅ ΡΡΠ°ΡΠΈΡΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΠΌΠ΅ΡΡΠΈΠΊΠΈ (mean, median, std, min/max), ΡΠΈΠΊΡΠΈΡΡΡ Π²ΡΠ²ΠΎΠ΄Ρ; ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΡΠΈΡΠ»ΠΎΠ²ΡΡ
ΠΎΠ±ΠΎΠ±ΡΠ΅Π½ΠΈΠΉ, ΠΏΡΠΎΠΊΠΎΠΌΠΌΠ΅Π½ΡΠΈΡΡΠΉΡΠ΅, Π³Π΄Π΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ Π²ΡΠ΄Π°Π΅Ρ ΠΎΡΡΡΠΈΠΌΡΠ΅ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡΠ΅ΡΠΊΠΈΡ
Π·Π°Π΄Π΅ΡΠΆΠ΅ΠΊ ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΠΈ Π½Π° Π³ΡΡΠΏΠΏΡ. Π‘Π΄Π΅Π»Π°ΠΉΡΠ΅ Π°Π½Π°Π»ΠΈΠ· ΡΠΈΠ»ΡΠ½ΡΡ
ΡΠ²ΡΠ·Π΅ΠΉ ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ: Π½Π°ΠΉΠ΄ΠΈΡΠ΅ Π΄Π²Π΅ ΠΏΠ°ΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΠΈΠΌΠ΅ΡΡ ΡΠ°ΠΌΡΡ ΡΠΈΠ»ΡΠ½ΡΡ ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΡ ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΡ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π²ΡΡΠ΅ 0.8), ΠΈ ΠΏΠΎΡΡΡΠΎΠΉΡΠ΅ ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΠΉ scatter plot Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· ΡΡΠΈΡ
ΠΏΠ°Ρ; Π½Π°ΠΉΠ΄ΠΈΡΠ΅ ΠΏΠ°ΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Ρ ΡΠ°ΠΌΠΎΠΉ ΡΠΈΠ»ΡΠ½ΠΎΠΉ ΠΎΡΡΠΈΡΠ°ΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΠ΅ΠΉ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π½ΠΈΠΆΠ΅ -0.5), ΠΈ ΠΏΠΎΡΡΡΠΎΠΉΡΠ΅ scatter plot Π΄Π»Ρ ΡΡΠΎΠΉ ΠΏΠ°ΡΡ; Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π³ΡΠ°ΡΠΈΠΊΠ΅ Π΄ΠΎΠ±Π°Π²ΡΡΠ΅ Π»ΠΈΠ½ΠΈΡ ΡΡΠ΅Π½Π΄Π° (ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΎΠ½Π½ΡΡ Π»ΠΈΠ½ΠΈΡ), ΡΡΠΎΠ±Ρ ΠΏΠΎΠ΄ΡΠ΅ΡΠΊΠ½ΡΡΡ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΡ. ΠΡΠΎΠ²Π΅Π΄ΠΈΡΠ΅ Π»ΠΎΠ³ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ Π² Comet ML: Π»ΠΎΠ³ΠΈΡΡΠΉΡΠ΅ scatter matrix, ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π±Π°Π·ΠΎΠ²ΡΡ
ΡΡΠ°ΡΠΈΡΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΌΠ΅ΡΡΠΈΠΊ ΠΈ ΡΠΎΠ·Π΄Π°Π½Π½ΡΠ΅ scatter plots Ρ Π»ΠΈΠ½ΠΈΡΠΌΠΈ ΡΡΠ΅Π½Π΄Π° Π² Comet ML Π΄Π»Ρ ΠΏΠΎΠ»Π½ΠΎΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ°; Π½Π΅ Π·Π°Π±ΡΠ΄ΡΡΠ΅ Π΄ΠΎΠ±Π°Π²ΠΈΡΡ Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠΈ ΠΊ Π³ΡΠ°ΡΠΈΠΊΠ°ΠΌ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, "Scatter Matrix for Selected Features" ΠΈΠ»ΠΈ "Correlation Analysis for Feature Pair: X & Y"). ΠΠΎΠ΄Π³ΠΎΡΠΎΠ²ΡΡΠ΅ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠΉ Π²ΡΠ²ΠΎΠ΄ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ. ΠΠ°ΠΏΠΈΡΠΈΡΠ΅ Π½Π΅Π±ΠΎΠ»ΡΡΠΎΠ΅ ΡΠ΅ΠΊΡΡΠΎΠ²ΠΎΠ΅ Π·Π°ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅: ΠΠ°ΠΊΠΈΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ ΠΈΠΌΠ΅ΡΡ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡΠΈΠ»ΡΠ½ΡΠ΅ Π²Π·Π°ΠΈΠΌΠ½ΡΠ΅ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ (ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΠ΅ ΠΈ ΠΎΡΡΠΈΡΠ°ΡΠ΅Π»ΡΠ½ΡΠ΅)? ΠΡΡΡ Π»ΠΈ Π²ΡΠ±ΡΠΎΡΡ ΠΈΠ»ΠΈ ΠΏΠ°ΡΡΠ΅ΡΠ½Ρ, ΠΊΠΎΡΠΎΡΡΠ΅ ΡΡΠ΅Π±ΡΡΡ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ? ΠΠ°ΠΊΠΈΠ΅ Π΄Π°Π½Π½ΡΠ΅ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ ΠΏΠΎΠ»Π΅Π·Π½ΡΠΌΠΈ Π΄Π»Ρ Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅ΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΠΈΠ»ΠΈ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ? ΠΠ°Π»ΠΎΠ³ΠΈΡΡΠΉΡΠ΅ ΡΡΠΎ ΡΠ΅ΠΊΡΡΠΎΠ²ΠΎΠ΅ Π·Π°ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅ Π² Comet ML ΠΊΠ°ΠΊ ΡΠ°ΡΡΡ Π²Π°ΡΠ΅Π³ΠΎ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ° (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° log_parameter()). ΠΠ»Ρ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΡ scatter matrix ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ pandas.plotting.scatter_matrix ΠΈΠ»ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ seaborn.pairplot. ΠΠ»Ρ ΡΠ°ΡΡΠ΅ΡΠ° ΠΊΠΎΡΡΠ΅Π»ΡΡΠΈΠΉ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ ΠΌΠ΅ΡΠΎΠ΄ .corr() ΠΈΠ· pandas. ΠΠ»Ρ Π»ΠΎΠ³ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π² Comet ML ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ experiment.log_figure() Π΄Π»Ρ Π³ΡΠ°ΡΠΈΠΊΠΎΠ² ΠΈ experiment.log_text() ΠΈΠ»ΠΈ experiment.log_metric() Π΄Π»Ρ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΡ
Π²ΡΠ²ΠΎΠ΄ΠΎΠ².
2025-02-11
ΠΡΠΊΠ»ΠΈΠΊΠ½ΡΡΡΡΡ