Συνέντευξη με τον Noam Brown, εκ των δημιουργών του Libratus

Στα τέλη του περασμένου μήνα ένα από τα θέματα που μονοπώλησαν τα μέσα ενημέρωσης ήταν ο αγώνας ενός bot δημιουργίας του Carnegie Mellon University (CMU) απέναντι σε 4 επαγγελματίες στο heads-up no-limit hold’em. Προς έκπληξη ίσως πολλών το bot τεχνητής νοημοσύνης διέλυσε τους επαγγελματίες κερδίζοντας περισσότερα από 14 big blinds ανά 100 hands!

Μετά από συνολικά 120.000 hands ο Libratus βρέθηκε με +1.700.000 chips, ή αλλιώς περίπου 17.000 big blinds. Αυτό σήμαινε σχεδόν 90 buy-ins! Ευτυχώς βέβαια για τους τέσσερις επαγγελματίες δεν ήταν πραγματικά χρήματα, τουναντίον είχαν λάβει χρήματα για να συμμετέχουν. Όλοι βρέθηκαν εν τέλει νικημένοι από το bot.

‘Ο Libratus αποτελεί το ‘ιερό δισκοπότηρο’ των poker bots τεχνητής νοημοσύνης’, δήλωσε ο διδακτορικός φοιτητής του CMU Noam Brown.

Ο Brown και ο καθηγητής Tuomas Sandholm ήταν εκ των δημιουργών του bot και προκάλεσαν θύελλα συζητήσεων γύρω από αυτό και τις επιδράσεις που θα έχει στο online πόκερ, καθώς ποτέ στο παρελθόν δεν είχε βρεθεί κάποιο αντίστοιχο να κερδίζει επαγγελματίες τόσο υψηλού επιπέδου στο heads-up no-limit hold’em.

Σύμφωνα με τον Brown υπάρχουν πολλά περιθώρια βελτίωσης σε επόμενες εκδόσεις του Libratus. Μια ανανεωμένη έκδοση ενός bot θα μπορούσε θεωρητικά να κερδίσει τον Libratus μέχρι και ως 50 big blinds ανά 100 hands!

Ο Brian Pempus του Card Player συνομίλησε με τον Brown σε σχέση με την ιστορική αυτή αναμέτρηση, αλλά και για το τι επίκειται από εδώ και πέρα.

Εκπλαγήκατε από τα αποτελέσματα της αναμέτρησης;

Ναι, εντυπωσιάστηκα από το πόσο καλά έπαιξε. Ερχόμενοι στην πρόκληση αυτοί είχαμε δοκιμάσει το bot απέναντι σε προηγούμενα bots και είχαμε την αίσθηση ότι κέρδιζε τον Claudico (το προηγούμενο bot) με 10-12 big blinds ανά 100 hands, που είναι περισσότερα απ’ όσα κέρδισαν οι άνθρωποι στην πρόκληση του 2015, αλλά όχι κάποια τεράστια διαφορά. Πιστέψαμε λοιπόν πως έχουμε ένα μικρό edge έναντι των ανθρώπων, απλά δεν γνωρίζαμε πόσο ήταν. Εκπλαγήκαμε από το πόσο καλά τα πήγε εν τέλει.

Δεν πιστέψατε δηλαδή ότι το bot είναι έτοιμο να κερδίσει τους ανθρώπους με 14 big blinds ανά 100 hands;

Ναι δεν εκτιμήσαμε πόσο απ’ το πλεονέκτημα των ανθρώπων έναντι του Claudico οφείλονταν στην εκμετάλλευση των αδυναμιών (exploit). Οι επαγγελματίες είχαν ανακαλύψει αδυναμίες του Claudico τότε και είχαν την δυνατότητα να το εκμεταλλευθούν. Κάνοντας για παράδειγμα raise στα limps του Claudico ήταν πολύ αποτελεσματικό και συνετέλεσε σε μεγάλο βαθμό στον θρίαμβό τους.

Ο Libratus δεν έπαιξε για να εκμεταλλευτεί τις αδυναμίες των αντιπάλων του. Το γεγονός ότι ο Libratus είχε την δυνατότητα να κερδίσει τον Claudico για 10 ή 12 big blinds ανά 100 ‘χέρια’ χωρίς exploit, υποδήλωνε ότι ο Libratus ήταν πολύ ισχυρότερος από τους ανθρώπους στο heads-up παιχνίδι. Ο κυριότερος λόγος που θριάμβευσε ο Libratus ήταν πως δεν είχε τρωτά σημεία που θα μπορούσαν να εκμεταλλευθούν οι pros.

Στο σημείο που οι επαγγελματίες κατάφεραν σχεδόν να ρεφάρουν θεωρήσατε ότι ίσως ανακάλυψαν κάποια αδυναμία στο παιχνίδι του bot ή είχατε ακόμη αυτοπεποίθηση για θετικό αποτέλεσμα;

Ναι προς το τέλος της πρώτης εβδομάδας το είχαν φέρει σχεδόν στα ίσα.

Κατά την διάρκεια της πρώτης εβδομάδας υπήρχαν πολλές συζητήσεις ανάμεσα στους παίκτες για το πως προσαρμοζόταν ο Libratus και που ήταν ισχυρός. Δεν μου έλεγαν προφανώς τα πάντα, αλλά από αυτά που άκουγα είχαν παρατηρήσει κάποιες συμπεριφορές του στα δεδομένα και κάποιες αδυναμίες, αλλά και τρωτά σημεία που δεν υπήρχαν. Για το μεγαλύτερο κομμάτι δεν ήμουν τόσο ανήσυχος. Θεωρούσαν πως ο Libratus ήταν λανθασμένος σε σημεία που δεν ήταν.

Για παράδειγμα μια μέρα προσπάθησαν να κάνουν 3-bet στο 80% των hands τους γιατί με βάση τα δεδομένα θεωρούσαν ότι ήταν αδύναμο απέναντι σ” ένα συγκεκριμένο μέγεθος 3-bet. Δεν πιστεύω πως ήταν ένα πραγματικά τρωτό σημείο του bot. Ήταν απλά κάποια ανούσια δεδομένα στα hands που είχαν παίξει μέχρι τότε που τους οδήγησαν σ” αυτή τη σκέψη.

Έβλεπαν βέβαια και συμπεριφορές που όντως υπήρχανε, όπως τ’ ότι δεν ανταποκρίνονταν πολύ καλά σε κάποια ιδιαίτερα opening sizes.

Ήταν αδυναμίες για τις οποίες θεωρήσαμε πριν τα παιχνίδια πως δεν θ” αποτελέσουν μεγάλο πρόβλημα, αλλά αποδείχθηκε ότι ήταν σημαντικό πρόβλημα. Ευτυχώς ο Libratus προετοιμάστηκε γι” αυτό και κατά την διάρκεια της νύχτας που οι επαγγελματίες κοιμόντουσαν αυτός εκπαιδευόταν ώστε να καλύψει αυτά τα κενά και ν’ αποτρέψει τους αντίπαλους του να τον εκμεταλλευτούν με κάποιο μακροπρόθεσμο πλάνο. Γι” αυτό είδατε τα πράγματα να παίρνουν άλλη τροπή μετά την πρώτη εβδομάδα.

Ήταν ζωτικής σημασίας αυτές οι διορθωτικές κινήσεις στο bot μετά από κάθε session;

Υπήρχε μια παρανόηση σε σχέση με αυτό. Δεν του υπαγορεύαμε δηλαδή να κάνει πιο συχνά 4-bet ή περισσότερο fold. Αυτό που συνέβη ήταν πως οι επαγγελματίες χρησιμοποιούσαν διαφορετικά bet sizes τόσο preflop όσο και στο flop. Είχαμε ήδη πολλά bet sizes προγραμματισμένα και γνώριζε πως ν’ ανταποκριθεί σ” ένα opening size 2x, 2.5x και 3×.

Αλλά αν οι επαγγελματίες άνοιγαν για παράδειγμα με 2.75x το bot ενεργούσε σαν να ήταν 3x. Η ανταπόκριση του ήταν αρκετά καλή. Δεν ήταν και τόσο παράλογο να προσαρμόζεσαι σε 3x αντί για 2.75x, αλλά θα ήταν καλύτερο φυσικά ν” ανταποκρίνεται στον ακριβή αριθμό.

Κατά την διάρκεια της νύχτας λοιπόν εκπαιδεύονταν στο πως ν” ανταποκρίνεται στο 2.75x και τα μεγέθη που εκπαιδεύονταν καθορίζονταν από ένα αλγόριθμο που έδινε προτεραιότητα στα διαφορετικά bet sizes με βάση αυτά που οι επαγγελματίες χρησιμοποιούσαν πιο συχνά και πόσο μακριά βρίσκονταν από ένα υπάρχων μέγεθος που είχαμε στο game tree. Αυτή ήταν η διορθωτική κίνηση που γίνονταν. Μάθαινε πως ν” ανταποκρίνεται σε συγκεκριμένα διαφορετικά preflop και flop bet sizes καλύτερα.

Ήταν ένα σημείο-κλειδί του αλγορίθμου που του επέτρεψε να προσαρμοστεί με τον καιρό στο στιλ παιχνιδιού των αντιπάλων του. Δεν έκανε exploit των ανθρώπων όπως πίστευαν. Και οι τέσσερις αντιμετώπισαν το ίδιο bot κατά την διάρκεια του ‘πειράματος’. Απλά μάθαινε πως ν’ ανταποκρίνεται στα συγκεκριμένα bet sizes καλύτερα με τον καιρό.

Θα μπορούσαμε να πούμε δηλαδή πως ο τρόπος που ανταποκρίνονταν στην δράση σε turn και river ήταν λιγότερο σημαντικός – όσον αφορά την προσαρμογή κατά την διάρκεια του παιχνιδιού – σε σχέση με το πως ανταποκρίνονταν preflop και στο flop;

Όταν έφτανε η δράση στο turn ίσως παρατηρήσατε ότι ο Libratus έπαιρνε κάποιο χρόνο να σκεφτεί. Το έκανε βασικά για τις επόμενες κινήσεις του σε turn και river. Κάποιοι δεν το παρατήρησαν γιατί εξελίχθηκε γρήγορα, αλλά ουσιαστικά υπολόγιζε ξανά την στρατηγική του κάθε φορά που οι παίκτες έκαναν ένα bet σε turn και river.

Ο λόγος που γινόταν αυτό ήταν γιατί είχε την δυνατότητα να υπολογίσει μια στρατηγική που θ’ ανταποκρίνεται τέλεια σε οποιοδήποτε bet size χρησιμοποιούσαν οι παίκτες στο turn και στο river. Αυτό το ζήτημα λοιπόν του να υπολογίζει από πριν μια σειρά από διαφορετικά bets για να βάλει στο game tree δεν μπορούσε να γίνει για το turn και το river γιατί υπολόγιζε αυτές τις στρατηγικές σε πραγματικό χρόνο.

Αυτή η ικανότητα σε πραγματικό χρόνο είναι κάτι που ο Claudico δεν είχε ή απλά δεν τελειοποιήθηκε;

Ο Claudico είχε ένα λύτη σε πραγματικό χρόνο για το river, αλλά ήταν πιο αδύναμο σε αρκετά θέματα. Αρχικά δεν υπολόγιζε τα blockers. Για να το ‘τρέξει’ γρήγορα έπρεπε να κατηγοριοποιήσει μια σειρά από hands μαζί και να τα μεταχειριστεί πανομοιότυπα.

Γι’ αυτό το λόγο συμπεριφερόταν το ίδιο είτε έχοντας με τρία μπαστούνια στο board, είτε έχοντας με τρία μπαστούνια στο board, ακόμη κι αν έπρεπε να τα μεταχειριστεί διαφορετικά. Ο λύτης του Claudico στο end-game μπορούσε να υπολογίσει σε πραγματικό χρόνο μια σειρά από διαφορετικά bet sizes, αλλά δεν υπολόγιζε ξανά κάθε φορά που οι άνθρωποι έκαναν bet. Αυτός ο υπολογισμός ξανά κάθε φορά που οι επαγγελματίες πραγματοποιούσαν κάποιο ποντάρισμα ήταν ένας σημαντικός λόγος που το bot τα πήγε περίφημα αυτή τη φορά.

Αυτή τη φορά επίσης είχαμε την δυνατότητα να το κλιμακώσουμε ξεκινώντας απ’ το turn, που είναι πολύ πιο έντονος υπολογισμός γιατί θα πρέπει έχεις να κάνεις τώρα με σχεδόν 50 διαφορετικά rivers που θα μπορούσαν να βγουν και ο αριθμός των κινήσεων που θα μπορούσαν να συμβούν πριν το τέλος της παρτίδας αυξάνεται επίσης εκθετικά. Είναι συνεπώς ένας υπολογισμός περίπου 1.000 φορές πιο ακριβός απ’ τον Claudico. Είχαμε την δυνατότητα να προσαρμόσουμε αυτό το νέο αλγόριθμο πολύ αποτελεσματικά.

Πόσο μακριά είναι ο Libratus απ” το να παίξει με μια τέλεια στρατηγική GTO; Πόσες ακόμη ανανεωμένες εκδόσεις του bot θα πρέπει να βγουν;

Κανείς δεν γνωρίζει πόσο μακριά βρίσκεται από μια στρατηγική GTO (game theory optimal). Έχουμε μεθόδους για να το υπολογίσουμε αυτό, αλλά είναι εξαιρετικά ακριβό για να το κάνεις.

Δεν έχει βγει πάντως ακόμη. Είναι κάτι που θα κοιτάξουμε τα επόμενα χρόνια. Αν έπρεπε να προβλέψω θα έλεγα πως ένα τέλειο GTO bot θα μπορούσε να κερδίζει τον Libratus για 15 big blinds ανά 100 hands. Αυτή είναι η πρόχειρη εκτίμηση μου. Θα μπορούσε να είναι οτιδήποτε μεταξύ 5 και 50 big blinds ανά 100 hands.

Ακούγεται εντυπωσιακό. Συνεπώς υπάρχουν σημαντικά περιθώρια βελτίωσης;

Είναι δύσκολο να προβλέψεις ακριβώς. Μια από τις αδυναμίες των παλαιότερων εκδόσεων ήταν πως δεν υπολόγιζαν τα blockers σε turn και river. Αυτό είναι πολύ σημαντικό σε υψηλό επίπεδο. Ο Libratus δεν έχει αυτό το πρόβλημα. Σκέφτεται το κάθε hand μοναδικά στο turn και στο river.

Ήταν ένα σημείο-κλειδί που οδήγησε σε ακόμη καλύτερη παρουσία σε σύγκριση με προηγούμενα bots. Δεν υπάρχει μεγαλύτερο περιθώριο βελτίωσης σ’ αυτό το κομμάτι, στο να ξεχωρίσουμε τα blockers καλύτερα δηλαδή. Αλλά ίσως υπάρχει περιθώριο στο πώς να επιλέξει τα bet sizes του. Δεν μπορώ να προβλέψω το πόσο μπορεί να βελτιωθεί, αλλά υπολογίζω περίπου 15%.

Συζητήθηκε αρκετά το πόσο επιθετικός ήταν ο Libratus σε σχέση με τα over–bets σε turn και river. Ήταν κάτι για το οποίο είχε τελειοποιηθεί ή θα μπορούσε να βελτιωθεί κι άλλο στο πώς να ισορροπεί τα ranges του σε συγκεκριμένα spots;

Τα over-bets ήταν ένα από τα πράγματα που μας εξέπληξαν κατά την διάρκεια της πρόκλησης. Ο Libratus δεν ήταν εκπαιδευμένος με ανθρώπινα δεδομένα, δεν είχε δει ποτέ ανθρώπινη παρτίδα πόκερ. Ήρθε λοιπόν στην πρόκληση αυτή με μια μοναδική στρατηγική που θεωρούσε βέλτιστη και ήταν πολύ διαφορετικός σε σχέση με αυτό που οι άνθρωποι θεωρούν βέλτιστο παιχνίδι.

Τα μεγάλα over-bets αποτελούσαν σημαντικό κομμάτι της στρατηγικής, όπως και τα donk bets. Ήταν απίστευτα εντυπωσιακό και ικανοποιητικό να βλέπεις το bot να κάνει κάτι που οι άνθρωποι δεν είχαν την δυνατότητα να κάνουν στο παρελθόν. Είδαμε αυτού του είδους την επιθετικότητα με τον Claudico, που είχε την φήμη των τεράστιων shoves όταν το pot ήταν πολύ μικρό. Νομίζω όμως πως το έκανε με λάθος τρόπο. Δεν είχε την ισορροπία στο πως να κάνει αυτά τα τεράστια bets. Θεωρώ πως με τον Libratus είδαμε μια πιο ισορροπημένη επιθετικότητα και αυτό ήταν το “κλειδί” για τον θρίαμβο του.

Αρκετός λόγος έχει γίνει για τις επιδράσεις που θα έχει για το μέλλον του online πόκερ. Θα μπορούσαμε να πούμε πως ο Libratus δεν διακινδυνεύει την ακεραιότητα του παιχνιδιού, τουλάχιστον προς το παρόν;

Μπορώ τουλάχιστον να τους διαβεβαιώσω ότι δεν θα “τρέξουμε” το Libratus online και δεν υπάρχει κάποιο πλάνο να το κάνουμε ποτέ. Προφανώς όμως δεν πρόκειται αυτό να εμποδίσει άλλους ανθρώπους ν” αξιοποιήσουν την τεχνολογία και να την ενσωματώσουν σε δικά τους bots που θα εμφανιστούν online. Δεν θέλω να μπω στην διαδικασία ν” αναφερθώ για το αν θα επηρεάσουν τα bots το online πόκερ. Η αλήθεια είναι πως δεν γνωρίζω τον χώρο αυτό τόσο καλά. Ξέρω βέβαια ότι κατά καιρούς έχουν υπάρξει online bots κι ότι οι πλατφόρμες πασχίζουν να τα απομακρύνουν, αλλά δεν μπορώ να προβλέψω ποια πλευρά θα κερδίσει αυτόν τον “πόλεμο”.

Αν τα stack sizes στην πρόκληση ήταν χαμηλότερα ή υψηλότερα, τι επίδραση θα είχε αυτό στα αποτελέσματα της αναμέτρησης; Θα μπορούσε το bot να χειριστεί ένα stack 500-1.000 big blinds;

Τα 200 big blinds επιλέχθηκαν γιατί αυτό ήταν το format που χρησιμοποιήθηκε στον ετήσιο διαγωνισμό υπολογιστών για το πόκερ. Εκεί συγκεντρώνονται ερευνητές που δουλεύουν πάνω σε poker bots και αναμετρώνται μεταξύ τους.

Τα 200 big blinds θεωρήθηκαν μια ιδιαίτερα δύσκολη πρόκληση γιατί όσο τα stacks γίνονται πιο deep τόσο πιο πολύ δύσκολο είναι να χειριστεί το bot τον αυξανόμενο αριθμό των διαθέσιμων επιλογών. Από την δική μου οπτική τα 200 big blinds ήταν κατά κάποιο τρόπο το ‘ταβάνι’ για μια τέτοια μονομαχία όσον αφορά τους ανθρώπους. Ήταν το κατάλληλο μέγεθος για να υπάρχει μια δίκαιη αναμέτρηση, αλλά και να γίνει όσο το δυνατόν πιο προκλητικό για το bot.

Αν τα stacks ήταν χαμηλότερα, για παράδειγμα 100 big blinds, το bot θα τα πήγαινε εξίσου καλά, αν όχι καλύτερα. Όσο για το πως θα τα πήγαινε αν τα stacks ήταν 500 ή 1.000 big blinds deep, πιστεύω ειλικρινά πως και πάλι θα ανταποκρίνονταν εξίσου καλά ή και καλύτερα.

Όχι γιατί είναι ευκολότερο για το bot, αλλά γιατί είναι δυσκολότερο για τους ανθρώπους σ” αυτό το σημείο. Δεν νομίζω πως οι παίκτες έχουν συνηθίσει να παίζουν με 500 ή 1.000 big blinds deep. Όλα αυτά τα stacks, τα τεράστια over-bets που ο Libratus υπερέχει θα έκαναν τη διαφορά. Δεν γνωρίζω αν οι άνθρωποι θα μπορούσαν να εξαπολύσουν τέτοια over-bets εξίσου καλά όσο θα το έκανε ο Libratus.

Θα υπάρξει άλλη παραλλαγή του no–limit hold’em poker όπου το bot θα μπορεί να διαχειριστεί με επιτυχία επιπλέον παίκτες στο τραπέζι;

Έχουν γίνει μερικές έρευνες για τους τρεις παίκτες. Γενικότερα μιλώντας, οι τεχνικές του Libratus δούλεψαν ικανοποιητικά και σε περισσότερους από δύο παίκτες. Το πρόβλημα δεν έχει να κάνει με τις τεχνικές, αλλά με το πως αξιολογείς την παρουσία. Όταν έχεις παραπάνω από δύο παίκτες μπορείς να παίξεις μια τέλεια στρατηγική GTO και να χάσεις πάλι χρήματα γιατί οι άλλοι παίκτες συνωμοτούν είτε έμμεσα, είτε άμεσα.

Είναι λοιπόν δύσκολο να έχεις σ’ ένα παιχνίδι το bot μαζί με άλλους πέντε ανθρώπους και να προσπαθήσεις ν’ αξιολογήσεις αν αυτό ήταν καλύτερο από τους ανθρώπους. Δεν είναι πραγματικά εφικτό να το υπολογίσεις. Γι’ αυτό ο διαγωνισμός ήταν για δύο παίκτες και γι’ αυτό τα αποτελέσματα είναι περισσότερο βαρυσήμαντα σε format δύο παικτών. Νομίζω πως προς το παρόν το 6-max είναι λίγο πιο κάτω από τις δυνατότητες του Libratus και παρόμοιων bots τεχνητής νοημοσύνης.

Στον ετήσιο διαγωνισμό υπολογιστών σε σχέση με το πόκερ προστέθηκε ένας διαγωνισμός για παιχνίδι έξι παικτών. Κάποιες ερευνητικές ομάδες θα ξεκινήσουν πάνω σ” αυτό το κομμάτι και νομίζω πως θα έχουμε σύντομα τα πρώτα αποτελέσματα. Με κάποιες μικρές βελτιώσεις ο Libratus θα είναι ικανός να κερδίσει ανθρώπους στο 6-max μέσα στα επόμενα δύο χρόνια.

Όταν παίζεις με έξι παίκτες δεν είναι πραγματικά ξεκάθαρο αν θέλεις να παίζεις GTO, θα μπορούσε να είναι καλύτερο να επικεντρωθείς στο exploit των αδύναμων παικτών. Είναι κάτι που συζητείται έντονα στην κοινότητα και δεν υπάρχει απάντηση ακόμη. Οι άνθρωποι εξακολουθούν να έχουν edge στο exploit αδύναμων παικτών και το εκμεταλλεύονται.

Pokerland