Pobierz fragment

Algorytmy. Kiedy mniej myśleć - ebook

Brian Christian, Tom Griffiths

Wydawnictwo:

Feeria Science

Tłumacz:

Dariusz Rossowski

Data wydania:

15 lutego 2018

Format ebooka:

EPUB

czytaj

na czytniku

czytaj

na tablecie

czytaj

na smartfonie

Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.

Multiformat

E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.

, MOBI

czytaj

na czytniku

czytaj

na tablecie

czytaj

na smartfonie

Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.

Multiformat

(2w1)

Multiformat

E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.

czytaj

na tablecie

Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

czytaj

na czytniku

Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

czytaj

na smartfonie

Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

Czytaj fragment

Pobierz fragment

Algorytmy. Kiedy mniej myśleć - ebook

Fascynujące spojrzenie na to, jakie wnioski z algorytmów komputerowych płyną do zastosowania w naszym codziennym życiu, pomagając w podejmowaniu decyzji i rozjaśniając mechanizmy pracy umysłu.

Co informatyka może wiedzieć o naszym prywatnym życiu? Skąd pomysł, by procedury programistyczne stosować do problemów ludzkich, nie tylko komputerowych?
Okazuje się, że tematy te pojawiają się już nawet na poziomie rozpatrywanych zadań: problem sekretarki, problem komiwojażera, dylemat więźnia, problem wielorękiego bandyty, w końcu relaksacja problemu… Informatyka nie jest aż tak abstrakcyjna i oderwana od świata, jak czasem się wydaje.

• Czy zawsze porządek jest lepszy od bałaganu?
• Jak długo poznawać kolejne oferty przed wynajęciem mieszkania?
• Jaki jest idealny moment na ślub?
• Kiedy najbardziej racjonalnym posunięciem jest… zdanie się na los?
• Jak optymalnie szukać miejsca parkingowego?
• Co giganci programowania mówią o sposobach sortowania skarpetek?

Wyłuskane tu informatyczne porady często twórczo wzbogacają wskazania psychologii, a jednocześnie mają tę rzadką zaletę, że ich optymalność jest… matematycznie dowiedziona.

Kategoria:	Popularnonaukowe
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-7229-736-5
Rozmiar pliku:	3,5 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Wstęp

Wstęp

------------------------------------------------------------------------

Wyobraźmy sobie, że szukasz mieszkania do wynajęcia w San Francisco, chyba najtrudniejszym pod tym względem mieście w USA. Boom sektora technologicznego i surowe przepisy ograniczające nowe budownictwo sprzysięgły się, by miasto stało się równie drogie co Nowy Jork i nie mniej konkurencyjne. Oferty lokali znikają w ciągu kilku minut, mieszkania są zajmowane niemal na dziko i często klucze trafiają do rąk tego, kto pierwszy siłą wciśnie czek z zaliczką administratorowi.

Taki drapieżny rynek nie pozostawia zbyt wiele miejsca na prowadzenie systematycznych poszukiwań i podejmowanie rozważnych decyzji, czym teoretycznie powinno się cechować postępowanie racjonalnego konsumenta. W odróżnieniu od, powiedzmy, klienta galerii handlowej czy sklepu internetowego, który może porównać różne możliwości przed dokonaniem zakupu, przyszły „sanfranciskanin” musi natychmiast podjąć decyzję typu albo-albo: bierze to mieszkanie, które właśnie ogląda, rezygnując ze wszystkich pozostałych, albo odchodzi i nigdy już do niego nie wraca.

Dla uproszczenia załóżmy na moment, że zależy ci tylko na tym, żeby jak najbardziej zwiększyć swoją szansę na zdobycie najlepszego z dostępnych lokali. Twoim celem jest wydostać się z krzyżowego ognia żalu i obaw, w którym się znalazłeś: z jednej strony żalu przepuszczenia nadarzającej się okazji, z drugiej obaw związanych z niesprawdzeniem innych opcji. Zderzasz się z tym dylematem od samego początku: skąd masz wiedzieć, że dane mieszkanie jest rzeczywiście najlepsze, skoro brakuje ci punktu odniesienia? A jak masz ten punkt zyskać, jeśli nie obejrzysz (i nie stracisz) pewnej liczby ofert? Im więcej zbierzesz informacji, tym łatwiej zidentyfikujesz wyjątkową ofertę, gdy się trafi – ale jednocześnie będzie coraz prawdopodobniejsze, że już ją przepuściłeś.

Co masz więc zrobić? Jak podjąć decyzję opartą na realnych przesłankach, skoro sam akt zbierania tych przesłanek zagraża rezultatowi? To okrutna zagadka z pogranicza paradoksu.

W obliczu takiego problemu większość ludzi intuicyjnie powie, że trzeba ustanowić pewną proporcję między oglądaniem kolejnych ofert a skokiem na głęboką wodę; trzeba obejrzeć wystarczająco dużo mieszkań, by określić standard, a następnie zdecydować się na to, co ten standard spełni. Idea takiej proporcji jest rzeczywiście słuszna. Większość ludzi traci jednak pewność siebie, gdy mają powiedzieć, ile może ona wynieść. Na szczęście odpowiedź ta istnieje.

Trzydzieści siedem procent.

Jeśli zależy ci na największym prawdopodobieństwie wynajęcia najlepszego mieszkania, poświęć 37% poszukiwania go (jedenaście dni, jeśli dałeś sobie miesiąc na cały proces) na chłodne zapoznawanie się z dostępnymi opcjami. Gotówkę zostaw w domu; na razie tylko kalibrujesz zakup. Ale po przekroczeniu tego punktu bądź gotów na natychmiastową decyzję – umowę wstępną, zaliczkę itd. – w pierwszym lokalu, który będzie lepszy od tych, które już oglądałeś. Nie jest to tylko intuicyjnie satysfakcjonujący kompromis między rekonesansem a decyzją. Jest to prawdopodobnie optymalna decyzja.

Mamy co do tego pewność, ponieważ znajdowanie mieszkania należy do problemów matematycznych z klasy optymalnego stopowania. W regule 37% streszcza się prosty ciąg pewnych działań – czyli algorytm, jak mówi się w informatyce – prowadzący do rozwiązania takich problemów. Okazuje się, że polowanie na apartament jest jednym z przykładów, w których optymalne stopowanie daje o sobie znać w codziennym życiu. Wybór lub przepuszczanie kolejnych opcji jest strukturą, z którą wielokrotnie mamy do czynienia pod różnymi postaciami. Ile razy powinno się okrążyć samochodem kwartał ulic w poszukiwaniu miejsca do zaparkowania? Jak daleko brnąć w ryzykowny interes przed spieniężeniem swojego udziału? Jak długo czekać na lepszą ofertę na swój dom czy samochód?

To samo wyzwanie występuje również w delikatniejszej kwestii: randkowania. Teoria optymalnego stopowania jest naukową podbudową seryjnej monogamii.

Proste algorytmy oferują rozwiązania nie tylko w poszukiwaniu mieszkań, lecz także w tych wszystkich sytuacjach życiowych, w których stajemy przed problemem znalezienia optymalnego momentu zatrzymania jakiegoś procesu. Ludzie zmagają się z tym, niekiedy z wielkim trudem, w zasadzie każdego dnia – choć z pewnością poeci wylali więcej atramentu na udręki zalotów niż parkowania. Tymczasem trud jest zbędny. Przynajmniej w sensie matematycznym problemy te są już rozwiązane.

Wszyscy znękani najemcy, kierowcy i randkowicze, których widujesz wokół, zajęci są w zasadzie ponownym wynajdowaniem koła. Nie potrzeba im psychoterapii; potrzeba im algorytmu. Terapeuta powie im, by znaleźli właściwą, komfortową proporcję między impulsywnością a nadmiernym myśleniem.

Algorytm mówi im, że ta proporcja wynosi trzydzieści siedem procent.

◆

Istnieje pewien zbiór problemów, przed którymi stają wszyscy ludzie; problemów, które są bezpośrednią konsekwencją tego, iż nasze życie toczy się w skończonej przestrzeni i czasie. Co powinniśmy zrobić – oraz co zostawić niezrobione – w ciągu danego dnia czy dekady? Z jak wielkim bałaganem powinniśmy się oswoić albo jak duży porządek staje się przesadą? Jaka ilość nowych doświadczeń w stosunku do preferowanych przyczynia się do maksymalnego spełnienia w życiu?

Może się wydawać, że są to problemy wyłącznie ludzkie – nic bardziej mylnego. Od ponad półwiecza informatycy borykają się z odpowiednikami tych codziennych dylematów i w wielu przypadkach znaleźli rozwiązania. Jak procesor ma dzielić swoją „uwagę”, by wykonać wszystko, czego życzy sobie użytkownik, z minimalnym obciążeniem i w jak najkrótszym czasie? Kiedy powinien przełączać się między różnymi zadaniami i ilu w ogóle zadań powinien się podejmować naraz? Jaki jest najlepszy sposób wykorzystania jego ograniczonych zasobów pamięciowych? Powinien zebrać jeszcze więcej danych, czy też przystąpić do obliczeń na podstawie tych, którymi już dysponuje? Sporym wyzwaniem dla ludzi bywa carpe diem – chwytanie dnia. Tymczasem otaczające nas zewsząd komputery z łatwością chwytają milisekundy. Możemy się dużo nauczyć na ich przykładzie.

Sformułowanie „algorytmy dla ludzkiego życia” wydaje się pewnie niektórym osobliwym zestawieniem. Słowo „algorytm” przywodzi powszechnie na myśl tajemne i nieprzeniknione machinacje wielkimi danymi, potężne instytucje państwowe i globalny biznes – raczej ważny element infrastruktury nowoczesnego świata niż źródło mądrości życiowej czy przewodnik po ludzkich sprawach. Jednak zasadniczo algorytmy są po prostu skończonymi ciągami działań prowadzących do rozwiązania poszczególnych problemów i mają dużo szersze zastosowanie, nieograniczające się do informatyki, od której są zresztą dużo starsze. Na długo zanim były wykorzystywane przez maszyny, korzystali z nich ludzie.

Samo słowo „algorytm” pochodzi od nazwiska perskiego matematyka Musy al-Khwārizmīego (al-Chuwarizmiego), autora podręcznika z IX wieku o technikach liczenia (księga ta była zatytułowana al-Jabr wa’l-Muqābala, a al-jabr stało się rdzeniem naszego słowa „algebra”). Jednak najstarsze znane algorytmy matematyczne pochodzą z jeszcze dawniejszych czasów. Mająca cztery tysiące lat sumeryjska tabliczka gliniana znaleziona opodal Bagdadu zawiera opis sposobu dzielenia pisemnego.

Niemniej występowanie algorytmów nie ogranicza się do matematyki. Korzystasz z algorytmu, piekąc ciasto na podstawie przepisu czy robiąc sweter na drutach według wzoru. Kiedy ostrzysz kant krzemienia, wykonując precyzyjną sekwencję uderzeń jelenim rogiem – najważniejszy etap w wytwarzaniu narzędzi z kamienia – również korzystasz z algorytmu. Algorytmy stanowią część kultury technologicznej człowieka od epoki kamienia.

◆

W książce tej omawiamy projektowanie algorytmów dla ludzi – poszukiwanie lepszych rozwiązań w odniesieniu do wyzwań, przed którymi stajemy. Spojrzenie na codzienne życie przez pryzmat informatyki ma konsekwencje przejawiające się w różnych skalach. Przede wszystkim oferuje nam praktyczne, konkretne porady odnośnie do sytuacji, przed którymi stajemy. Optymalny moment stopu podpowiada, kiedy rozglądać się dalej, a kiedy łapać okazję. Kompromis eksploracja/eksploatacja mówi, jak pogodzić poznawanie nowego z korzystaniem z tego, co lubimy. Teoria sortowania wskazuje, jak (i czy) porządkować swój gabinet. Teoria pamięci podręcznej pomaga układać szpargały w schowkach. Teoria planowania mówi, jak wypełniać swój czas.

Na następnym poziomie informatyka daje nam aparat pojęciowy do zrozumienia głębszych zasad, które ujawniają się w każdej z tych domen. Jak ujął to Carl Sagan, „nauka jest w dużo większym stopniu sposobem myślenia niż zasobem wiedzy”. Nawet w tych przypadkach, gdy życie przebiega zbyt chaotycznie, by można było odwoływać się do ścisłej analizy matematycznej czy oczekiwać gotowych rozwiązań, zastosowanie intuicji i koncepcji wynikających z prostszych postaci tych problemów daje nam możliwość zrozumienia zasadniczych występujących tu zagadnień i posunięcia się do przodu.

W najszerszym ujęciu patrzenie przez pryzmat informatyki pozwala wyciągnąć naukę na temat ludzkiego umysłu, tego, co to jest racjonalność, oraz najstarszej kwestii ze wszystkich: jak żyć. Rozpatrywanie zdolności poznawczych jako środka do rozwiązywania stawianych nam przez środowisko zadań o charakterze fundamentalnie obliczeniowym może gruntownie zmienić nasz sposób myślenia o racjonalności człowieka.

Sugestia, że analiza schematów działania komputera jest w stanie ukazać, jak powinniśmy myśleć i podejmować decyzje, do czego mieć zaufanie i jak postępować, może uderzać wielu ludzi jako nie tylko wyjątkowo redukcjonistyczna, ale po prostu głupia. Nawet gdyby informatyka miała coś do powiedzenia na temat optymalnego sposobu myślenia i działania, dlaczego mielibyśmy tego słuchać? Gdy popatrzy się na sztuczną inteligencję lub roboty z opowieści science fiction, nie wydaje się, byśmy mieli ochotę prowadzić życie na ich modłę.

Częściowo wynika to z tego, że myśląc o komputerach, mamy obraz zimnych, mechanistycznych, deterministycznych układów – maszyn stosujących sztywną logikę dedukcyjną, podejmujących decyzje po wyliczeniu wszystkich dostępnych opcji i wymieleniu ściśle poprawnej odpowiedzi bez względu na to, jak długo i intensywnie będą musiały nad nią myśleć. Rzeczywiście człowiek, który pierwszy wyobraził sobie komputery, miał na myśli coś w tym rodzaju. Alan Turing zdefiniował samo pojęcie obliczeń (computation)¹ przez analogię do matematyka, który systematycznie pokonuje kolejne etapy w rachunkach, bezbłędnie uzyskując poprawną odpowiedź.

Dla wielu może być więc zaskoczeniem, że nowoczesne komputery, stając przed trudnym problemem, nie postępują w taki sposób. Oczywiście prosta arytmetyka nie jest szczególnym wyzwaniem dla współczesnego komputera. Chodzi raczej o takie zadania, jak rozmowa z człowiekiem, naprawa uszkodzonego pliku albo rozegranie partii azjatyckiej gry go, czyli o zadania, w których zasady nie są wyraźnie sprecyzowane, brakuje części potrzebnych informacji albo znalezienie ściśle poprawnej odpowiedzi wymagałoby rozważenia astronomicznej liczby możliwości. Algorytmy opracowane przez naukowców do rozwiązywania najtrudniejszych klas problemów sprawiły, że komputery przestały być skrajnie uzależnione od wyczerpujących rachunków. Zajmowanie się zadaniami w rzeczywistym świecie wymaga oswojenia się z losowością, zawierania kompromisu między czasem a precyzją oraz używania przybliżeń.

W miarę jak komputery zostały lepiej dostrojone do problemów realnego świata, zaczęły służyć nam nie tylko algorytmami, które ludzie mogą wykorzystywać na swój użytek, lecz także standardem, z którym można porównywać nasze zdolności poznawcze. W ostatnich dziesięciu, dwudziestu latach ekonomia behawioralna snuje bardzo szczególną opowieść o ludziach – że jesteśmy irracjonalni i skłonni do pomyłek, co w dużej mierze ma wynikać z zabugowanego, pokrętnego „hardware’u” mózgowego. Ten deprecjonujący nas obraz jest coraz powszechniej przyjmowany, niemniej wciąż pozostają pewne natrętne pytania. Na przykład dlaczego w wielu zadaniach poznawczych, związanych między innymi z postrzeganiem wzrokowym, językiem i rozumowaniem przyczynowym, czterolatki nadal wypadają lepiej niż superkomputery za milion dolarów?

Rozwiązania codziennych problemów podsuwane przez informatykę sugerują inną opowieść o ludzkim umyśle. Życie obfituje w problemy, które najzwyczajniej są trudne. Błędy popełniane przez ludzi często mówią więcej o wewnętrznej złożoności problemu niż o omylności ludzkiego mózgu. Myślenie algorytmiczne o świecie, zapoznanie się z fundamentalnymi strukturami zadań, przed którymi stajemy, oraz właściwościami ich rozwiązań może pomóc nam w dostrzeżeniu tego, jak jesteśmy w tym dobrzy, oraz w lepszym zrozumieniu popełnianych przez nas błędów.

W rzeczywistości ludzie systematycznie stają przed najtrudniejszymi rodzajami problemów analizowanymi przez informatyków. Często musimy podejmować decyzje w warunkach niepewności, ograniczeń czasowych, niedoinformowania oraz szybko zmieniającego się świata. W niektórych z tych przypadków nawet najbardziej zaawansowane badania informatyczne nie zaowocowały jeszcze wydajnymi, niezawodnie działającymi algorytmami. Wydaje się, że w odniesieniu do pewnych sytuacji takie algorytmy mogą w ogóle nie istnieć.

Jednak nawet tam, gdzie nie znaleziono algorytmów doskonałych, bitwa pokoleń informatyków z najoporniejszymi problemami rzeczywistego świata przyniosła wiele spostrzeżeń. Te wypracowane w pocie czoła wskazówki kłócą się z naszym intuicyjnym rozumieniem racjonalności i absolutnie nie brzmią jak schematyczne recepty skostniałego matematyka próbującego wtłoczyć świat w sztywne formalne ramy. Są to na przykład: nie zawsze rozważaj wszystkie dostępne opcje; niekoniecznie dąż za każdym razem do rezultatu, który wydaje się najlepszy; czasami trochę pobałagań; nie podróżuj z dużą ilością bagażu; poczekaj na rozwój wypadków; zaufaj swojemu instynktowi i nie rozmyślaj zbyt długo; odpręż się; rzuć monetą; wybaczaj, ale nie zapominaj; nie udawaj, tylko bądź sobą.

Wbrew pozorom życie podług mądrości informatycznych wydaje się niezłym pomysłem. A dodatkowo, w odróżnieniu od większości innych porad, te są poparte dowodami.

◆

Tak jak opracowywanie algorytmów komputerowych było pierwotnie dziedziną, która trafiała w lukę pomiędzy różnymi dyscyplinami – jako osobliwa hybryda matematyki z inżynierią – podobnie opracowywanie algorytmów dla ludzi jest pozbawione swojej naturalnej dziedziny. Dzisiaj algorytmika czerpie nie tylko z informatyki, matematyki i inżynierii, lecz także z takich spokrewnionych z nimi dziedzin, jak statystyka czy badania operacyjne. Gdy rozważamy zaś, jak algorytmy tworzone z myślą o maszynach mogą odnosić się do ludzkiego umysłu, polegamy między innymi na kognitywistyce, psychologii, ekonomii.

My, autorzy tej książki, poruszamy się po takim interdyscyplinarnym terytorium. Brian studiował informatykę i filozofię, a potem lingwistykę, po czym podjął pracę znajdującą się na przecięciu tych dziedzin. Tom studiował psychologię i statystykę, zanim został wykładowcą University of California w Berkeley, gdzie zajmuje się przede wszystkim rozważaniem związków między zdolnościami poznawczymi człowieka a obliczeniami. Nikt nie jest jednak w stanie specjalizować się we wszystkich dziedzinach, które mają udział w opracowywaniu lepszych algorytmów funkcjonowania dla ludzi. Dlatego w ramach zbierania materiałów do książki przeprowadziliśmy wywiady z osobami, które stworzyły jedne z najsłynniejszych algorytmów ostatnich pięćdziesięciu lat. I pytaliśmy je – tych jednych z najinteligentniejszych ludzi na świecie – jak ich badania wpływały na ich podejście do własnego życia: od znajdowania małżonka do sortowania skarpetek.

Na kolejnych stronach wyruszymy na spotkanie wielkich wyzwań, przed którymi stają zarówno komputery, jak i umysły ludzi: jak zarządzać skończoną przestrzenią, skończonym czasem, ograniczoną pojemnością uwagi, nieznaną niewiadomą, niepełną informacją i nieprzewidywalną przyszłością; w jaki sposób robić to z wdziękiem i pewnością; oraz jak robić to w społeczności, której członkowie jednocześnie starają się robić to samo. Spojrzymy na matematyczną strukturę leżącą u podstaw tych wyzwań oraz na to, jak programowane są komputery – czasem całkiem niezgodnie z potocznymi wyobrażeniami – by możliwie skutecznie owym wyzwaniom sprostać. Dowiemy się też, jak pracuje ludzki umysł i jak wyglądają jego, odmienne od komputerowych, ale pokrewne im, sposoby radzenia sobie z takim samym zbiorem zadań w kontekście takich samych ograniczeń. Tym, co możemy w konsekwencji zyskać, jest nie tylko zestaw gotowców do rozwiązywania konkretnych problemów, nie tylko dostrzeżenie eleganckiego porządku u podłoża najbardziej zawikłanych ludzkich dylematów, nie tylko świadomość wspólnoty wysiłków ludzi i komputerów, lecz także coś, co ma szczególne znaczenie: nowe słownictwo do opisu otaczającego nas świata oraz szansa dowiedzenia się czegoś naprawdę nowego o sobie samych.

1. Dla jasności dodajmy, że „obliczenia” w tym sensie nie są równoznaczne z wąsko pojętym dodawaniem, odejmowaniem itd. Termin ten (od którego w angielskiej wersji powstało samo słowo „komputer”) można raczej odnieść do specyficznego wysiłku intelektualnego, którego wymaga dążenie do rozwiązania zadania (przyp. tłum.).2. Eksploracja/eksploatacja

2 Eksploracja/eksploatacja

------------------------------------------------------------------------

Najnowsze czy najlepsze?

Burczy ci w brzuchu. Czy lepiej, żebyś poszedł do dobrze znanej i lubianej włoskiej restauracyjki czy do świeżo otwartego lokalu z kuchnią tajską? Czy masz zabrać z sobą długoletniego przyjaciela czy nowego znajomego, którego chcesz lepiej poznać? Uf, to już może lepiej zostać w domu. Ugotujesz coś, co na pewno ci się uda, czy przejrzysz Internet w poszukiwaniu nowych inspiracji? Hm, a może po prostu zamówisz pizzę? Wybierzesz taką „jak zwykle” czy zdecydujesz się na coś wyjątkowego? Zanim pojawi się możliwość wzięcia pierwszego kęsa, jesteś już całkiem wyczerpany. Nagle nawet pomysł, by włączyć płytę, pooglądać film albo poczytać książkę – czyli w końcu co zrobić? – nie jawi się już relaksująco.

Codziennie musimy dokonywać wyborów między opcjami, które różnią się pewnym konkretnym wymiarem: próbować czegoś nowego czy trzymać się tego, co sprawdzone? Intuicyjnie rozumiemy, że w życiu konieczna jest zdrowa równowaga między nowinkami a tradycją, podejmowaniem ryzyka a rozkoszowaniem się tym, co znane i lubiane. Podobnie jednak jak w przypadku dylematu szukać/brać podczas polowania na mieszkanie, odpowiedzi wymaga pytanie, jaka powinna być proporcja starego i nowego.

W klasycznej książce z 1974 roku Zen i sztuka obsługi motocykla Robert Pirsig krytykuje zwrot „Co nowego?” jako zagajenie rozmowy, argumentując, że potraktowany dosłownie „skutkuje niekończącą się paradą banałów i mody, jutrzejszego śmiecia”. Za zdecydowanie lepsze uznaje alternatywne: „Co dobrego?”.

Jednak rzeczywistość nie jest aż tak prosta. Świadomość, że każda „dobra” twoim zdaniem piosenka czy restauracja zaczynała skromnie jako „nowa” dla ciebie, sugeruje, że wciąż mogą istnieć w świecie jakieś nieznane ci dobre rzeczy – a zatem to, co nowe, warte jest poświęcenia przynajmniej części uwagi.

Pokryte patyną aforyzmy dają wyraz temu napięciu, ale go nie usuwają. Make new friends, but keep the old / Those are silver, these are gold (dosł. nawiązuj nowe przyjaźnie i pielęgnuj stare; pierwsze są srebrem, drugie złotem) czy There is no life so rich and rare / But one more friend could enter there (dosł. nie ma tak bogatego i wyjątkowego życia, by nie mógł zmieścić się w nim jeszcze jeden przyjaciel) wydają się słuszne, a przynajmniej ich rytm jest bez zarzutu. Nie przekazują nam jednak żadnej użytecznej informacji o proporcji, powiedzmy, srebra do złota, która zapewni dobre życie.

Informatycy pracują nad uchwyceniem tej proporcji od ponad pięćdziesięciu lat. Nadali jej nawet nazwę: kompromis eksploracja/eksploatacja (explore/exploit tradeoff).

Eksploracja/eksploatacja

W języku codziennym słowa „eksploracja” i „eksploatacja” są obarczone przeciwstawnymi konotacjami, tymczasem w informatyce ich konkretniejsze znaczenie jest neutralne. Z grubsza eksploracja oznacza w niej pozyskiwanie danych, a eksploatacja – wykorzystanie posiadanych informacji w celu uzyskania znanego i pożądanego rezultatu.

Intuicja wyraźnie podpowiada, że nie da się żyć bez penetracji otoczenia. Ale warto dodać, że równie opłakane skutki może przynieść zaniechanie eksploatacji. Eksploatacja rozumiana w duchu informatycznym cechuje wiele z tego, co uznajemy za najlepsze chwile życia. Eksploatacją jest spotkanie całej rodziny podczas wakacji. Podobnie usadowienie się miłośnika kryminałów w fotelu z kubkiem gorącej kawy i elektryzującą lekturą; albo wykonywanie największych przebojów przez zespół rockowy dla tłumu wniebowziętych fanów; albo zdanie przez małżeństwo egzaminu z tańca na czas do „ich własnej melodii”.

Co więcej, eksploracja może być przekleństwem.

Tak na przykład w muzyce fajne jest to, że nieustannie mamy różne nowe rzeczy do słuchania. Albo, jeśli jesteś dziennikarzem muzycznym, w muzyce okropne jest to, że nieustannie mamy nowe rzeczy do słuchania. Bycie dziennikarzem muzycznym to 120 procent eksploracji, tak że do słuchania nie pozostaje już nic oprócz nowości. Wielbiciele muzyki mogą wyobrażać sobie, że taka praca to raj, ale kiedy trzeba bez przerwy poznawać nowe utwory, nie ma się możliwości nacieszyć owocami swojego znawstwa – to szczególny rodzaj piekła. Niewielu ludzi zna to doświadczenie tak dobrze jak Scott Plagenhoef, były redaktor naczelny Pitchforka. O życiu krytyka mówi on tak: „Podczas pracy starasz się złapać okazje do posłuchania czegoś, czego naprawdę chcesz”. Desperacka potrzeba, by choć przez chwilę nie brodzić w zalewie nieznanych piosenek wątpliwej jakości, a posłuchać czegoś, co uwielbiał, była w jego przypadku tak silna, że na swój iPod ładował same nowe utwory, by fizycznie uniemożliwić sobie porzucenie obowiązków zawodowych w chwilach, gdy tak bardzo, bardzo chciało mu się posłuchać Smithsów. Dziennikarze muzyczni to męczennicy, eksplorujący zasoby po to, by inni mogli je eksploatować.

W informatyce napięcie między eksploracją i eksploatacją przyjmuje postać scenariusza zwanego problemem wielorękiego bandyty. Zastanawiająca nazwa bierze się od kolokwialnego określenia maszyny wrzutowej do gry w kasynach – jednorękiego bandyty. Wyobraź sobie, że wchodzisz do kasyna pełnego różnych maszyn wrzutowych, z których każda ma własne prawdopodobieństwo wygranej. Szkopuł w tym, że oczywiście nie wiesz z góry, jakie jest to prawdopodobieństwo. Dopóki nie zaczniesz grać, nie masz pojęcia, które maszyny są najbardziej lukratywne („luźne”, jak nazywają to zapaleńcy), a które są tylko worami na twoje monety.

Naturalnie jesteś zainteresowany maksymalizacją swojego całościowego przychodu. Jasne jest też, że będzie to wymagać pewnej kombinacji pociągania za wajchę różnych maszyn, by je wypróbować (eksploracja), oraz faworyzowania tych najbardziej obiecujących (eksploatacja).

By zorientować się w niuansach problemu, wyobraź sobie, że masz przed sobą tylko dwie maszyny. Na jednej zagrałeś 15 razy; 9 razy otrzymałeś wypłatę, a 6 razy nie. Na drugiej zagrałeś tylko 2 razy; raz dostałeś wypłatę, raz nie. Która jest bardziej obiecująca?

Proste podzielenie wygranych przez liczbę prób daje „wartość oczekiwaną” maszyny i gdy stosujemy tę metodę, pierwsza zdecydowanie wychodzi na prowadzenie. Jej wynik 9–6 daje wartość oczekiwaną 60%, podczas gdy wynik drugiej maszyny (1–1) daje wartość oczekiwaną tylko 50%. Ale to nie wszystko. W końcu dwie próby to niezbyt wiele. Pozostaje poczucie, że tak naprawdę nie wiemy jeszcze, jak dobra może być ta druga.

Wybór restauracji czy płyty jest w zasadzie tożsamy z postanowieniem, którą dźwignię pociągnąć. Jednak zrozumienie proporcji eksploracja/eksploatacja nie tylko pozwala podejmować lepsze decyzje kulinarne i muzyczne, lecz także dostarcza fundamentalnych spostrzeżeń na temat tego, jak nasze cele powinny zmieniać się z wiekiem oraz dlaczego najbardziej racjonalnym działaniem nie zawsze jest dążenie do wyboru tego, co najlepsze. Okazuje się ponadto, że tkwi w samej istocie projektowania stron internetowych oraz prób klinicznych – zagadnień, których zwykle nie wymienia się razem w jednym zdaniu.

Ludzie mają skłonność do rozpatrywania decyzji w izolacji, do znajdowania za każdym razem wyniku z najwyższą wartością oczekiwaną. Tymczasem decyzje niemal nigdy nie występują w izolacji, a wartość oczekiwana to nie wszystko. Jeśli myślisz nie tylko o następnej decyzji, ale o wszystkich, które masz podjąć w przyszłości w sprawie tych samych opcji, kapitalnego znaczenia dla tego procesu nabiera proporcja eksploracji do eksploatacji. W ten sposób, jak pisze matematyk Peter Whittle, problem bandyty „ucieleśnia w zasadniczej formie konflikt widoczny we wszelkim działaniu człowieka”.

A zatem którą z dźwigni powinieneś pociągnąć? To podchwytliwe pytanie. Odpowiedź w pełni zależy od sprawy, której jeszcze wcale nie poruszyliśmy: jak długo planujesz zabawić w kasynie.

Chwytaj pozostający czas

Carpe diem – wzywał Robin Williams w pamiętnej scenie ze Stowarzyszenia Umarłych Poetów z 1989 roku. – Chwytajcie dzień, chłopcy. Sprawcie, by wasze życie było nadzwyczajne.

To ogromnie ważna rada. Jednocześnie jest w pewnym sensie niespójna. Łapanie dnia i łapanie życia to całkowicie różne zadania. Mamy powiedzenie: „Jedz, pij i raduj się, bo jutro umrzemy”, ale być może powinniśmy mieć też jego odwrotność: „Zacznij się uczyć nowego języka czy gry na instrumencie i porozmawiaj o czymś z nieznajomym, bo życie jest długie i kto wie, jakie radości mogą z tego wyniknąć w ciągu lat”. Gdy bilansujemy ulubione doświadczenia z nowymi, nic nie ma tak wielkiego znaczenia jak interwał, w którym planujemy się nimi cieszyć.

„Nową restaurację wypróbowuję raczej, gdy wprowadzam się do miasta, niż kiedy się z niego wynoszę” – wyjaśnia informatyk i bloger Chris Stucchio, weteran zmagań z kompromisami eksploracja/eksploatacja w życiu zawodowym i prywatnym. „Teraz chodzę głównie do restauracji, które znam i lubię, bo wiem, że niedługo rozstanę się z Nowym Jorkiem. Kiedy kilka lat temu przeprowadziłem się do Puny w Indiach, jadałem absolutnie wszędzie, o ile tylko nie miałem obaw, że się tam otruję. Gdy zaś opuszczałem to miasto, wracałem do ulubionych miejsc, zamiast wypróbowywać nowe (…) Nawet gdybym miał znaleźć nieco lepszy lokal, poszedłbym już do niego tylko jeden czy dwa razy, więc po co ryzykować?”

Trzeźwiącym aspektem nastawienia na nowości jest to, że wartość eksploracji, czyli znalezienia nowej preferencji, zawsze z czasem spada, w miarę jak kurczą się szanse na korzystanie z niej. Odkrycie urokliwej kafejki ostatniego dnia pobytu w jakimś miejscu nie daje ci szansy na powtórne jej odwiedzenie.

Z drugiej strony wartość eksploatacji zawsze rośnie z czasem. Najfajniejsza kawiarnia, którą znasz dzisiaj, jest z definicji przynajmniej tak fajna jak najfajniejsza znana ci miesiąc temu (a jeśli znalazłeś od tamtej pory ciekawszą, ta może być jeszcze ciekawsza). Zatem penetruj, gdy będziesz miał czas na skorzystanie z uzyskanej wiedzy, a eksploatuj, gdy jesteś gotów na zbieranie żniwa. Strategię determinuje czas, który masz do dyspozycji, nazywany dalej interwałem.

Co ciekawe, skoro strategia jest zdeterminowana przez interwał, z jej obserwacji można wnioskować o interwale. Weźmy na przykład Hollywood. Spośród dziesięciu najbardziej kasowych filmów z 1981 roku, tylko dwa były sequelami. W 1991 roku trzy. W 2001 roku pięć. A w 2011 roku sequelami było aż osiem najbardziej dochodowych filmów. Wspomniany rok był rekordowy pod tym względem. I zaraz w 2012 rekord został pobity. W grudniu 2012 roku Nick Allen z wyczuwalnym znużeniem wypatrywał kolejnego roku:

Widzowie dostaną szóstą porcję X-Menów plus Szybkich i wściekłych 6, Szklaną pułapkę 5, Straszny film 5 i Paranormal Activity 5. Będzie też Iron Man 3 i Kac Vegas 3 oraz dwójki Muppetów, Smurfów, GI Joe i Złego Mikołaja.

Z perspektywy producenta sequel jest filmem z gwarantowaną bazą fanów: to dojna krowa, pewniak, eksploatacja. A takie przeładowanie pewniakami sygnalizuje podejście krótkoterminowe, jak u Stucchia, gdy wyprowadzał się z miasta. Sequele mają większą szansę stać się hitami w danym roku, skąd będą jednak pochodzić ukochane franczyzy w przyszłości? Taki sequelowy wysyp jest nie tylko godny pożałowania (a z pewnością za taki mają go krytycy filmowi); jest też nieco rozpaczliwy. Wchodząc w fazę niemal całkowicie eksploatacyjną, branża filmowa wydaje się sygnalizować przekonanie, że dochodzi do kresu swojego interwału.

Przeczucie to potwierdza rzut oka na ekonomię Hollywoodu. W latach 2007–2011 zyski największych studiów filmowych stopniały o 40%, a sprzedaż biletów spadała przez siedem z ostatnich dziesięciu lat. Jak czytamy w The Economist, „wielkie studia, zepchnięte w narożnik wzrastających kosztów i spadających dochodów, zareagowały większą liczbą produkcji traktowanych jako potencjalne hity: zwykle sequeli, prequeli czy podobnych tworów, w których występują postacie rozpoznawalne z innych filmów”. Innymi słowy, pociągają za dźwignie najlepszych maszyn, póki nie zostaną wyrzucone z kasyna.

Wygrywasz-zostajesz

Znalezienie optymalnego algorytmu, który dokładnie mówiłby, jak rozgryźć problem wielorękiego bandyty, okazało się niezwykle trudne. Jak relacjonuje Peter Whittle, w trakcie drugiej wojny światowej wysiłki znalezienia rozwiązania „tak wysysały energię i osłabiały umysły alianckich analityków (…) że padła sugestia, aby problem ten zrzucić nad terenem Niemiec jako idealny instrument intelektualnego sabotażu”.

Pierwsze zbliżenie się do rozwiązania nastąpiło już po wojnie, gdy matematyk z Columbia University Herbert Robbins pokazał istnienie prostej strategii, która, choć niedoskonała, daje pewne mile brzmiące gwarancje.

Robbins rozważał sytuację, w której są dokładnie dwie maszyny wrzutowe, i zaproponował rozwiązanie zwane algorytmem wygrywasz-zostajesz, przegrywasz-zmieniasz (Win-Stay, Lose-Shift): wybierz losowo dźwignię i pociągaj ją tak długo, jak długo zyskujesz. Gdy po którymś pociągnięciu nie uzyskasz wypłaty, przejdź do drugiej maszyny. Choć ta prosta strategia jest daleka od pełnego rozwiązania, Robbins udowodnił w 1952 roku, że systematycznie sprawdza się lepiej niż przypadek.

W ślad za Robbinsem cała seria artykułów analizowała zasadę „trzymania się wygranej”. Intuicyjnie uznajemy, że skoro zdecydowałeś się pociągnąć daną dźwignię i właśnie otrzymałeś wypłatę, powinno to podnieść jej wartość oczekiwaną i tym bardziej skłonić do dalszego jej pociągania. Rzeczywiście trzymanie się wygranej okazuje się elementem optymalnej strategii bilansowania eksploracji z eksploatacją w bardzo różnych warunkach.

Inną sprawą jest jednak człon „przegrywasz-zmieniasz”. Zmiana dźwigni za każdym razem, gdy jej użycie kończy się brakiem nagrody, byłaby posunięciem dość przedwczesnym. Wyobraź sobie, że byłeś w danej restauracji sto razy i zawsze dostawałeś wspaniały obiad. Czy jeden zawód wystarczy, byś przekreślił lokal? Dobrych opcji nie powinno się karać zbyt surowo za to, że nie są doskonałe.

Co istotniejsze, w zasadzie „wygrywasz-zostajesz, przegrywasz-zmieniasz” nie uwzględnia się interwału, w którym dokonujemy optymalizacji. Jeśli twoja ulubiona restauracja ostatnim razem cię rozczarowała, algorytm ten zawsze mówi, że masz udać się do innego lokalu – nawet jeśli jest to ostatni dzień, który spędzasz w tym mieście.

Niemniej wstępne prace Robbinsa nad problemem wielorękiego bandyty zaowocowały przyrostem piśmiennictwa i w ciągu kolejnych lat naukowcy dokonali znacznego postępu. Richard Bellman, matematyk z RAND Corporation, znalazł ścisłe rozwiązanie problemu dla przypadków, gdy z góry wiemy, ile będziemy mieć wszystkich opcji i okazji. Podobnie jak w problemie sekretarki z pełną informacją, sztuczka Bellmana polegała na tym, by myśleć od końca – zacząć od wyobrażenia sobie ostatniego pociągnięcia dźwigni i rozważyć, którą maszynę do tego wybrać, znając wszystkie możliwe rezultaty poprzednich decyzji. Ustaliwszy to, przechodzisz do przedostatniej okazji, potem jeszcze wcześniejszej i tak dalej aż do początku.

Wskazania wynikające z metody Bellmana są niepodważalne, ale w przypadku wielu dostępnych opcji i długiego pobytu w kasynie metoda może wymagać zawrotnej – jeśli nie wręcz niewykonalnej – ilości pracy. Ponadto nawet jeżeli pozwala obliczyć wszystkie możliwe warianty przyszłości, nie zawsze przecież da się określić, ile będziemy mieć okazji (a nawet ile mamy opcji). Z tych powodów problem wielorękiego bandyty pozostawał w praktyce nierozwiązany. Cytując Whittle’a, „niebawem wszedł do klasyki i stał się synonimem niewykonalności”.

Indeks Gittinsa

W matematyce nierzadko bywa tak, że przechodzi się od szczegółu do ogółu. W latach siedemdziesiątych korporacja Unilever zwróciła się do młodego matematyka Johna Gittinsa z prośbą o pomoc w optymalizacji testowania leków. Niespodziewanie zaowocowało to odpowiedzią na zagadkę matematyczną, która od pokolenia czekała na rozwiązanie.

Gittins, dziś profesor statystyki na Oksfordzie, zastanawiał się nad pytaniem zadanym przez Unilever. W jaki sposób najszybciej określić, który z kilku branych pod uwagę związków chemicznych ma największą szansę na skuteczne działanie przeciw danej chorobie? Gittins postarał się sformułować problem w jak najogólniejszej postaci: wielorakie opcje do wykorzystania, inne prawdopodobieństwo nagrody w odniesieniu do każdej z nich oraz ograniczone zasoby sił (albo pieniędzy czy czasu) do alokacji pomiędzy nie. Było to więc inne wcielenie problemu wielorękiego bandyty.

Zarówno komercyjne koncerny farmaceutyczne, jak i opieka zdrowotna, której służą, nieustannie stają przed sprzecznymi wymogami bilansowania eksploracji z eksploatacją. Firmy chcą inwestować fundusze badawcze w odkrywanie nowych leków, ale jednocześnie zapewnić sobie bezpiecznie dochodowe linie przetestowanych już produktów. Lekarze chcą przepisywać najlepsze istniejące leki, tak by pacjenci otrzymywali optymalną pomoc, ale jednocześnie chcą motywować branżę do badań eksperymentalnych, które mogą zaowocować jeszcze skuteczniejszymi lekami.

Warto zauważyć, że w żadnym z tych przypadków określenie właściwego interwału nie jest proste. W pewnym sensie koncerny i lekarze są zainteresowani nieokreśloną przyszłością. Firmy chcą teoretycznie istnieć bez końca, a dzisiejszy przełom medyczny umożliwia niesienie pomocy nawet tym ludziom, którzy się jeszcze nie urodzili. Niemniej teraźniejszość ma większy priorytet: wyleczenie pacjenta dzisiaj traktuje się jako cenniejsze niż wyleczenie (innego) pacjenta w przyszłym tygodniu czy roku; niewątpliwie to samo stosuje się do zysków. Ekonomiści odwołują się do tej idei przedkładania teraźniejszości nad przyszłość pod nazwą dyskontowania.

W odróżnieniu od poprzednich uczonych Gittins podjął problem wielorękiego bandyty, wychodząc z tych założeń. Uznał, że celem jest maksymalne zwiększenie wygranej nie w ustalonym interwale czasowym, tylko w przyszłości nieskończenie długiej, lecz dyskontowanej.

Takie dyskontowanie nie jest nam obce w codziennym życiu. Jeżeli spędzasz w jakimś mieście dziesięciodniowy urlop, powinieneś dokonywać wyborów restauracji z myślą o ustalonym interwale. Jeżeli jednak mieszkasz w tym mieście na stałe, nie jest to równie sensowne. Zamiast tego można wyobrazić sobie spadek wartości nagrody wraz z wydłużaniem się czasu jej wypłaty w przyszłości: bardziej obchodzi cię dzisiejszy posiłek niż ten, który zjesz jutro, a jutrzejszy bardziej niż przyszłoroczny, przy czym wielkość tych różnic zależy od szczegółów „funkcji dyskontującej”. Gittins poczynił tu założenie, że wartość przypisywana wypłatom maleje geometrycznie, czyli każda wizyta w restauracji jest warta stałemu ułamkowi ostatniej. Jeśli na przykład uważasz, że istnieje 1-procentowe ryzyko, iż dowolnego dnia zostaniesz potrącony przez autobus, powinieneś wyceniać jutrzejszy obiad na 99% wartości dzisiejszego już tylko z tego powodu, że możesz go w ogóle nie doczekać.

Wychodząc z założenia o dyskoncie geometrycznym, Gittins analizował strategię, która jego zdaniem dawałaby „przynajmniej dobre przybliżenie”: oszacować indywidualną wartość każdej dźwigni wielorękiego bandyty rozpatrywaną z osobna. Zrobił to dzięki dość nieoczekiwanemu wyobrażeniu: łapówki.

W popularnym teleturnieju Deal or No Deal uczestnik wybiera jedną z dwudziestu sześciu aktówek, które zawierają nagrody o wartości od centa do miliona dolarów. W trakcie gry co pewien czas pojawia się tajemnicza postać zwana Bankierem, oferując uczestnikowi różne kwoty w zamian za nieotwarcie wybranej teczki. Od grającego zależy, kiedy, a dokładniej przy jakiej kwocie, będzie skłonny pójść na pewny układ zamiast zdawać się na ryzyko nieznanej nagrody z teczki.

Gittins (wiele lat przed pierwszym odcinkiem tego teleturnieju) zdał sobie sprawę, że tak właśnie przedstawia się problem wielorękiego bandyty. W odniesieniu do każdej maszyny wrzutowej, o której nie wiemy nic lub prawie nic, istnieje pewna gwarantowana wypłata taka, że zaoferowanie jej nam zamiast gry pozwoliłoby z czystym sumieniem nie pociągać za dźwignię. Liczba ta – którą Gittins nazwał indeksem alokacji dynamicznej, a obecnie znana jako indeks Gittinsa – wskazuje oczywistą strategię w kasynie: zawsze pociągaj za dźwignię z najwyższym indeksem.

Strategia indeksowa okazała się więcej niż dobrym przybliżeniem. W pełni rozwiązuje problem wielorękiego bandyty z geometrycznie dyskontowanymi wypłatami. Kompromis między eksploracją a eksploatacją sprowadza się do prostszego zadania maksymalizacji pojedynczej, skorelowanej z nimi wielkości. Gittins skromnie wyraża się o swoim dokonaniu. „To nie całkiem jest ostatnie twierdzenie Fermata”, mówi z uśmiechem – jednak twierdzenie to rozwiało wiele wątpliwości dotyczących dylematu eksploracja/eksploatacja.

Niemniej faktyczne obliczenie indeksu Gittinsa dla konkretnej maszyny na podstawie znajomości jej historii oraz zmiennej dyskontowej pozostaje stosunkowo skomplikowane. Kiedy jednak indeks ten jest znany dla określonego zbioru założeń, można go stosować do dowolnego problemu tego typu. Co najważniejsze, nie ma znaczenia, ile dźwigni jest do dyspozycji, gdyż indeks oblicza się dla każdej z nich osobno.

W tabeli na poprzedniej stronie podajemy wartości indeksu Gittinsa aż do dziewięciu sukcesów i porażek, zakładając, że wygrana z następnego pociągnięcia jest warta 90% wypłaty od razu. Z wartości tych można korzystać do rozwiązywania rozmaitych codziennych problemów typu wielorękiego bandyty. Tak na przykład przy tych założeniach powinno się przedłożyć maszynę z historią 1–1 (i wartością oczekiwaną 50%) nad maszynę z historią 9–6 (i wartością oczekiwaną 60%). Znajdując odpowiednie pozycje w tabeli, przekonujemy się, że słabiej poznana maszyna ma indeks 0,6346, podczas gdy ta używana częściej – tylko 0,6300. Problem rozwiązany: w tym przypadku kuś los i eksploruj.

W tabeli wartości indeksu Gittinsa można poczynić kilka innych ciekawych obserwacji. Po pierwsze, widać tu zasadę wygrywasz-zostajesz w działaniu: gdy w dowolnym rzędzie podążamy z lewej na prawo, wartości indeksu zawsze rosną. Jeśli więc dana dźwignia jest właściwą do pociągnięcia i pociągnięcie to daje wypłatę, to (przechodząc do następnej pozycji w prawo) tym bardziej sensowne jest ponowne jej pociągnięcie. Po drugie, widać, gdzie reguła przegrywasz-zmieniasz wpakowałaby cię w kłopoty. Uzyskanie dziewięciu początkowych wygranych, po których następuje jedna porażka, daje indeks 0,8695, wciąż wyższy od większości innych w tabeli – zatem prawdopodobnie powinieneś trzymać się tej dźwigni przynajmniej do następnego pociągnięcia.

Ale chyba najciekawszym fragmentem tabeli jest lewa górna komórka. Historia 0–0 (całkowicie nieznana dźwignia) ma wartość oczekiwaną 0,5000, a indeks Gittinsa 0,7029. Innymi słowy, coś, z czym nie masz żadnego doświadczenia, jest atrakcyjniejsze od maszyny, o której wiesz, że wypłaca nagrodę siedem razy na dziesięć! Gdy idziemy w dół po przekątnej, zauważamy, że historia 1–1 daje indeks 0,6346, historia 2–2 daje 0,6010 itd. Jeśli taka 50-procentowa skuteczność się utrzymuje, indeks zbiega się w końcu do 0,5000, a doświadczenie potwierdza, że jest to nieszczególna maszyna, która zabiera „premie” pobudzające do dalszej eksploracji. Jednak zbieżność ta postępuje stosunkowo powoli, a premia za eksplorację ma silne działanie. Zauważmy zresztą, że nawet porażka w pierwszej próbie (czyli historia 0–1) daje indeks Gittinsa powyżej 50%.

Spójrzmy jednak, jak proporcja eksploracji do eksploatacji zmienia się wraz ze zmianą dyskontowania przyszłości. Tabela na str. 59 zawiera dokładnie takie same informacje co poprzednia, ale przy założeniu, że wypłata następnym razem jest warta 99% (a nie 90%) tej otrzymywanej niezwłocznie. Gdy przyszłość ma wagę niemal taką jak teraźniejszość, wartość zrobienia przypadkowego odkrycia w porównaniu ze zdaniem się na pewniaka dodatkowo rośnie. W tym przypadku zupełnie niesprawdzona maszyna o historii 0–0 jest warta gwarantowanych 86,99% wypłaty!

Indeks Gittinsa dostarcza więc formalnego, rygorystycznego uzasadnienia dla preferowania tego, co nieznane, pod warunkiem że będziemy mieli okazję do wyzyskania owoców wiedzy zdobytej podczas eksploracji. Jest to zgodne z porzekadłem: „trawa jest zawsze zieleńsza po drugiej stronie płotu”, i matematyka tłumaczy nam, dlaczego tak jest: nieznane ma szansę być lepsze, nawet jeśli oczekujemy, że będzie takie samo, czy nawet jeśli ma równe prawdopodobieństwo bycia gorszym. Niesprawdzony nowicjusz w kadrze jest wart więcej (przynajmniej na początku sezonu) niż weteran o porównywalnych umiejętnościach właśnie dlatego, że mniej o nim wiemy. Eksploracja ma wartość sama w sobie, gdyż testowanie nowości zwiększa szansę na znalezienie tego, co najlepsze. Zatem branie pod uwagę przyszłości, zamiast skupiania się tylko na teraźniejszości, pcha nas ku nowościom.

Indeks Gittinsa oferuje w ten sposób zadziwiająco klarowne rozwiązanie problemu wielorękiego bandyty. Niekoniecznie jednak stanowi ostatnie słowo w rozwiązaniu samej zagadki czy pomaga poruszać się po wszystkich bilansach eksploracji/eksploatacji w codziennym życiu. Po pierwsze, indeks Gittinsa jest optymalny tylko pod warunkiem spełnienia wyraźnie podanych założeń. Opiera się na geometrycznym dyskoncie przyszłych nagród, czyli uznawaniu każdego kolejnego pociągnięcia dźwigni za warte stały ułamek poprzedniego, tymczasem liczne eksperymenty z zakresu ekonomii behawioralnej oraz psychologii sugerują, że ludzie tak nie robią. Strategia Gittinsa traci optymalność również wtedy, gdy mamy do czynienia z kosztem zmiany opcji (trawa u sąsiada może wyglądać na bardziej zieloną, ale niekoniecznie uzasadnia to przejście przez płot, a tym bardziej wzięcie na siebie spłaty drugiej hipoteki). Co może jeszcze ważniejsze, trudno jest obliczać indeks Gittinsa na bieżąco. Jeśli nosisz przy sobie tabele z jego wartościami, jesteś w stanie zoptymalizować wybory obiadowe, ale konieczny do tego czas i wysiłek mogą nie być tego warte („Czekajcie, mogę rozwiązać nasz spór. Ta restauracja podobała się 29 razy z 35, a tamta sprawdziła się 13 razy z 16, zatem indeksy Gittinsa wynoszą… Hej, gdzie wszyscy się podziali?”).

Zapraszamy do zakupu pełnej wersji książki

więcej.. mniej..

Algorytmy. Kiedy mniej myśleć - ebook

FRAGMENT KSIĄŻKI

BESTSELLERY