Hackerspace News — 24 June

L’eterno ritorno: perché non potremo scappare dai loop (nemmeno se vorremmo)

🇮🇹 · /root · Lamberto Tedaldi

Il destino ha un modo tutto suo di farci girare in tondo, e stavolta non parlo di quando rimani bloccato in un debug loop alle tre di notte dopo aver dimenticato un punto e virgola. Recentemente, un paper che ha fatto sussultare la community su Hacker News ha sollevato un tema che potremmo definamente definire ‘filosofico-tecnico’: l’inevitabile ritorno dei loop. Se pensavate che dopo l’era dell’imperativo e del funzionale fossimo finalmente riusciti a liberarci da certe strutture rigide, preparate il caffè (rigorosamente nero, come il nostro terminale), perché la tecnologia sta tornando a chiudersi in cerchio. L’articolo di Rico Scarselli ci mette davanti a una realtà scomoda: l’avvento di nuovi paradigmi di sviluppo e l’esplosione dell’automazione stanno portando alla ribalta l’uso di «loops» e «harnesses». In parole povere, non stiamo solo scrivendo codice che esegue istruzioni, ma stiamo costruendo sistemi che creano altri sistemi, che a loro volta si auto-alimentano. È quel tipo di automazione che, se non gestita con un occhio critico, rischia di trasformarsi in una scatola nera dove l’input entra, gira un po’, e l’output è qualcosa di magico ma totalmente incomprensibile. Per noi che amiamo smontare i giocattoli per vedere come sono fatti, questo scenario è un’arma a doppio taglio. Da un lato, l’idea di avere strutture che gestiscono la complessità in modo autonomo è estremamente stimolante. Da un lato, c’è il rischio concreto che queste ‘armature’ diventino dei veri e propri recinti invisibili. Vedete, il problema non è la tecnologia in sé, ma la tendenza del mercato a trasformare queste strutture in sistemi chiusi, dove non hai più il controllo del flusso perché ‘il loop decide così’. Non è che stia arrivando una legge europea che ci vieta di usare i cicli ‘for’, sia chiaro. La questione è più sottile e riguarda la nostra autonomia intellettuale. Quando i framework iniziano a gestire i cicli di feedback in modo totalmente astratto, perdiamo la capacità di capire dove finisce il nostro codice e dove inizia la ‘magia’ della macchina. E noi sappiamo bene che la magia, nel software, è solo un altro modo per dire ‘codice che non puoi debuggare’. Quindi, tra un progetto su Raspberry Pi e un commit su GitHub, teniamoci pronti. Il futuro non è una linea retta che punta verso l’infinito, ma un loop sempre più complesso. La sfida sarà assicurarci di avere sempre il comando di ‘break’ a portata di mano, prima che l’intero sistema decida che la nostra opinione non è più necessaria. Source: The Coming Loop

webnewsautomationprogramming paradigmssoftware engineeringTech Philosophy

Addio manoscritti illeggibili: è arrivato l’OCR che non si stanca mai

🇮🇹 · /root · Lamberto Tedaldi

Se avete mai provato a far leggere a un software standard un PDF con tabelle assurde, grafici sovrapposti e quel font che sembra uscito da un incubo di Lovecraft, sapete esattamente di cosa sto parlando. Di solito, o l’OCR si arrende, o ti restituisce un ammasso di caratteri senza senso che richiede più tempo per essere corretto che per essere digitato da zero. Ma oggi la musica cambia. È arrivato Unlimited-OCR, l’ultimo giocattolo di casa Baidu, e promette di trasformare il modo in cui interagiamo con i documenti digitali. Non stiamo parlando del solito miglioramento incrementale che trovi negli aggiornamenti mensili delle app commerciali; qui parliamo di un salto di paradigma nel modo in cui una macchina «legge» una pagina. Il vero punto di forza di questo modello è la sua capacità di gestire il contesto su larga scala. Invece di limitarsi a scansionare pezzetti di testo, il sistema è in grado di mantenere una visione d’insieme che chiamano «long-context parsing». Che si tratti di un singolo documento tecnico o di una serie di scansioni stratificate, l’algoritamente cerca di mantenere la coerenza strutturale. E la cosa più interessante? Il supporto per diverse modalità di input, dalla gestione di immagini singole a flussi di dati complessi che includono tabelle e layout non convenzionali. Per chi mastica Python e non vede l’ora di sporcarsi le mani con le API, la cosa bella è che il framework sembra essere piuttosto accessibile. Si può configurare il sistema per gestire modalità specifiche, come la modalità «gundam» (sì, hanno davvero usato quel nome per una configurazione, molto geek) o impostazioni ottimizzate per il parsing di immagini ad alta risoluzione. Il setup tramite SGLang e l’integrazione con i server per l’inferenza rendono il deployment meno simile a un incubo logistico e più a un normale lunedì mattina in ufficio. Naturalmente, non è tutto rose e fiori. Far girare modelli di questa potenza richiede una discreta dose di VRAM e hardware che non sia un vecchio laptop da ufficio. Ma se avete a disposizione una GPU che non pianga al solo pensiero di una matrice di pesi, il potenziale è enorme. La vera sfida sarà vedere come questo strumento si comporterà con i nostri PDF scansionati male, quelli che sembrano fatti con un fax del 1994 e una connessione 56k. In definitiva, l’arrivo di Unlimited-OCR segna un passo avanti verso quel mondo in cui la conversione tra analogico e digitale non sarà più una battaglia di trincea, ma un processo fluido, quasi invisibile. Se volete smettere di passare ore a correggere errori di OCR banali, iniziate a dare un’occhiata al repository. Potrebbe essere la soluzione che stavate aspettando. Source: Unlimited OCR: One-shot long-horizon parsing

webnewsaiautomationBaidumachine learning