12 Απριλίου 2025

Στην τελική ευθεία το νέο μοντέλο της κινεζικής DeepSeek: Φουντώνει ο πόλεμος για τον έλεγχο της ΑΙ


Η κινεζική DeepSeek που προκάλεσε σπεύδει να λανσάρει ένα νέο μοντέλο τεχνητής νοημοσύνης καθώς η Κίνα

Η κινεζική startup DeepSeek προκάλεσε σοκ στη Γουόλ Στριτ και απώλειες 1 τρισεκατομμυρίου δολαρίων στις παγκόσμιες αγορές μετοχών τον περασμένο μήνα με ένα «οικονομικό» μοντέλο τεχνητής νοημοσύνης που ξεπέρασε πολλούς δυτικούς ανταγωνιστές. Τώρα, η νεοφυής εταιρεία με έδρα το Χανγκζού επιταχύνει την κυκλοφορία του διάδοχου μοντέλου του R1 που κυκλοφόρησε τον Ιανουάριο, αναφέρει το Reuters.

Η Deepseek είχε σχεδιάσει να λανσάρει το R2 στις αρχές Μαΐου, αλλά τώρα θέλει να το κυκλοφορήσει όσο το δυνατόν νωρίτερα, είπαν πηγές κοντά στην εταιρεία χωρίς να δώσουν λεπτομέρειες. Η εταιρεία λέει ότι ελπίζει ότι το νέο μοντέλο θα παράγει καλύτερο κώδικα και θα μπορεί να «συλλογιστεί» σε γλώσσες πέρα ​​από τα αγγλικά.

Οι αντίπαλοι στη Δύση, παλεύουν ακόμη με τις επιπτώσεις του R1, το οποίο αν και κατασκευάστηκε με λιγότερο ισχυρά τσιπ της Nvidia, ανταγωνίζεται στα ίσα εκείνα που αναπτύχθηκαν με κόστος εκατοντάδων δισεκατομμυρίων δολαρίων από τεχνολογικούς γίγαντες των ΗΠΑ.

Κομβική στιγμή στον κλάδο της ΑΙ

«Η κυκλοφορία του μοντέλου R2 της DeepSeek θα μπορούσε να είναι μια κομβική στιγμή στον κλάδο της τεχνητής νοημοσύνης», δήλωσε ο Βιζαγιασίμα Αλιλουγκάτα, διευθύνων σύμβουλος της ινδικής εταιρείας παροχής τεχνολογικών υπηρεσιών Zensar. Η επιτυχία της DeepSeek στη δημιουργία οικονομικά αποδοτικών μοντέλων τεχνητής νοημοσύνης «πιθανότατα θα ωθήσει τις εταιρείες σε όλο τον κόσμο να επιταχύνουν τις προσπάθειές τους … σπάζοντας τον ασφυκτικό κλοιό των λίγων κυρίαρχων παικτών στον τομέα», είπε.

Το R2 είναι πιθανό να ανησυχήσει την κυβέρνηση των ΗΠΑ, η οποία θεωρεί εθνική προτεραιότητα την πρωτοκαθεδρία στον κλάδο της τεχνητής νοημοσύνης. Η κυκλοφορία του μπορεί να κινητοποιήσει περαιτέρω τις κινεζικές αρχές και τις εταιρείες που λένε ότι έχουν αρχίσει να ενσωματώνουν μοντέλα DeepSeek στα προϊόντα τους.
Λίγα είναι γνωστά για τη μυστηριώδη DeepSeek, της οποίας ο ιδρυτής Λιάνγκ Γουένφενγκ έγινε δισεκατομμυριούχος μέσω του hedge fund του High-Flyer. Ο Λιάνγκ, ο οποίος χαρακτηρίστηκε από έναν πρώην εργοδότη ως «χαμηλών τόνων και εσωστρεφής», δεν έχει μιλήσει σε κανένα μέσο από τον Ιούλιο του 2024.

Το Reuters πήρε συνεντεύξεις από δώδεκα πρώην υπαλλήλους, καθώς και επαγγελματίες του fund που γνωρίζουν τις λειτουργίες της DeepSeek και της μητρικής της εταιρείας High-Flyer. Εξέτασε επίσης άρθρα από τα κρατικά μέσα ενημέρωσης, αναρτήσεις στα μέσα κοινωνικής δικτύωσης από εταιρείες και ερευνητικές εργασίες που χρονολογούνται από το 2019. Περιέγραψαν μία εταιρεία που λειτουργούσε περισσότερο σαν ερευνητικό εργαστήριο παρά σαν κερδοσκοπική επιχείρηση και δεν ήταν επιβαρυμένη από τις ιεραρχικές παραδόσεις της βιομηχανίας τεχνολογίας υψηλής πίεσης της Κίνας, ακόμη και όταν έγινε υπεύθυνη για αυτό που πολλοί επενδυτές βλέπουν ως την τελευταία σημαντική ανακάλυψη στην τεχνητή νοημοσύνη.

Ποιος είναι ο «κος Deepseek»

Ο Λιάνγκ γεννήθηκε το 1985 σε ένα αγροτικό χωριό στη νότια επαρχία Γκουανγκντόνγκ. Αργότερα απέκτησε πτυχία μηχανικού στο επίλεκτο Πανεπιστήμιο Zεζιάνγκ. Μία από τις πρώτες του δουλειές ήταν να διευθύνει ένα ερευνητικό τμήμα σε μια εταιρεία στη Σαγκάη. Στη DeepSeek και στη High-Flyer, ο Λιάνγκ έχει αποφύγει παρομοίως τις πρακτικές των κινεζικών τεχνολογικών κολοσσών γνωστών για την άκαμπτη διαχείριση από πάνω προς τα κάτω, τις χαμηλές αμοιβές για νέους υπαλλήλους και το «9-9-6»- την εργασία από τις 9 π.μ. έως τις 9 μ.μ. έξι μέρες την εβδομάδα.

Ενώ η Baidu και άλλοι κινεζικοί τεχνολογικοί γίγαντες αγωνίζονταν για να δημιουργήσουν τις εκδόσεις του ChatGPT που απευθύνονται στους καταναλωτές το 2023 και να επωφεληθούν από την παγκόσμια έκρηξη της τεχνητής νοημοσύνης, ο Λιάνγκ απέφυγε σκόπιμα να ξοδέψει πολλά για την ανάπτυξη εφαρμογών, εστιάζοντας αντ ‘αυτού στη βελτίωση της ποιότητας του μοντέλου AI. Τόσο η DeepSeek όσο και η High-Flyer είναι γνωστό ότι πληρώνουν γενναιόδωρα, ενώ οι ανταγωνιστές σπάνια πληρώνουν περισσότερα.

Η επιτυχία του DeepSeek με ένα μοντέλο τεχνητής νοημοσύνης χαμηλού κόστους βασίζεται στη δεκαετή και ουσιαστική επένδυση της High-Flyer στην έρευνα και την υπολογιστική ισχύ, χρησιμοποιώντας τεχνικές όπως το Mixture-of-Experts (MoE) και η λανθάνουσα προσοχή πολλαπλών κεφαλών (MLA), οι οποίες συνεπάγονται πολύ χαμηλότερο κόστος υπολογιστών, δείχνουν τα ερευνητικά της έγγραφα.

Η τεχνική MoE διαιρεί ένα μοντέλο τεχνητής νοημοσύνης σε διαφορετικούς τομείς εξειδίκευσης και ενεργοποιεί μόνο αυτούς που σχετίζονται με ένα ερώτημα, σε αντίθεση με τις πιο κοινές αρχιτεκτονικές που χρησιμοποιούν ολόκληρο το μοντέλο.
Η αρχιτεκτονική MLA επιτρέπει σε ένα μοντέλο να επεξεργάζεται διαφορετικές πτυχές μιας πληροφορίας ταυτόχρονα, βοηθώντας το να εντοπίζει τις βασικές λεπτομέρειες πιο αποτελεσματικά.

Ενώ ανταγωνιστές όπως η Mistral της Γαλλίας έχουν αναπτύξει μοντέλα βασισμένα στο MoE, η DeepSeek ήταν η πρώτη εταιρεία που εξαρτήθηκε σε μεγάλο βαθμό από αυτήν την αρχιτεκτονική, ενώ πέτυχε αυτό που πετύχαιναν μοντέλα πολύ πιο ακριβά στην κατασκευή τους. Η τιμολόγηση της DeepSeek ήταν 20 έως 40 φορές φθηνότερη από αυτή που χρέωνε η OpenAI για ισοδύναμα μοντέλα, υπολόγισαν οι αναλυτές της χρηματιστηριακής εταιρείας Bernstein στις αρχές Φεβρουαρίου.

Προς το παρόν, οι δυτικοί και οι κινεζικοί τεχνολογικοί γίγαντες σχεδιάζουν να συνεχίσουν τις μεγάλες δαπάνες για τεχνητή νοημοσύνη, αλλά η επιτυχία του DeepSeek με το R1 και το προηγούμενο μοντέλο V3 ώθησε ορισμένους να αλλάξουν στρατηγικές. Η OpenAI μείωσε τις τιμές αυτόν τον μήνα, ενώ το Gemini της Google εισήγαγε μειωμένες βαθμίδες πρόσβασης.

Τουλάχιστον 13 τοπικές κυβερνήσεις και 10 κρατικές εταιρείες ενέργειας στην Κίνα λένε ότι έχουν αναπτύξει το DeepSeek στα συστήματά τους, ενώ οι τεχνολογικοί γίγαντες Lenovo , Baidu και Tencent έχουν ενσωματώσει εφαρμογές κοινωνικής δικτύωσης μοντέλα στα προϊόντα τους.

Οι Κινέζοι το «αγκαλιάζουν» καθώς οι κυβερνήσεις από τη Νότια Κορέα έως την Ιταλία αφαιρούν το DeepSeek από τα καταστήματα εφαρμογών τους, επικαλούμενες ανησυχίες για το απόρρητο. «Εάν η DeepSeek γίνει το μοντέλο AI σε όλες τις κινεζικές κρατικές οντότητες, οι δυτικές ρυθμιστικές αρχές μπορεί να το δουν ως έναν άλλο λόγο για να κλιμακώσουν τους περιορισμούς στα τσιπ τεχνητής νοημοσύνης ή στις συνεργασίες λογισμικού» λένε αναλυτές.


Αφήστε ένα μήνυμα

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ