Största mängden kärnor på det minsta brädet

iXCray

2016-07-11 13:08:14 UTC

view on stackexchange narkive permalink

Jag letar efter parallell beräkning i minsta möjliga form. Att till exempel ha två 18-kärnor Intel Xeon parkerad på båda sidor om moderkortet med kreditkortsstorlek skulle vara en idealisk lösning.

Det gick inte att hitta några moderkort (kompatibla med processorer med 10+ kärnor) utan USB-enheter. Wifi, PCIe och andra portar, vilket gör dem bara större.

Mer specifikt behöver jag bästa kärnor per kvadratmeterförhållande: CPU- och moderkortmodeller.

1,5-2 GHz är ok. Mer = bättre, men inte kritiskt
ja, det är att bygga högtät CPU-gård
nej, det är inte för gruvdrift, det är för matematik, icke-GPU-beräkningar
ja, mängden kärnor (multithreading) är kritisk
ja, stora 4x "Intel Broadwell-EP CPU" -serverns moderkort är ok tills de ger bästa kärnor / kvadratförhållande

Uppdaterad (12.07):

Med tanke på svaren nedan har jag just nu:

Ingen AMD alls, Xeon-processorer är det, E5 eller E7 ska utvärderas med kostnad / densitet / effektfaktor, kommer att uppdateras med beräkningar senare.
Jag är också i bladservrar med extrem densitet MED stöd för Xeon Phi - vissa applikationer körs på det snyggt med återanvändning av kod och data, har tillbringat en dag på att leta efter specifikationer och kostnad, kommer att uppdateras så snart det kommer att ha en fin konfiguration på händerna
angående CUDA och Nvidia Tesla, det är en separat fråga och det är löst redan, kommer att dela specifikationer med dig senare, tack, SEJPM!

Vad som redan har beslutats att konfigurationen ska ha BÅDE Xeon E5 / E7 och Xeon Phi på samma kort (dock inte på dem alla). Cray-superdatorer använder det redan

Uppdaterat (12.07) [2]:

För att vara tydlig: Jag har många små binära filer (plattformsplattform, C ++ och Java), var och en av dem fungerar i sekunder med full support för parallell beräkning. När det gäller situationer där det finns betydligt färre kärnor än mängden trådar / processer som startas, minskar den totala effektiviteten på grund av mycket sammanhang mellan processer. Och det finns inget sätt att köjobb, låt oss säga att de ska göras i realtid.

Bästa sättet är att distribuera dem mellan Xeon Phi (butikskod och förutbestämd med data) + kör andra som en liten tjänst (löser problem med binär laddningskostnad) som väntar på jobb.

Det är därför jag letar efter en relativt billig lösning med hög kärndensitet för att inte upprätthålla stora mängder enheter, lösa fler problem med data -logistisk.