Fråga:
Största mängden kärnor på det minsta brädet
iXCray
2016-07-11 13:08:14 UTC
view on stackexchange narkive permalink

Jag letar efter parallell beräkning i minsta möjliga form. Att till exempel ha två 18-kärnor Intel Xeon parkerad på båda sidor om moderkortet med kreditkortsstorlek skulle vara en idealisk lösning.

Det gick inte att hitta några moderkort (kompatibla med processorer med 10+ kärnor) utan USB-enheter. Wifi, PCIe och andra portar, vilket gör dem bara större.

Mer specifikt behöver jag bästa kärnor per kvadratmeterförhållande: CPU- och moderkortmodeller.

  • 1,5-2 GHz är ok. Mer = bättre, men inte kritiskt
  • ja, det är att bygga högtät CPU-gård
  • nej, det är inte för gruvdrift, det är för matematik, icke-GPU-beräkningar
  • ja, mängden kärnor (multithreading) är kritisk
  • ja, stora 4x "Intel Broadwell-EP CPU" -serverns moderkort är ok tills de ger bästa kärnor / kvadratförhållande

Uppdaterad (12.07):

Med tanke på svaren nedan har jag just nu:

  • Ingen AMD alls, Xeon-processorer är det, E5 eller E7 ska utvärderas med kostnad / densitet / effektfaktor, kommer att uppdateras med beräkningar senare.
  • Jag är också i bladservrar med extrem densitet MED stöd för Xeon Phi - vissa applikationer körs på det snyggt med återanvändning av kod och data, har tillbringat en dag på att leta efter specifikationer och kostnad, kommer att uppdateras så snart det kommer att ha en fin konfiguration på händerna
  • angående CUDA och Nvidia Tesla, det är en separat fråga och det är löst redan, kommer att dela specifikationer med dig senare, tack, SEJPM!

Vad som redan har beslutats att konfigurationen ska ha BÅDE Xeon E5 / E7 och Xeon Phi på samma kort (dock inte på dem alla). Cray-superdatorer använder det redan

Uppdaterat (12.07) [2]:

För att vara tydlig: Jag har många små binära filer (plattformsplattform, C ++ och Java), var och en av dem fungerar i sekunder med full support för parallell beräkning. När det gäller situationer där det finns betydligt färre kärnor än mängden trådar / processer som startas, minskar den totala effektiviteten på grund av mycket sammanhang mellan processer. Och det finns inget sätt att köjobb, låt oss säga att de ska göras i realtid.

Bästa sättet är att distribuera dem mellan Xeon Phi (butikskod och förutbestämd med data) + kör andra som en liten tjänst (löser problem med binär laddningskostnad) som väntar på jobb.

Det är därför jag letar efter en relativt billig lösning med hög kärndensitet för att inte upprätthålla stora mängder enheter, lösa fler problem med data -logistisk.

Fyra svar:
JBiggs
2016-09-09 00:05:17 UTC
view on stackexchange narkive permalink

Om du är villig att göra lite mer arbete med integration med vad du vill köra kan du prova ett Parallella-kort. Det ger dig en RISC-samprocessor med 16 kärnor plus en huvudkärnprocessor med dubbla kärnor på ett kort som är lika stort som ett kreditkort. De använder mycket lite energi och är speciellt utformade för att användas i kluster eller i parallella (därav namnet) applikationer. Som en bonus börjar de på cirka 100 dollar vardera och de kör Linux. https://www.parallella.org/

enter image description here

Nu, DETTA är något jag kanske är intresserad av, även om jag sannolikt skulle hitta mig själv att bygga ett anpassat fodral av trä eller något. Kan inte bara få dem att lägga ut alla oskyddade.
Adam Wykes
2016-07-11 19:03:29 UTC
view on stackexchange narkive permalink

Jag kommer att anta att du behöver x86-kompatibla kärnor / trådar, och jag kommer att anta att du inte vill använda något som Xeon Phi-beräkningskortet, av någon eller annan anledning. Jag kommer också att anta, eftersom du inte angav att energikrav och värmedispersionshänsyn inte är något du är orolig för, eftersom det inte nämndes.

Med detta sagt finns det några absoluta monster där ute kan passa in i ganska små byggnader.

På AMD-sidan har du fastnat tillbaka 2012 om du inte vill ha ARM, men du kan fortfarande få mycket kraftfulla 64 riktiga kärnsystem byggda på fyrsockel G34-serverkort som på något sätt är klämda in i 1U-chassi av Supermicro och andra företag.

På Intel-sidan, där jag misstänker att du kommer att hamna, kan du få den formidabla Intel Xeon E5-2699 V4, med 22 kärnor och 44 trådar PER PROCESSOR , på stora multi-CPU-kort eller på tunna ITX-kort som den här: http://www.anandtech.com/show/9221/asrock-rack-announces-epc612d4i, eller den här http://www.asrockrack.com/general/productdetail.asp?Model=EP2C612D8HM#Specifications - beroende på vilket sätt som ger dig mest densitet. Jag rekommenderar inte AsRock som ett varumärke i sig heller, jag visar dig bara vad som är möjligt med deras webbplats.

Om inget av det räcker måste du verkligen titta på saker som Xeon Phi, IBM Power8 eller ARM-arkitekturer. Även om de är mer exotiska och därför svårare att arbeta med, har dessa typer av CPU mycket höga beräkningstätheter, med olika tillvägagångssätt vardera. Mer information / forskning skulle behövas innan något inom detta område skulle kunna rekommenderas.

AsRock med två 2011-R3-uttag är bäst hittills. Kommer att kolla Xeon Phi och lägga till fler kommentarer efter det, tack! Om inget bättre kommer att hittas de närmaste dagarna markerar du ditt svar.
@iXCray noterar att Xeon E7s ibland har fler kärnor (för Broadwells åtminstone) och du kan köra dem i 4 och 8 sockelkonfigurationer i motsats till 2 sockets med E5s. De är dock super dyra (liksom 4/8 uttagskort)
Tack SEJPM - Jag trodde att jag saknade något angående E7-sortimentet, men i min korta sökning kunde jag inte hitta webbplatser som säljer dem med tillräckligt med information för att jag ska kunna ge en informerad rekommendation. Till OP - överväg en E7-konfiguration, kostnad inget objekt. Även om du var tvungen att gå "ner" till Broadwell skulle IPC-skillnaderna som övervägs inte uppväga nästan varje tillägg av trådar.
Mark Booth
2016-07-13 20:24:56 UTC
view on stackexchange narkive permalink

Ett annat alternativ du kanske vill titta på är industriella enkelkortdatorer baserade på PICMG 1.3-specifikationen.

Till exempel stöder ROBO-8122VG2R SBC ett par E5- 2600-serie-processorer:

ROBO-8122VG2R Dual Xeon SBC

Det finns också Advantech PCE-9228, som faktiskt anger att den stöder v3-processorer.

Kombinera dessa med ett fyrdelat bakre chassi och du kan eventuellt ha 8 Xeons och 4 Xeon Phi's i ett enda 4U 19 "rackchassi.

Quad split chassis backplane

Jag är inte säker på att detta skulle vara mer kompakt än ett kluster med 1U-rack-servrar, men jag misstänker att de kan vara lättare att arbeta med.

Tja, de är fantastiska, men det är mer troligt att jag använder Knights Landing (Xeon Phi) som redan inte bara är i form av co-processor utan i form av CPU. 60+ kärnor, 240+ hårdvarutrådar.
SEJPM
2016-07-12 00:48:57 UTC
view on stackexchange narkive permalink

I mitt svar kommer jag att utöka lite om Adams svar. Jag kommer också att begränsa mig till Intel-processorer och alla märkesrekommendationer bör tas med ett salt salt med tanke på att jag inte har någon faktisk / praktisk erfarenhet av denna typ av hårdvara.

Så ditt mål är maximal kärnans / rymdens densitet. Vad detta betyder är att du vill passa så många processorer i så små utrymmen som möjligt.

Om du inte bryr dig om fördelningen av processorer över moderkortet, så är 1U-servrar med fullskalig 2- socket Xeon E5 v4s är vägen att gå. Eller om du är villig att spendera lite tid på att söka och fråga maskinvaruleverantörer kan du förmodligen också få en 4-sockel Xeon E7 v4s 1U-installation (eller om du frågar verkligen trevligt en 8-sockel moderkort kan också passa, notera att 4XXX-processorer är för 4-uttagskonfigurationer och 8XXX-processorer är för 8-uttagskonfigurationer). Detta borde ha flest kärnor per rymdenhet om du inte bryr dig om att gruppera.

Om du vill ha så många kärnor på ett enda kort som möjligt, går det med Xeon E7 v4s med 8 uttag vägen att gå. Även om chansen är att det kommer att bli mindre optimalt i kärnan / rymdavdelningen.

Dessutom bör du överväga att använda Xeon Phi och / eller Nvidia Tesla acceleratorkort. Nvidia-korten passar bra med mycket parallelliserbara (små) arbetsbelastningar medan Phis i grunden är dumma ner Intel-processorer grupperade på ett PCIe-kort och stöder därmed linjär arbetsbelastning mycket bättre.

En sista anmärkning: Beroende på vad du planerar att göra kan en riktig RISC-arkitektur som PowerPC, ARM och SPARC vara värt en titt, med tanke på att många av de nuvarande Top500 superdatorer använder dessa arkitekturer.

Exempel på leverantörer av Xeon E7-utrustning inkluderar Delta Computers (endast på tyska?), Lenovo och Supermicro.
När det gäller processorerna är Intel Xeon E5 2699v4 den dubbla uttagsprocessorn med flest kärnor. Intel Xeon E5 4669 v4 för 4-uttag (endast 16 kärnor vardera) och Intel Xeon E7 8890 v4 för 8-uttag (24 fysiska kärnor vardera). Nvidia Tesla P100 är det bästa nuvarande superdatorkortet från Nvidia och Intel Xeon Phi 7290F är det bästa nuvarande Xeon Phi-kortet.

Jag inkluderade inte Teslas eftersom AFAIK de i huvudsak är GPU: er utan RAMDAC: er och andra grafikspecifika delar på dem, och DP-precision aktiverad i firmware. Om du tittar på OPs inlägg verkar de inte vilja ha GPGPU-beräkning.
@AdamWykes, Jag har inkluderat dem som ett alternativ, för jag vet inte den exakta arbetsbelastningen han har och för att göra Xeon Phis position tydligare och lätt att förstå.


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...